เครื่องมือสำคัญแต่คนใช้เครื่องมือก็สำคัญไม่แพ้กัน
จากคำพูดนี้ของแอดทอยเป็นคำพูดที่อธิบายความสำคัญของเครื่องมืออย่างเทคโนโลยีที่ปัจจุบันมีความสำคัญเป็นอย่างมากและพัฒนาอย่างต่อเนื่อง แต่สิ่งที่สำคัญไม่แพ้กันนั้นก็คือผู้ใช้เครื่องมืออย่างเรา ๆ ท่าน ๆ นั่นเอง คุณลองมองแบบเปรียบเทียบว่าถ้าหากคุณได้ดาบกายสิทธิ์แต่คุณใช้ไม่เป็น มันก็หมดความหมาย แต่ดาบชิ้นนั้นตกไปอยู่ในมืออัศวินผู้เชี่ยวชาญก็สามารถใช้เครื่องมือได้อย่างเต็มที่ เช่นกันเทคโนโลยีอย่าง AI ที่ทรงอานุภาพมาก ๆ ในยุคนี้ หากเราไม่พัฒนาความรู้ให้สามารถใช้เครื่องมือได้อย่างดี ก็จะทำให้เราไม่สามารถดึงศักยภาพของ ai มาใช้ได้ไม่ดีเท่าที่ควร แล้วด้วยเหตุผลนี้เองจึงทำให้ผมตัดสินใจสมัครเข้าคลาสนี้
จากในพาร์ทที่แล้ว ✍️ From FC to Bootcamp: My Gemini CLI Story ผมได้เรียนรู้เกี่ยว AI และ Gemini ไปเบื้องต้นแล้วในคลาสนี้ผมขอสรุปส่วนที่ได้เรียนรู้และการปฏิบัติมาเล่าให้คุณผู้อ่านได้เรียนรู้ไปพร้อม ๆ กันนะครับ
ในวันที่ 2 นี้แอดทอยได้แบ่งเป็น 2 ส่วน เบื้องต้นคือ Gemini Web และ Gemini CLI
#Gemini Web เครื่องมือชิ้นแรกที่แอดแนะนำคือ Gems แล้ว Gems คืออะไร ? และใช้ทำอะไรได้บ้าง ? เรามาดูกันเลยครับ Gems เป็นแชทบอตส่วนตัวที่เราสามารถออกแบบมาสำหรับการทำงานต่าง ๆ ได้ โดยในส่วนประกอบของ Gems ประกอบไปด้วย
- Name : ชื่อของ Gems ซึ่งเรามีไว้เลือกใช้งาน Gems
- Description : เป็นส่วนที่เราจะใช้ในการอธิบาย Gems ของเราว่าสามารถใช้งานอะไรได้บ้าง เป็นการเขียนคำอธิบายความสามารถของ Gems ที่เราสร้างไว้อย่างย่อ ๆ
- Instructions : ส่วนนี้เป็นส่วนสำคัญของ Gems เลย เป็นส่วนที่เราจะดำเนินการเขียน prompt คำสั่งว่าให้ Gems ทำอะไรบ้าง โดยหลักการที่เราจะใช้เขียนในส่วนนี้ก็ไม่ต่างกับการเขียน prompt โดยทั่วไปคือ เรายังยึดหลักของ RICE คือ Role บทบาทของ ai เป็นอะไร Instructions คือคำสั่งที่เราต้องการให้ทำคืออะไร Context บริบทที่เป็นเป้าหมายของเราเป็นแบบไหน และสุดท้าย Example ตัวอย่างงานที่เราค้องการหรือผลลัพธ์ที่เราอยากเห็นต้องออกมาหน้าตาเป็นอย่างไร ซึ่งส่วนนี้สำคัญมากเราจะได้ผลลัพธ์ออกมาดังใจคิดไหมก็ขึ้นกับส่วนนี้
- Default Tool : เครื่องมือพื้นฐานที่เราอยากให้ Gems แสดงผลออกมาซึ่งสามารถแสดงผลได้หลายอย่าง รวมทั้งออกมาในแบบของ Canvas ก็ได้ด้วย
- Knowledge : คือความรู้ที่เราต้องการป้อนให้ Gems โดยเราสามารถอัพโหลดเอกสารอ้างอิงที่เราจะใช้เพื่อสอนให้ Gems ได้ดึงแนวคิดจากเอกสารนั้นออกมา ซึ่ง Gems นี้สามารถทำและนำไปใช้ได้หลายอย่าง โดยแอดได้แสดงตัวอย่างของ Gems ในการนำไปใช้เป็น VOC Gems คือ Gems ช่วยวิเคราะห์ feedback ของลูกค้า สามารถวิเคราะห์จากข้อความของลูกค้าแล้วออกมาเป็นผลลัพธ์ในรูปแบบของ JSON ที่สามารถนำไปใช้ต่อในแอพอื่นได้ นอกจากนี้ยังมีการใช้ Gems สร้าง Gems สรุป Video youtube podcast ซึ่งทำให้เราได้ไอเดียในการที่จะนำ Gems ไปปรับใช้กับงานของเรา โดยแอดแนะนำว่า Gems เป็นเหมือนกับ function ในการเขียนโค้ดซึ่งเราสามารถเรียกใช้ซ้ำ ๆ ได้ เหมาะกับเป็นบอตช่วยเราในงานที่น่าเบื่อ ๆ และต้องทำซ้ำ ๆ และที่สำคัญในการออกแบบ Gems คือการออกแบบ input ที่จะรับและ Output ที่ต้องการได้รับกลับมา
Pro Tips แอดทอยได้นำเสนอการสร้าง Gems สำหรับสร้าง Gems อื่นอีกหรือที่ตั้งชื่อไว้ว่า "Gemnerator" ซึ่งเป็นการดึงศักยภาพของ ai มาใช้ในการช่วยเขียน instruction ของ Gems ที่เราต้องการได้ แม้ว่าเราจะเห็นว่า AI จะสามารถสร้างสิ่งต่าง ๆ ได้มากมาย เราสามารถบอก AI ว่าเราอยากสร้างสิ่งโน้นสิ่งนี้ แลัวให้ ai สร้างสิ่งนั้นมาให้เรา แล้วเราจะอยู่ตรงไหนในโลกที่มี ai
แน่นอนว่า AI ทำงานได้เกือบ 100% แต่คนก็ยังมีส่วนสำคัญในการ อ่าน เขียน วิเคราะห์ ด้วนตนเองก่อนส่งคำสั่ง เพราะเราควรที่จะต้องจัดการ prompt ที่อยู่ตรงหน้าก่อนที่เราจะนำสิ่งนั้น ๆ ไปใช้
ในส่วนถัดมาจะเป็นของการใช้งาน Gemini web ที่แอดแนะนำให้ตั้งค่า Appendix setting ในส่วนแรกคือการเข้าไปตั้งค่า personal context เพราะเป็นสิ่งที่ทำให้ AI รู้จักเรามากขึ้น เมื่อมันรู้จักเรามันก็จะตอบตรงกับสิ่งที่เราต้องการมากขึ้นเท่านั้น โดยหลักการง่าย ๆ ในการเรียนเขีนน personal context คือ เขียนสิ่งที่เราเป็นเรา ซึ่งมีตัวแบบการเขียนไว้ดังนี้
- บอก AI ว่าคุณคือใคร ?
- บอกสิ่งที่คุณกำลังสนใจหรือสิ่งที่คุณชอบ
- บอกสิ่งที่เป็นเป้าหมายที่อยากจะทำในอีก 5 ปี 10 ปี ข้างหน้า
ยิ่งเราให้ข้อมูลมากขึ้นเท่าไหร่ ส่งไปมากเท่าไหร่ เราก็จะได้รับกลับมามากขึ้นเท่านั้น
และนี่คือเทคนิคการใช้ AI ที่จะทำให้เราได้ผลลัพธ์อย่างที่เราต้องการ นอกจากนี้ยังได้มีการแนะนำเครื่องมือ scheduled action เป็นเครื่องมือที่ตั้งค่าเหมือนตั้งเวลาในการทำงานต่าง ๆ เช่นเดียวกับสิ่งที่นักเขียนโค้ดเรียกว่า cron jobs หรือการ set corn ขึ้นมานั่นเอง ไม่เพียงเท่านั้นแอดยังแนะนำการใช้งานผ่าน temperary chat ที่ทาง Gemini จะเก็บข้อมูลการสนทนาของเราไว้เพียง 72 ชั่วโมงเท่านั้น ซึ่งการใช้งาน AI ผ่านเว็บเราควรที่จะคำนึงถึงความเป็นส่วนตัวทางข้อมูลด้วยเช่นกัน เพราะข้อมูลที่เราใช้ผ่าน AI จะถูกนำไปเทรนเพื่อพัฒนาและปรับปรุงหากเป็นข้อมูลที่มีความสำคัญมาก อาจทำให้เกิดความเสียหาย ดังนั้นก่อนการใช้งานข้อมูลควรพิจารณาให้ถี่ถ้วนเสียก่อน
AI คือพลังงานไฟฟ้า ⚡️ รูปแบบใหม่ ที่สามารถสร้างแอปใหม่ ๆ ได้อย่างดี AI เป็นผู้สร้างสิ่งต่าง ๆ ในโลกยุคใหม่สมกับคำที่ว่า "AI is a dream machine." และเครื่องจักรแห่งความฝันนี้คงจะไม่สมบูรณ์แบบหากปราศจากมนุษย์ที่คอยควบคุม ตรวจสอบ วิเคราะห์ ก่อนที่จะได้รับผลงานออกมา
Gemini CLI
ก่อนที่เราจะเรียนรู้เกี่ยวกับการใช้ Gemini CLI เรามารู้จัก quick commands ที่จะใช้ใน teminal กันก่อนครับ
pwd= print working directory เป็นการเริ่มเข้าสู่การทำงานในพื้นที่ทำงาน ช่วยบอกว่าเราอยู่ในตำแหน่งไหนcd= change directory เป็นการชี้ไปยังตำแหน่งโฟล์เดอร์ที่เราต้องการcd ..= เป็นการย้อนกลับไปยังโฟล์เดอร์ก่อนหน้าmkdir= make directory (Create) เป็นการสร้างโฟล์เดอร์ls= list files in the folder เป็นการแสดงรายการ content ทั้งหมดในโฟล์เดอร์
เมื่อเรารู้จักคำสั่ง commands เบื้องต้นแล้วผมยังมีทิคเบื้องต้นการใช้งาน คือ Crtl+L = clear หน้าจอ ซึ่งอาจใช้ /clear ก็ได้เช่นกัน นอกจากนี้ยังมี tab เมื่อเราพิมพ์จะมีตัวช่วยเลือกคำสั่งใกล้เคียงมาแนะนำ echo = เป็นคำสั่ง print ข้อความ
จะเห็นได้ว่าการใช้งาน Gemini CLI สามารถใช้งานได้ง่ายผ่านเครื่องมือเบื้องต้นเหล่านี้ แล้วคำถามถัดไป อะไรคือ CLI ? CLI = Command Line Interface คือคล้าย ๆ การใช้งาน AI แต่เปลี่ยนที่เขียน prompt และเปลี่ยนหน้าตาของการเขียนไปเล็กน้อย ซึ่งไม่ต่างอะไรกับการใช้ Gemini Web
แล้วทำไมเราต้องใช้ CLI ด้วย?
- ความเร็วในการทำงาน
- เชื่อมต่อได้ง่าย
- ทำงานใน Local (Internet Access)
- จัดการไฟล์ จัดการโฟล์เดอร์ในเครื่องของเราได้
- สามารถ Access file ต่าง ๆ ได้ จะเห็นได้ว่าความสามารถของ CLI มีความสามารถมาก โดยเฉพาะการทำงานผ่าน local ซึ่งทำให้เราสามารถนำไปปรับใช้ในงานต่าง ๆ ได้อย่างมหาศาล แม้ว่า Gemini web จะสามารถสร้าง presentation ได้ แต่การ Access เข้าถึงไฟล์เพื่อแก้ไขอาจทำไม่ได้ แต่ CLI สามารถมาช่วยในข้อจำกัดนี้ได้
การทำงานใน CLI นั้นเราสามารถทำงานได้ 2 แบบ คือ
- REPL (Read evaluate print loop) เป็นการทำงานคล้าย ๆ กับการเขียน prompt ใน gemini web เมื่อได้ผลลัพธ์แล้วเราอ่านและส่งคำสั่งดำเนินการไปต่อเนื่องเป็นวงจร
- Headless mode เป็นรูปแบบการทำงานที่เราใส่
gemini -p "**prompt**"แล้วเมื่อรันคำสั่งผลลัพธ์ก็จะออกมาทันที เหมาะกับการใช้งานที่เราต้องการให้ได้รับผลลัพธ์ทีเดียว
ซึ่งจะเห็นได้ว่าทั้ง Gemini Web และ Gemini CLI นั้นมีประโยชน์ในการนำมาประยุกต์ใช้ได้ดีเหมือนกัน โดยเราอาจจะใช้ในส่วนของ web ในกรณีที่เริ่มต้นได้ไอเดียแต่เราอยู่ข้างนอกมีจข้อจำกัดด้านอุปกรณ์ เราก็จะใช้แบบ web ในส่วนของ chat bot ถามตอบ หาข้อมูล ทำ research ทำของง่าย ๆ ทำตัวต้นแบบ แล้วค่อยมาต่อใน Gemini CLI ที่เก่งกว่าสามารถ access local file ด้วยคอมพิวเตอร์
เริ่มต้นใช้งาน
เมื่อเราลง shell เรียบร้อย เรามาดูกันว่าเราจะเริ่มใช้งานได้อย่างไร
ในการใช้งาน CLI นั้น จะมี 2 โหมด คือ โหมด Shell เป็นโหมดที่เราสามารถทำงานเกี่ยวกันการ Navigate ในโฟล์เดอร์ ในเครื่อง โดยในโหมดนี้เราสามารถทำงานโดยประหยัด Token ได้ดีทีเดียว ตัวอย่างคำสั่งใน shell mode คือเมื่อต้องการใช้เรากด ! ตามด้วยคำสั่ง pwd, cd, mkdir หรือ ls ก็สามารถใช้งานได้เลย
ส่วนอีกโหมดซึ่งเราน่าจะคุ้ยเคยคือ Prompt เป็นการใช้ภาษาธรรมชาติในที่นี้เราสามารถใช้ภาษาอังกฤษในการส่งคำสั่งเพื่อส่งคำสั่งไปยัง google cloud เพื่อให้ได้ Result กลับมา
เราควรเก็บ Token ไว้ในงานที่สำคัญ ๆ ในการทำงาน
นอกจากนี้ก่อนเริ่มโปรเจค เราอาจสร้างสมองเก็บไว้เพื่อให้เราสามารถทำงานต่อเนื่องในครั้งหน้าผ่านคำสั่ง /init
สร้างไฟล์สมองไฟล์แรกทุกครั้งที่เปิด Gemini มา /memory เป็นเหมือนคำสั่งในการสร้าง personal setting ส่วน /footer เป็นการปรับในส่วนท้ายว่าเราต้องการให้โปรแกรมแสดงข้อมูลอะไรบ้าง
การเพิ่มความสามารถด้วย MCP MCP คืออะไร ? MCP = Model Content Potocal เป็นเครื่องมือที่ทำให้เราสามารถวิ่งไปที่มีฟังก์ชันให้ใช้ได้สำหรับ Gemini เช่น Notion Canva เป็นต้น ซึ่งสิ่งนี้นี่เองที่ช่วยทำให้เพิ่มความสามรถให้ Agent ทำงานได้มากขึ้น
เราก้าวข้ามจากยุค AI Chat Bot มาสู่ยุค Agentic AI เป็นการที่ AI ลงมือทำให้เรา เราสามารถสั่งงานให้ AI แล้ว AI ทำงานแทนเรา ผ่านกระบวนการ ReAct (Reson + Act) คือ AI จะเรียนรู้คำสั่งจนตกผลึกแล้วลงมือทำ
แม้ว่าความสามารถของ AI จะพัฒนาจนสามารถทำงานให้เราแล้วนั้น แต่เราก็คงไม่ลืมว่าเราต้องเป็นส่วนหนึ่งในการอ่าน เขียน วิเคราะห์ ตรวจสอบ และยังเป็นสารตั้งต้นของไอเดียต่าง ๆ แล้วต่อยอดด้วยเครื่องจักรความฝันอย่าง AI ให้มันเกิดขึ้นจริง แม้ว่าเนื้อหาวันที่ 2 ยังมีต่อนะครับ แต่ผมขอจบเพียงเท่านี้ก่อนแล้วอย่างลืมติดตามส่วนต่อของวันที่ 2 จากบทความถัดไปนะครับ
Comments