เครื่องมือสำคัญแต่คนใช้เครื่องมือก็สำคัญไม่แพ้กัน

จากคำพูดนี้ของแอดทอยเป็นคำพูดที่อธิบายความสำคัญของเครื่องมืออย่างเทคโนโลยีที่ปัจจุบันมีความสำคัญเป็นอย่างมากและพัฒนาอย่างต่อเนื่อง แต่สิ่งที่สำคัญไม่แพ้กันนั้นก็คือผู้ใช้เครื่องมืออย่างเรา ๆ ท่าน ๆ นั่นเอง คุณลองมองแบบเปรียบเทียบว่าถ้าหากคุณได้ดาบกายสิทธิ์แต่คุณใช้ไม่เป็น มันก็หมดความหมาย แต่ดาบชิ้นนั้นตกไปอยู่ในมืออัศวินผู้เชี่ยวชาญก็สามารถใช้เครื่องมือได้อย่างเต็มที่ เช่นกันเทคโนโลยีอย่าง AI ที่ทรงอานุภาพมาก ๆ ในยุคนี้ หากเราไม่พัฒนาความรู้ให้สามารถใช้เครื่องมือได้อย่างดี ก็จะทำให้เราไม่สามารถดึงศักยภาพของ ai มาใช้ได้ไม่ดีเท่าที่ควร แล้วด้วยเหตุผลนี้เองจึงทำให้ผมตัดสินใจสมัครเข้าคลาสนี้

จากในพาร์ทที่แล้ว ✍️ From FC to Bootcamp: My Gemini CLI Story ผมได้เรียนรู้เกี่ยว AI และ Gemini ไปเบื้องต้นแล้วในคลาสนี้ผมขอสรุปส่วนที่ได้เรียนรู้และการปฏิบัติมาเล่าให้คุณผู้อ่านได้เรียนรู้ไปพร้อม ๆ กันนะครับ

ในวันที่ 2 นี้แอดทอยได้แบ่งเป็น 2 ส่วน เบื้องต้นคือ Gemini Web และ Gemini CLI

#Gemini Web เครื่องมือชิ้นแรกที่แอดแนะนำคือ Gems แล้ว Gems คืออะไร ? และใช้ทำอะไรได้บ้าง ? เรามาดูกันเลยครับ Gems เป็นแชทบอตส่วนตัวที่เราสามารถออกแบบมาสำหรับการทำงานต่าง ๆ ได้ โดยในส่วนประกอบของ Gems ประกอบไปด้วย

  1. Name : ชื่อของ Gems ซึ่งเรามีไว้เลือกใช้งาน Gems
  2. Description : เป็นส่วนที่เราจะใช้ในการอธิบาย Gems ของเราว่าสามารถใช้งานอะไรได้บ้าง เป็นการเขียนคำอธิบายความสามารถของ Gems ที่เราสร้างไว้อย่างย่อ ๆ
  3. Instructions : ส่วนนี้เป็นส่วนสำคัญของ Gems เลย เป็นส่วนที่เราจะดำเนินการเขียน prompt คำสั่งว่าให้ Gems ทำอะไรบ้าง โดยหลักการที่เราจะใช้เขียนในส่วนนี้ก็ไม่ต่างกับการเขียน prompt โดยทั่วไปคือ เรายังยึดหลักของ RICE คือ Role บทบาทของ ai เป็นอะไร Instructions คือคำสั่งที่เราต้องการให้ทำคืออะไร Context บริบทที่เป็นเป้าหมายของเราเป็นแบบไหน และสุดท้าย Example ตัวอย่างงานที่เราค้องการหรือผลลัพธ์ที่เราอยากเห็นต้องออกมาหน้าตาเป็นอย่างไร ซึ่งส่วนนี้สำคัญมากเราจะได้ผลลัพธ์ออกมาดังใจคิดไหมก็ขึ้นกับส่วนนี้
  4. Default Tool : เครื่องมือพื้นฐานที่เราอยากให้ Gems แสดงผลออกมาซึ่งสามารถแสดงผลได้หลายอย่าง รวมทั้งออกมาในแบบของ Canvas ก็ได้ด้วย
  5. Knowledge : คือความรู้ที่เราต้องการป้อนให้ Gems โดยเราสามารถอัพโหลดเอกสารอ้างอิงที่เราจะใช้เพื่อสอนให้ Gems ได้ดึงแนวคิดจากเอกสารนั้นออกมา ซึ่ง Gems นี้สามารถทำและนำไปใช้ได้หลายอย่าง โดยแอดได้แสดงตัวอย่างของ Gems ในการนำไปใช้เป็น VOC Gems คือ Gems ช่วยวิเคราะห์​ feedback ของลูกค้า สามารถวิเคราะห์จากข้อความของลูกค้าแล้วออกมาเป็นผลลัพธ์ในรูปแบบของ JSON ที่สามารถนำไปใช้ต่อในแอพอื่นได้ นอกจากนี้ยังมีการใช้ Gems สร้าง Gems สรุป Video youtube podcast ซึ่งทำให้เราได้ไอเดียในการที่จะนำ Gems ไปปรับใช้กับงานของเรา โดยแอดแนะนำว่า Gems เป็นเหมือนกับ function ในการเขียนโค้ดซึ่งเราสามารถเรียกใช้ซ้ำ ๆ ได้ เหมาะกับเป็นบอตช่วยเราในงานที่น่าเบื่อ ๆ และต้องทำซ้ำ ๆ และที่สำคัญในการออกแบบ Gems คือการออกแบบ input ที่จะรับและ Output ที่ต้องการได้รับกลับมา

Pro Tips แอดทอยได้นำเสนอการสร้าง Gems สำหรับสร้าง Gems อื่นอีกหรือที่ตั้งชื่อไว้ว่า "Gemnerator" ซึ่งเป็นการดึงศักยภาพของ ai มาใช้ในการช่วยเขียน instruction ของ Gems ที่เราต้องการได้ แม้ว่าเราจะเห็นว่า AI จะสามารถสร้างสิ่งต่าง ๆ ได้มากมาย เราสามารถบอก AI ว่าเราอยากสร้างสิ่งโน้นสิ่งนี้ แลัวให้ ai สร้างสิ่งนั้นมาให้เรา แล้วเราจะอยู่ตรงไหนในโลกที่มี ai

แน่นอนว่า AI ทำงานได้เกือบ 100% แต่คนก็ยังมีส่วนสำคัญในการ อ่าน เขียน วิเคราะห์ ด้วนตนเองก่อนส่งคำสั่ง เพราะเราควรที่จะต้องจัดการ prompt ที่อยู่ตรงหน้าก่อนที่เราจะนำสิ่งนั้น ๆ ไปใช้

ในส่วนถัดมาจะเป็นของการใช้งาน Gemini web ที่แอดแนะนำให้ตั้งค่า Appendix setting ในส่วนแรกคือการเข้าไปตั้งค่า personal context เพราะเป็นสิ่งที่ทำให้ AI รู้จักเรามากขึ้น เมื่อมันรู้จักเรามันก็จะตอบตรงกับสิ่งที่เราต้องการมากขึ้นเท่านั้น โดยหลักการง่าย ๆ ในการเรียนเขีนน personal context คือ เขียนสิ่งที่เราเป็นเรา ซึ่งมีตัวแบบการเขียนไว้ดังนี้

  1. บอก AI ว่าคุณคือใคร ?
  2. บอกสิ่งที่คุณกำลังสนใจหรือสิ่งที่คุณชอบ
  3. บอกสิ่งที่เป็นเป้าหมายที่อยากจะทำในอีก 5 ปี 10 ปี ข้างหน้า

ยิ่งเราให้ข้อมูลมากขึ้นเท่าไหร่ ส่งไปมากเท่าไหร่ เราก็จะได้รับกลับมามากขึ้นเท่านั้น

และนี่คือเทคนิคการใช้ AI ที่จะทำให้เราได้ผลลัพธ์อย่างที่เราต้องการ นอกจากนี้ยังได้มีการแนะนำเครื่องมือ scheduled action เป็นเครื่องมือที่ตั้งค่าเหมือนตั้งเวลาในการทำงานต่าง ๆ เช่นเดียวกับสิ่งที่นักเขียนโค้ดเรียกว่า cron jobs หรือการ set corn ขึ้นมานั่นเอง ไม่เพียงเท่านั้นแอดยังแนะนำการใช้งานผ่าน temperary chat ที่ทาง Gemini จะเก็บข้อมูลการสนทนาของเราไว้เพียง 72 ชั่วโมงเท่านั้น ซึ่งการใช้งาน AI ผ่านเว็บเราควรที่จะคำนึงถึงความเป็นส่วนตัวทางข้อมูลด้วยเช่นกัน เพราะข้อมูลที่เราใช้ผ่าน AI จะถูกนำไปเทรนเพื่อพัฒนาและปรับปรุงหากเป็นข้อมูลที่มีความสำคัญมาก อาจทำให้เกิดความเสียหาย ดังนั้นก่อนการใช้งานข้อมูลควรพิจารณาให้ถี่ถ้วนเสียก่อน

AI คือพลังงานไฟฟ้า ⚡️ รูปแบบใหม่ ที่สามารถสร้างแอปใหม่ ๆ ได้อย่างดี AI เป็นผู้สร้างสิ่งต่าง ๆ ในโลกยุคใหม่สมกับคำที่ว่า "AI is a dream machine." และเครื่องจักรแห่งความฝันนี้คงจะไม่สมบูรณ์แบบหากปราศจากมนุษย์ที่คอยควบคุม ตรวจสอบ วิเคราะห์​ ก่อนที่จะได้รับผลงานออกมา

Gemini CLI

ก่อนที่เราจะเรียนรู้เกี่ยวกับการใช้ Gemini CLI เรามารู้จัก quick commands ที่จะใช้ใน teminal กันก่อนครับ

  1. pwd = print working directory เป็นการเริ่มเข้าสู่การทำงานในพื้นที่ทำงาน ช่วยบอกว่าเราอยู่ในตำแหน่งไหน
  2. cd = change directory เป็นการชี้ไปยังตำแหน่งโฟล์เดอร์ที่เราต้องการ
  3. cd .. = เป็นการย้อนกลับไปยังโฟล์เดอร์ก่อนหน้า
  4. mkdir = make directory (Create) เป็นการสร้างโฟล์เดอร์
  5. ls = list files in the folder เป็นการแสดงรายการ content ทั้งหมดในโฟล์เดอร์

เมื่อเรารู้จักคำสั่ง commands เบื้องต้นแล้วผมยังมีทิคเบื้องต้นการใช้งาน คือ Crtl+L = clear หน้าจอ ซึ่งอาจใช้ /clear ก็ได้เช่นกัน นอกจากนี้ยังมี tab เมื่อเราพิมพ์จะมีตัวช่วยเลือกคำสั่งใกล้เคียงมาแนะนำ echo = เป็นคำสั่ง print ข้อความ

จะเห็นได้ว่าการใช้งาน Gemini CLI สามารถใช้งานได้ง่ายผ่านเครื่องมือเบื้องต้นเหล่านี้ แล้วคำถามถัดไป อะไรคือ CLI ? CLI = Command Line Interface คือคล้าย ๆ การใช้งาน AI แต่เปลี่ยนที่เขียน prompt และเปลี่ยนหน้าตาของการเขียนไปเล็กน้อย ซึ่งไม่ต่างอะไรกับการใช้ Gemini Web

แล้วทำไมเราต้องใช้ CLI ด้วย?

  1. ความเร็วในการทำงาน
  2. เชื่อมต่อได้ง่าย
  3. ทำงานใน Local (Internet Access)
  4. จัดการไฟล์ จัดการโฟล์เดอร์ในเครื่องของเราได้
  5. สามารถ Access file ต่าง ๆ ได้ จะเห็นได้ว่าความสามารถของ CLI มีความสามารถมาก โดยเฉพาะการทำงานผ่าน local ซึ่งทำให้เราสามารถนำไปปรับใช้ในงานต่าง ๆ ได้อย่างมหาศาล แม้ว่า Gemini web จะสามารถสร้าง presentation ได้ แต่การ Access เข้าถึงไฟล์เพื่อแก้ไขอาจทำไม่ได้ แต่ CLI สามารถมาช่วยในข้อจำกัดนี้ได้

การทำงานใน CLI นั้นเราสามารถทำงานได้ 2 แบบ คือ

  1. REPL (Read evaluate print loop) เป็นการทำงานคล้าย ๆ กับการเขียน prompt ใน gemini web เมื่อได้ผลลัพธ์แล้วเราอ่านและส่งคำสั่งดำเนินการไปต่อเนื่องเป็นวงจร
  2. Headless mode เป็นรูปแบบการทำงานที่เราใส่ gemini -p "**prompt**" แล้วเมื่อรันคำสั่งผลลัพธ์ก็จะออกมาทันที เหมาะกับการใช้งานที่เราต้องการให้ได้รับผลลัพธ์ทีเดียว

ซึ่งจะเห็นได้ว่าทั้ง Gemini Web และ Gemini CLI นั้นมีประโยชน์ในการนำมาประยุกต์ใช้ได้ดีเหมือนกัน โดยเราอาจจะใช้ในส่วนของ web ในกรณีที่เริ่มต้นได้ไอเดียแต่เราอยู่ข้างนอกมีจข้อจำกัดด้านอุปกรณ์ เราก็จะใช้แบบ web ในส่วนของ chat bot ถามตอบ หาข้อมูล ทำ research ทำของง่าย ๆ ทำตัวต้นแบบ แล้วค่อยมาต่อใน Gemini CLI ที่เก่งกว่าสามารถ access local file ด้วยคอมพิวเตอร์

เริ่มต้นใช้งาน เมื่อเราลง shell เรียบร้อย เรามาดูกันว่าเราจะเริ่มใช้งานได้อย่างไร ในการใช้งาน CLI นั้น จะมี 2 โหมด คือ โหมด Shell เป็นโหมดที่เราสามารถทำงานเกี่ยวกันการ Navigate ในโฟล์เดอร์ ในเครื่อง โดยในโหมดนี้เราสามารถทำงานโดยประหยัด Token ได้ดีทีเดียว ตัวอย่างคำสั่งใน shell mode คือเมื่อต้องการใช้เรากด ! ตามด้วยคำสั่ง pwd, cd, mkdir หรือ ls ก็สามารถใช้งานได้เลย ส่วนอีกโหมดซึ่งเราน่าจะคุ้ยเคยคือ Prompt เป็นการใช้ภาษาธรรมชาติในที่นี้เราสามารถใช้ภาษาอังกฤษในการส่งคำสั่งเพื่อส่งคำสั่งไปยัง google cloud เพื่อให้ได้ Result กลับมา

เราควรเก็บ Token ไว้ในงานที่สำคัญ ๆ ในการทำงาน

นอกจากนี้ก่อนเริ่มโปรเจค เราอาจสร้างสมองเก็บไว้เพื่อให้เราสามารถทำงานต่อเนื่องในครั้งหน้าผ่านคำสั่ง /init สร้างไฟล์สมองไฟล์แรกทุกครั้งที่เปิด Gemini มา /memory เป็นเหมือนคำสั่งในการสร้าง personal setting ส่วน /footer เป็นการปรับในส่วนท้ายว่าเราต้องการให้โปรแกรมแสดงข้อมูลอะไรบ้าง

การเพิ่มความสามารถด้วย MCP MCP คืออะไร ? MCP = Model Content Potocal เป็นเครื่องมือที่ทำให้เราสามารถวิ่งไปที่มีฟังก์ชันให้ใช้ได้สำหรับ Gemini เช่น Notion Canva เป็นต้น ซึ่งสิ่งนี้นี่เองที่ช่วยทำให้เพิ่มความสามรถให้ Agent ทำงานได้มากขึ้น

เราก้าวข้ามจากยุค AI Chat Bot มาสู่ยุค Agentic AI เป็นการที่ AI ลงมือทำให้เรา เราสามารถสั่งงานให้ AI แล้ว AI ทำงานแทนเรา ผ่านกระบวนการ ReAct (Reson + Act) คือ AI จะเรียนรู้คำสั่งจนตกผลึกแล้วลงมือทำ

แม้ว่าความสามารถของ AI จะพัฒนาจนสามารถทำงานให้เราแล้วนั้น แต่เราก็คงไม่ลืมว่าเราต้องเป็นส่วนหนึ่งในการอ่าน เขียน วิเคราะห์ ตรวจสอบ และยังเป็นสารตั้งต้นของไอเดียต่าง ๆ แล้วต่อยอดด้วยเครื่องจักรความฝันอย่าง AI ให้มันเกิดขึ้นจริง แม้ว่าเนื้อหาวันที่ 2 ยังมีต่อนะครับ แต่ผมขอจบเพียงเท่านี้ก่อนแล้วอย่างลืมติดตามส่วนต่อของวันที่ 2 จากบทความถัดไปนะครับ