Mini Gemini Bootcamp (day02) ep.2

เรามาถึงบทสรุปสุดท้ายของเนื้อหาจากการหลักสูตร Mini Gemini Bootcamp ซึ่งมุ่งเน้นไปที่การเรียนรู้ถึง การเปลี่ยนผ่านจากยุคของ Chatbot ไปสู่ยุคของ Agentic AI ผ่านการใช้งาน Gemini CLI (Command Line Interface) เครื่องมือนี้ช่วยให้ผู้ใช้สามารถสั่งงาน AI ให้ลงมือปฏิบัติการจริงในเครื่องคอมพิวเตอร์ ไม่ว่าจะเป็นการสร้างฐานข้อมูล การติดตั้งซอฟต์แวร์ หรือการเชื่อมต่อกับบริการภายนอกผ่านโปรโตคอล MCP (Model Context Protocol)

ประเด็นสำคัญที่ถูกเน้นย้ำคือ AI ในปัจจุบันเปรียบเสมือน "Dream Machine" ที่สามารถเปลี่ยนความคิดให้เป็นผลงานได้ทันทีหากผู้ใช้สามารถอธิบายกระบวนการได้อย่างชัดเจน หัวใจสำคัญของการทำงานในยุคใหม่คือการบริหารจัดการ "Token" และการใช้โครงสร้างแบบ Project-based เพื่อให้ AI มีบริบท (Context) ที่แม่นยำที่สุดในการทำงานแต่ละประเภท

พลังของ Agentic AI

เมื่อ AI ไม่ได้เป็นแค่ Chatbot แต่เปลี่ยนเป็น "Dream Machine" เรากำลังยืนอยู่บนรอยต่อของประวัติศาสตร์เทคโนโลยีที่น่าตื่นเต้นที่สุด เพราะเรากำลังก้าวข้ามยุคของการแค่ "ถาม-ตอบ" ไปสู่ยุคของ "การสั่งงานและลงมือทำ" อย่างเต็มรูปแบบ AI ในวันนี้ไม่ใช่แค่คู่สนทนา แต่เป็น "Dream Machine" (เครื่องจักรแห่งความฝัน) ที่พร้อมจะเปลี่ยนไอเดียในหัวของคุณให้กลายเป็นความจริงได้ในพริบตา

Chatbot ทั่วไป vs. AI Agent (The Great Paradigm Shift)

เพื่อให้เห็นภาพชัดเจนว่าทำไมเราถึงต้องตื่นเต้นกับสิ่งนี้ มาดูความแตกต่างระหว่าง Chatbot แบบเดิมที่คุ้นเคย กับ AI Agent ที่เปรียบเสมือนเพื่อนร่วมงานอัจฉริยะผ่านตารางนี้กัน

หัวข้อวิเคราะห์ Chatbot แบบเดิม (Traditional Chatbot) AI Agent (Agentic AI)
การตอบสนอง (Response) เน้นการตอบคำถามตามข้อมูลที่มี (Passive) เน้นการแก้ปัญหาและบรรลุเป้าหมาย (Proactive)
ความสามารถ (Action) ทำได้เพียงแค่ "พูด" หรือ "เขียน" ข้อความ สามารถ "ลงมือทำ" เช่น สร้างไฟล์, รันโค้ด, ต่อ Database
ความจำ (Context/Memory) จำได้แค่บทสนทนาล่าสุด (Short-term) มีระบบหน่วยความจำระดับโปรเจกต์ และจำความชอบส่วนตัวได้
เป้าหมาย (Goal) ตอบคำถามให้จบเป็นครั้งๆ ไป ทำงานจนกว่า "ภารกิจ" จะสำเร็จ (Objective-driven)

💡 So What? นี่คือการเปลี่ยนกระบวนทัศน์ (Paradigm Shift) ครั้งใหญ่ จากเดิมที่เราต้องลงมือทำเองทุกขั้นตอน AI Agent จะเปลี่ยนบทบาทมนุษย์จาก "คนทำงาน" (Doer) ให้กลายเป็น "ผู้ออกคำสั่งและผู้ตรวจทาน" (Director & Reviewer) ซึ่งช่วยขยายขีดความสามารถของเราให้ไร้ขีดจำกัด

หัวใจของ Agentic AI: แนวคิด 'Reason and Act' (ReAct)

Agentic AI ไม่ได้ทำงานแบบสุ่ม แต่มันมีกระบวนการคิดที่เป็นตรรกะที่เรียกว่า ReAct (Reason + Act) และที่สำคัญคือต้องมีการ "วางแผน" ก่อนเริ่มงานเสมอ โดยมีขั้นตอนดังนี้:

  1. Understand: วิเคราะห์คำสั่ง (Prompt) อย่างลึกซึ้ง
  2. Plan (สำคัญมาก!): ก่อนจะลงมือทำ AI จะเข้าสู่ Plan Mode (ผ่านคำสั่ง /plan หรือ "Enter Plan mode") เพื่อออกแบบโครงสร้างงาน (Architecture) และขั้นตอนทั้งหมดอย่างเป็นระบบ
  3. Reason: คิดวิเคราะห์ในแต่ละขั้นตอนว่าต้องใช้เครื่องมืออะไร
  4. Act: ตัดสินใจเรียกใช้เครื่องมือ (Tools) เช่น การรันคำสั่ง Shell หรือการเขียนโค้ดเพื่อให้เกิดผลลัพธ์จริง

หัวใจสำคัญที่ทำให้ AI ยุคนี้แตกต่างคือแนวคิด React (Reason + Act) หรือการที่ AI สามารถ “ตกผลึกทางความคิด” แล้ว “ลงมือปฏิบัติ” ได้ทันที ในโลกของ Agentic AI มันไม่ได้แค่ "บอก" วิธีทำ แต่เริ่ม "ลงมือ" ให้เราทันที

ตัวอย่างที่ชัดเจนที่สุดคือการสร้างระบบฐานข้อมูล (Database) อย่าง burger.db แทนที่จะต้องมานั่งเขียน Code เอง เราเพียงแค่สั่งด้วยภาษาธรรมชาติ AI จะทำการวิเคราะห์ (Reason) และตรวจสอบก่อนว่าในเครื่องเรามีซอฟต์แวร์ที่จำเป็นหรือไม่ ซึ่งถ้าเครื่องเราไม่มีโปรแกรมอย่าง R หรือ Python ติดตั้งอยู่ AI สามารถขออนุญาตใช้คำสั่ง sudo เพื่อ ติดตั้ง (Act) ซอฟต์แวร์เหล่านั้นให้เราได้เองในทันที

ในกระบวนการนี้ยังมีระบบ Interactive Shell (Human-in-the-loop) ที่ AI จะสื่อสารกับเราตลอด เช่น เมื่อต้องใส่รหัสผ่านเพื่อติดตั้งโปรแกรม มันจะขึ้นสถานะ tab to focus เพื่อให้เรากรอก Password ได้อย่างปลอดภัย นี่คือการทำงานร่วมกันอย่างแท้จริง

นอกจากนี้ ในการทำงานระดับโปร Gemini จะมี "Sub-Agents" หรือลูกน้องมือโปรคอยช่วยคุณ เช่น:

เริ่มต้นโปรเจกต์ด้วย /init: การสร้าง 'สมอง' ของงาน

ขั้นตอนแรกที่สำคัญที่สุดเมื่อเปิดโฟลเดอร์งานใหม่คือคำสั่ง /init (Initialization) เพื่อสร้างรากฐานความเข้าใจให้กับ AI ไฟล์ gemini.md หัวใจที่ AI ต้องอ่านก่อนเสมอ เมื่อคุณรันคำสั่ง /init ระบบจะสร้างไฟล์ gemini.md ขึ้นมา นี่คือ "ไฟล์สมอง" และเป็น ไฟล์แรกที่ Gemini จะวิ่งมาอ่านทุกครั้ง เมื่อคุณเปิดโปรเจกต์ เพื่อให้มั่นใจว่ามันเข้าใจบริบทงานปัจจุบันแม้คุณจะทิ้งงานไปหลายวันก็ตาม

3 สิ่งสำคัญที่ gemini.md เก็บไว้:

  1. Project Structure: โครงสร้างไฟล์ทั้งหมดในโปรเจกต์
  2. Technical Specs: รายละเอียดทางเทคนิคและสเปกของงาน
  3. Objectives: เป้าหมายหลักที่คุณต้องการบรรลุในโปรเจกต์นี้

การปรับแต่งบริบทส่วนตัวด้วย /memory

เพื่อให้ AI ตอบสนองได้ตรงใจเหมือนเพื่อนสนิทที่รู้ใจคุณที่สุด เราสามารถป้อน Personal Context ผ่านคำสั่ง /memory add ซึ่งจะทำหน้าที่เหมือนฟีเจอร์ Memory ใน Web App

ตัวอย่างการพิมพ์คำสั่ง: /memory add My name is Brian, I am from Korea, and I love McDonald's.

ตารางเปรียบเทียบพลังของ Memory

สถานะ การตอบสนองของ AI ตัวอย่างผลลัพธ์
ก่อนมี Memory ตอบตามข้อมูลทั่วไป ไม่รู้ว่าคุณเป็นใคร "สวัสดีครับ มีอะไรให้ช่วยไหมครับ?"
หลังมี Memory ปรับเนื้อหาให้เข้ากับตัวตนและความชอบของคุณ "สวัสดีครับ Brian! วันนี้รับเมนูเบอร์เกอร์ใหม่จาก McDonald's ไปทานระหว่างวางแผนโปรเจกต์ที่เกาหลีไหมครับ?"

การใช้งานอย่างมือโปรต้องรู้จักบริหาร "งบประมาณ" การใช้งาน ด้วย 2 เครื่องมือหลัก: /stat: ตรวจสอบโควต้าใช้งาน คำสั่งนี้จะบอกว่าคุณเหลือ "กระสุน" ในการสั่งการเท่าไหร่ในแต่ละวัน:

/footer: ปรับแต่งแถบสถานะ (The Dashboard) คุณสามารถเลือกสิ่งที่ต้องการเห็นที่ท้ายหน้าจอได้ เพื่อช่วยในการตัดสินใจ:

ข้อมูลใน Footer ประโยชน์สำหรับมือใหม่
Workspace มั่นใจว่า AI กำลังทำงานถูกโฟลเดอร์ ไม่ไปลบไฟล์งานอื่น
Model Name เช็คว่าใช้รุ่น Flash (เร็ว/ประหยัด) หรือ Pro (ฉลาดล้ำ)
Context Usage ดูว่าข้อมูลที่คุยกันเริ่ม "ล้น" ความจำหรือยัง
Token Count เห็นต้นทุนที่ใช้ไปในแต่ละคำสั่งแบบ Real-time

เมื่อเราใช้งานไปสักพัก ข้อมูลบทสนทนาจะเริ่มหนาแน่น ซึ่งส่งผลต่อ 'งบประมาณ (Token)' ของเรา

การบริหาร 'งบประมาณ Token' ด้วย /compress

ในโลกของ Agentic AI "Token คือเงิน" และการบริหาร Token คือทักษะที่จะช่วยให้คุณมี "100x Productivity" ยิ่งบทสนทนายาว AI ยิ่งต้องแบกประวัติเยอะ ทำให้เปลือง Token และทำงานช้าลง คำสั่ง /compress คือการ "Zip" หรือบีบอัดประวัติการแชท โดยสรุปเฉพาะใจความสำคัญที่จำเป็นต่อการทำงานต่อไว้ ทำให้ประหยัดงบในกระเป๋าได้มหาศาล

ตัวอย่างประสิทธิภาพจากประสบการณ์จริง:

การบันทึกและจัดการบทสนทนา (/chat)

เมื่อคุณปั้นโปรเจกต์จนได้ผลลัพธ์เรียบร้อย อย่าลืมจัดการมันด้วยคำสั่งเหล่านี้:

สิ่งที่มือใหม่ควรลองทำ (Checkpoint List):

สรุปตารางคำสั่งด่วน (Quick Reference Table)

คำสั่ง หน้าที่หลัก เมื่อไหร่ที่ควรใช้
/init วิเคราะห์โปรเจกต์และสร้าง gemini.md ก้าวแรกของทุกโปรเจกต์ใหม่
/memory add เพิ่มข้อมูลส่วนตัว (Personal Context) เมื่อต้องการให้ AI รู้ใจเราเหมือนเพื่อน
/stat ดู Request คงเหลือและเวลา Reset เมื่อต้องการวางแผนการใช้งานให้คุ้มค่า
/footer ปรับแต่งแถบสถานะด้านล่าง เมื่อต้องการตรวจสอบ Model หรือ Token สดๆ
/compress สรุปและย่อประวัติเพื่อประหยัด Token เมื่อแชทเริ่มยาวหรือ AI เริ่มตอบช้า
/chat save/share บันทึก Checkpoint หรือส่งออกไฟล์ เมื่อได้ผลลัพธ์ที่ต้องการและอยากเก็บไว้
/help แสดงรายการคำสั่งทั้งหมด เมื่อจำชื่อคำสั่งไม่ได้ หรืออยากค้นหาฟีเจอร์ใหม่

"No Token, No Work - บริหาร Token ให้ดี แล้ว AI จะขยับพลังการผลิตของคุณไปสู่ระดับ 100x"

Model Context Protocol (MCP)

MCP คือโปรโตคอลที่ทำหน้าที่เป็นเลเยอร์การสื่อสารระหว่าง Gemini CLI และบริการภายนอก เปรียบเสมือนการเชื่อมต่อ USB ระหว่างคอมพิวเตอร์สองเครื่อง

เครื่องมือ (Tool) ความสามารถ (Capability) หมายเหตุการใช้งาน (Operational Note)
Google Search ค้นหาข้อมูล Real-time เหมาะสำหรับการอัปเดตข้อมูลปัจจุบัน
Web Fetch ดึงข้อมูลจาก URL ใช้สำหรับดึงบทสรุปหรือเนื้อหาจากเว็บไซต์เฉพาะ
Shell Run รันคำสั่งคอมพิวเตอร์ ใช้ติดตั้งซอฟต์แวร์หรือจัดการไฟล์ระบบ
Notion MCP จัดการ Database/Page ดึงข้อมูลหรืออัปเดต Page ผ่านภาษาธรรมชาติ
WordPress MCP จัดการเนื้อหาเว็บไซต์ สร้าง Draft หรือ Publish โพสต์ (ต้องใช้ Authentication)
Canva MCP งานกราฟิกดีไซน์ สร้างดีไซน์ตามขนาดที่ระบุ (ต้องเปิด URL ยืนยันสิทธิ์)

บทสรุปและโร้ดแมปการดำเนินงาน (Implementation Roadmap)

ยุคแห่ง Agentic AI ไม่ใช่การรอคอยอนาคต แต่คือการสร้างความได้เปรียบตั้งแต่วันนี้ เปลี่ยนจากผู้ใช้แชทบอทไปสู่การเป็นผู้กำกับดูแลระบบอัตโนมัติ

Roadmap การดำเนินงาน:

หมายเหตุโครงสร้างไฟล์ตัวอย่าง (gemini.md):

AI คือ Dream Machine ที่ทรงพลัง ขีดจำกัดเพียงอย่างเดียวที่เหลืออยู่คือจินตนาการและความสามารถในการบริหารจัดการของผู้สั่งงาน