Mini Gemini Bootcamp (day02) ภาคที่ 1 (p1)

บทความนี้เป็นเนื้อหาจาก Mini Gemini Bootcamp วันที่ 2 ซึ่งเน้นการสอนใช้งาน Gemini CLI (Command Line Interface) และฟีเจอร์ Gems บนเว็บเบราว์เซอร์ เพื่อยกระดับการทำงานให้มีประสิทธิภาพสูงสุด เนื้อหาครอบคลุมตั้งแต่การสร้าง Personal Chatbot เฉพาะทางเพื่อจัดการงานซ้ำซ้อน ไปจนถึงเทคนิคการสร้าง Meta-Gem หรือบอตที่ใช้สำหรับออกแบบคำสั่งเพื่อสร้างบอตตัวอื่นต่ออีกทอดหนึ่ง มีการสาธิตวิธีการเชื่อมต่อ Gemini เข้ากับ Local File ในคอมพิวเตอร์ผ่านเทอร์มินัล ทำให้ AI สามารถอ่าน เขียน และจัดการไฟล์ข้อมูลในเครื่องได้โดยตรง นอกจากนี้ยังมีการแนะนำโปรทิปอย่างการตั้งค่า Personal Context เพื่อให้ AI จดจำตัวตนและเป้าหมายของผู้ใช้ รวมถึงการใช้ Schedule Action เพื่อตั้งเวลาทำงานอัตโนมัติ โดยมุ่งเน้นให้เปลี่ยนบทบาทจากผู้เขียนโค้ดมาเป็นผู้ควบคุมกระบวนการคิดและสั่งการ AI ด้วยภาษาธรรมชาติแทน

Introduction

ประเด็นสำคัญจากการเรียนรู้ในหลักสูตรนี้ชี้ให้เห็นว่า ปัญญาประดิษฐ์ (AI) ไม่ได้เป็นเพียงเครื่องมือแชททั่วไป แต่เป็น "เครื่องจักรแห่งความฝัน" ที่มีความสามารถหลากหลาย (Generalist) โดยเฉพาะเมื่อใช้งานผ่านโครงสร้างพื้นฐานของ Google หัวใจสำคัญของการก้าวสู่การเป็นผู้ใช้งานระดับสูง (Pro User) คือการปรับเปลี่ยนทัศนคติที่ว่า "ภาษาอังกฤษคือภาษาโปรแกรมยุคใหม่" (English is a new programming language) ซึ่งความเก่งกาจของ AI จะขึ้นอยู่กับความสามารถของผู้ใช้งานในการสื่อสารและระบุความต้องการอย่างแม่นยำ

สร้าง "Gems" ให้เป็นผู้ช่วยส่วนตัว (Personal Chatbot)

Gems คือฟีเจอร์ที่ทรงพลังที่สุดบน Gemini Web ตอนนี้ มันคือการสร้าง AI ที่มีความเชี่ยวชาญเฉพาะด้าน (Specific Task) โดยที่เราไม่ต้องเขียนโค้ดเลยแม้แต่บรรทัดเดียว

โครงสร้างของ Gems

Gem-Nerator การสร้าง Gem คือการสร้างผู้ช่วยเฉพาะทาง (Agent) ที่ทำงานแทนเราในเรื่องใดเรื่องหนึ่งอย่างแม่นยำ โดยมีส่วนประกอบสำคัญ 5 ส่วน:

  1. Name (ชื่อ): ระบุตัวตนของ Gem ให้ชัดเจน (เช่น VOC Expert, YouTube Summarizer)
  2. Description (คำอธิบาย): สรุปหน้าที่สั้นๆ ในประโยคเดียวว่า Gem นี้สร้างมาเพื่ออะไร
  3. Instruction (คำสั่ง): ส่วนที่สำคัญที่สุดในการกำหนดพฤติกรรม โดยเน้นที่การระบุ Input (ข้อมูลขาเข้า), Task (งานที่ต้องทำ), Context (บริบท), และ Format (รูปแบบผลลัพธ์)
  4. Default Tools (เครื่องมือหลัก): คือเครื่องยนต์ขับเคลื่อน Gem โดยระบุให้เรียกใช้เครื่องมืออย่าง Deep Research (สำหรับการค้นหาข้อมูลเชิงลึกทั่วโลก) หรือ Canvas (สำหรับการเขียนและปรับแต่งงานในหน้าต่างพิเศษ)
  5. Knowledge (ฐานความรู้): หัวใจสำคัญที่ทำให้ Gem แตกต่างจากแชทบอททั่วไป คุณสามารถอัปโหลดไฟล์เฉพาะทาง (PDF, Code, CSV) เพื่อใช้เป็น Knowledge Base ให้ AI ดึงข้อมูลมาตอบได้แม่นยำตามฐานข้อมูลจริงของเรา

แนวคิด 'Gem-nerator' (Meta Logic)

หัวใจสำคัญของหลักสูตรนี้คือการเข้าถึง "Meta Logic" หรือการสร้าง Gem-nerator ซึ่งเปรียบเสมือน System Architect (สถาปนิกทางระบบ) ที่มีหน้าที่ออกแบบชุดคำสั่ง (Instruction) ให้กับ AI ตัวอื่น

[!IMPORTANT] Meta Logic Framework: Analyze-Architect-Draft

ตัวอย่าง Meta-Prompt สำหรับสร้าง Gem-nerator.

I want to create a gem that can create another new gem. You are a System Architect. Based on my raw requirement, help me Analyze the needs, Architect the blueprint, and Draft the final technical instructions. I want to name it 'Gem-nerator.'

การแปลงความต้องการ (Requirement) สู่คำสั่งทางเทคนิค

การสื่อสารกับ Gem-nerator ที่ดีต้องเริ่มจากการนิยาม Input และ Output ที่แม่นยำ ดังตัวอย่างการสร้างระบบวิเคราะห์เสียงของลูกค้า (VOC)

ตัวอย่าง Output แบบ JSON (จากระบบ VOC Expert): การระบุ Format เป็น JSON ช่วยให้ AI ทำงานร่วมกับระบบอื่น (Data Pipeline) ได้ทันที:

{ "sentiment": "Positive", "confidence": 0.99, "topic": "Educational Content", "summary": "ผู้เรียนประทับใจในตรรกะการสอน AI ที่เน้นการนำไปใช้จริง" }

Gemini CLI (Command Line Interface)

การใช้งานคอมพิวเตอร์ผ่านหน้าจอ Terminal ไม่ใช่เรื่องน่ากลัว แต่มันคือ "บทสนทนา" (Conversation) โดยตรงระหว่างเรากับคอมพิวเตอร์ แทนที่เราจะใช้เมาส์คลิกไปตามปุ่มต่างๆ (GUI) ซึ่งเปรียบเสมือนการใช้ภาษากาย เราเปลี่ยนมาเป็นการใช้ "ภาษาที่แม่นยำ" เพื่อสั่งการแทน

CLI คือพื้นที่ที่เราสื่อสารด้วยคำสั่ง เพื่อสร้าง "ท่อ" (Pipe) เชื่อมต่อความต้องการของเราเข้ากับสมองกลของ AI และพลังการประมวลผลของเครื่องจักรโดยตรง

เหตุผล 3 ประการที่ "มือโปร" ต้องใช้ CLI:

  1. ความเร็วเหนือแสง (Speed): การพิมพ์คำสั่งสั้นๆ สามารถทำงานที่ซับซ้อน (เช่น การย้ายไฟล์หมื่นไฟล์) ได้ในเสี้ยววินาที การเข้าถึงไฟล์ในเครื่อง
  2. (Local File Access): CLI ช่วยให้ AI "มองเห็น" และจัดการไฟล์ทุกอย่างในเครื่องคุณได้ทันที ไม่ต้องเสียเวลาอัปโหลด/ดาวน์โหลดผ่านบราวเซอร์
  3. พลังแห่ง Automation: คุณสามารถเขียน "สคริปต์" เพื่อสั่งให้ AI ทำงานซ้ำๆ แทนคุณได้ในขณะที่คุณไปจิบกาแฟ

รูปแบบการทำงานของ CLI

รูปแบบ คำอธิบาย
REPL Mode โหมดโต้ตอบ (Read-Evaluate-Print Loop) สำหรับการแชทต่อเนื่องและรันงานที่ซับซ้อน
Headless Mode การรันคำสั่งครั้งเดียวแล้วจบ (เช่น gemini -p "prompt") เหมาะสำหรับงานที่ไม่ต้องโต้ตอบ
Shell Mode การใช้เครื่องหมาย ! เพื่อรันคำสั่งพื้นฐานของระบบปฏิบัติการ (เช่น ls, pwd) ภายใน Gemini

คำสั่ง PWD & LS

เปรียบเสมือนการเปิด GPS บนมือถือเพื่อดูพิกัดปัจจุบัน และการกวาดสายตามองไปรอบๆ ห้องเพื่อดูว่ามีสิ่งของอะไรวางอยู่บ้าง

คำสั่ง (Command) หน้าที่หลัก (Primary Benefit) Insight สำหรับการทำงานกับ AI
PWD Print Working Directory เหมือนการเปิด GPS เพื่อดูว่า "ตอนนี้เราอยู่ที่โฟลเดอร์ไหน" จะได้ไม่หลงทาง
LS List มองไปรอบๆ เพื่อดูรายชื่อไฟล์ เพื่อให้เราสะกดชื่อไฟล์ได้ถูกต้องก่อนสั่ง AI ให้ไปอ่าน

คำสั่ง CD - Change Directory

การใช้คำสั่ง CD (Change Directory) เหมือนกับการเดินเข้า-ออกจากห้องต่างๆ ในบ้าน

คำสั่ง Mkdir & Echo

ในส่วนนี้เราจะเริ่มบทบาทของ "สถาปนิก" ด้วยการสร้างโฟลเดอร์สำหรับจัดการงาน AI ของเรา

mkdir และ echo ไม่ได้มีไว้แค่สร้างโฟลเดอร์หรือพิมพ์ข้อความเล่นๆ แต่มันคือวิธีที่เราสร้าง "Input" และเตรียมพื้นที่สำหรับ "Output" ก่อนที่เราจะดึง AI เข้ามาช่วยทำงานในขั้นถัดไป

พลังของ AI บน CLI: จุดบรรจบของ "Shell" และ "Prompt"

นี่คือส่วนที่จะทำให้เราเห็น "แสงออกหู" เพราะใน Gemini CLI เราสามารถทำได้มากกว่าแค่การแชท

  1. พลังของสัญลักษณ์ @ (The Bridge) สัญลักษณ์ @ ไม่ใช่แค่ทางลัด แต่มันคือ "สะพาน" ที่อนุญาตให้ AI ก้าวเท้าเข้ามาในคอมพิวเตอร์ของคุณเพื่ออ่านไฟล์ได้โดยตรง ลืมการกด "Upload" บนบราวเซอร์ไปได้เลย!

    ตัวอย่าง: ช่วยสรุปข้อมูลในไฟล์ @report.csv ให้หน่อย (AI จะอ่านไฟล์ CSV ในเครื่องคุณทันที)

  2. Shell Mode: สัญลักษณ์ ! (The Action) นี่คือ Epiphany สำคัญ! การใส่เครื่องหมายตกใจ ! นำหน้าคำสั่ง จะเป็นการบอกให้ Gemini CLI รันคำสั่งนั้นในระดับระบบปฏิบัติการ (Operating System) ทันที

    ตัวอย่าง: !ls (สั่งให้แสดงไฟล์ในเครื่องโดยไม่ต้องออกจากหน้าจอคุยกับ AI)

ตารางเปรียบเทียบ: Web Browser vs. Gemini CLI

คุณสมบัติ Web Browser Gemini CLI
การเชื่อมต่อไฟล์ ต้องกดอัปโหลด/ดาวน์โหลดทีละไฟล์ สร้าง "ท่อ" เชื่อมไฟล์ในเครื่องผ่าน @
ความเร็ว ช้า เพราะมี UI กราฟิกหนักๆ เร็วมาก (Fast Workflow) เน้นคำสั่งตรง
ความเก่ง เก่งเฉพาะเรื่องแชท เป็น "Personal Chatbot" ที่สั่งรันไฟล์ได้
ความเป็นส่วนตัว ข้อมูลอาจถูกนำไปเทรน (ยกเว้นโหมด Temp) ปลอดภัยกว่าด้วยการส่งข้อมูลผ่าน Secure Pipe

สรุปคัมภีร์คำสั่ง CLI สำหรับมือใหม่ (The Essential Cheat Sheet)

เพื่อเปลี่ยนจาก "ผู้ใช้งานทั่วไป" ให้กลายเป็น "Architect" ของระบบ AI นี่คือสรุปคำสั่งที่ต้องใช้ให้คล่อง:

คำสั่ง ความหมาย Insight สำหรับมือ Pro
PWD อยู่ที่ไหน? เช็กพิกัดให้ชัวร์ก่อนสั่ง AI อ่านไฟล์ในโฟลเดอร์นั้น
LS มีไฟล์อะไรบ้าง? ดูชื่อไฟล์ที่ถูกต้องเพื่อใช้ร่วมกับเครื่องหมาย @
CD ย้ายที่ทำงาน เดินทางไปยังโฟลเดอร์โปรเจกต์ที่ต้องการ
Mkdir สร้างโฟลเดอร์ สร้างพื้นที่เก็บผลลัพธ์ (Output) ที่ AI สร้างให้
! (Shell Mode) สั่งการคอมพิวเตอร์ รันคำสั่ง Terminal ได้ทันทีในขณะที่คุยกับ AI
Tab เติมคำอัตโนมัติ ทางลัดความเร็วสูง ลดความผิดพลาดในการพิมพ์
Ctrl + L เคลียร์หน้าจอ ทำให้หน้าจอสว่างสะอาดตา พร้อมเริ่มไอเดียใหม่

การเรียนรู้พื้นฐาน CLI ไม่ได้ทำให้แค่พิมพ์คำสั่งเป็น แต่ทำให้เรากลายเป็น "สถาปนิก" (Architect) ที่ควบคุมเทคโนโลยีให้ทำงานแทนได้อย่างไร้ขีดจำกัด เมื่อเราก้าวข้ามความกลัวในหน้าจอสีดำนี้ไปได้ พรุ่งนี้เราจะกลายเป็น "God in the office" ที่ทำงานได้รวดเร็วและแม่นยำกว่าใคร!

การปรับแต่ง (Personalization) และความปลอดภัย

เพื่อให้ Gemini ทำงานได้สอดคล้องกับเป้าหมายชีวิตและระบบการทำงานของผู้ใช้งาน การตั้งค่าจึงเป็นสิ่งสำคัญ

Personal Context

ผู้ใช้งานควรระบุข้อมูลส่วนตัวในหน้าการตั้งค่าเพื่อให้ AI จดจำ เช่น:

ความปลอดภัยและความเป็นส่วนตัวของข้อมูล (Security & Privacy)

การทำงานร่วมกันระหว่าง Gemini Web และ Gemini CLI จะสร้างกระบวนการทำงานที่ไร้รอยต่อ การเขียนสรุปและการฝึกฝนการสั่งงาน (Prompting) อย่างต่อเนื่องคือหัวใจสำคัญในการเปลี่ยนจากผู้ใช้งานทั่วไปให้กลายเป็นผู้เชี่ยวชาญที่มีศักยภาพเหนือกว่าค่าเฉลี่ยในอุตสาหกรรมปัจจุบัน