Google เปิดตัว Gemini 2.5 Computer Use Model — AI ควบคุมหน้าจอได้เหมือนมนุษย์

Google เปิดตัว Gemini 2.5 Computer Use Model — AI ควบคุมหน้าจอได้เหมือนมนุษย์

ข่าวสาร | .., 1 มกราคม 2513 | มาใหม่

Google โดยทีม DeepMind ได้เปิดตัวโมเดลใหม่ในตระกูล Gemini ชื่อว่า “Gemini 2.5 Computer Use Model” ซึ่งเป็นโมเดลเฉพาะทางที่สามารถควบคุมและโต้ตอบกับหน้าจอคอมพิวเตอร์ได้โดยตรง เหมือนกับที่มนุษย์ใช้งานจริง เช่น คลิก ป้อนข้อความ หรือเลื่อนหน้าจอผ่านอินเทอร์เฟซกราฟิก (GUI) โมเดลนี้เป็นก้าวสำคัญของ AI ที่เริ่มเข้าใจ “บริบทของหน้าจอ” และสามารถใช้เครื่องคอมพิวเตอร์ได้เหมือนผู้ใช้ทั่วไป

โมเดลนี้ทำงานโดยรับ ภาพหน้าจอ (Screenshot), URL ปัจจุบัน, และ ประวัติการกระทำก่อนหน้า (Action History) มาเป็นข้อมูลอินพุต จากนั้น AI จะวิเคราะห์และส่งออก Function Call ซึ่งแทนการกระทำจริง เช่น “คลิกปุ่ม Login” หรือ “พิมพ์ข้อความในช่องค้นหา” หลังจากดำเนินการแล้ว ระบบจะถ่ายภาพหน้าจอใหม่กลับมาให้โมเดลวิเคราะห์ต่อ เป็นวงจรการทำงานอัตโนมัติที่เรียนรู้และแก้ปัญหาเอง

Gemini 2.5 Computer Use Model ถูกออกแบบให้ทำงานบน เว็บเบราว์เซอร์เป็นหลัก และสามารถขยายไปยังการควบคุมแอปบนมือถือหรือระบบปฏิบัติการอื่น ๆ ได้ในอนาคต แม้ยังไม่ปรับจูนสำหรับ Desktop OS โดยตรงก็ตาม ในการทดสอบกับชุดข้อมูล benchmark เช่น Online-Mind2Web, WebVoyager, และ AndroidWorld โมเดลนี้ทำผลงานได้เหนือกว่าคู่แข่งในหลายด้าน ทั้งความแม่นยำ (accuracy), ความเร็วตอบสนอง (latency) และความยืดหยุ่นในการรับมือกับ UI ที่แตกต่างกัน

ในด้านความปลอดภัย Google ได้เสริมระบบ Per-Step Safety Service ที่ตรวจสอบทุกขั้นตอนของการกระทำก่อนให้โมเดลดำเนินการจริง เพื่อป้องกันการคลิกหรือพิมพ์ในส่วนที่อาจก่อให้เกิดอันตราย เช่น การลบข้อมูลสำคัญ หรือ bypass ระบบ CAPTCHA นอกจากนี้ ยังอนุญาตให้นักพัฒนากำหนด System Instructions ให้ AI ปฏิเสธการทำงานบางอย่าง หรือขอการยืนยันจากผู้ใช้ก่อนดำเนินการที่มีความเสี่ยง

Google ยังได้ผนวกความสามารถของโมเดลนี้เข้ากับหลายโปรเจกต์ภายใน เช่น Project Mariner, ระบบทดสอบซอฟต์แวร์อัตโนมัติใน Firebase Testing Agent, และโหมดช่วยใช้งานอัจฉริยะใน Google Search (AI Mode) ซึ่งช่วยให้ AI สามารถกดหรือค้นหาข้อมูลแทนผู้ใช้ได้โดยตรง

เป้าหมายระยะยาวของ Gemini 2.5 คือการพัฒนาให้ AI เป็น “ผู้ช่วยที่ใช้คอมพิวเตอร์แทนมนุษย์ได้เต็มรูปแบบ” สามารถจัดการงานทั่วไป เช่น เขียนอีเมล เปิดไฟล์ หรือกรอกแบบฟอร์ม โดยไม่ต้องพัฒนา API เฉพาะทางเหมือนในปัจจุบัน

โมเดลนี้ถือเป็นก้าวสำคัญของ “Computer-Use AI” ที่จะเปลี่ยนแนวคิดจาก “AI ที่ตอบข้อความ” ไปสู่ “AI ที่ลงมือทำงานบนคอมพิวเตอร์จริง” ซึ่งอาจปฏิวัติวงการผู้ช่วยอัจฉริยะ (AI Agents) และทำให้การใช้งานระบบอัตโนมัติในอนาคตง่ายขึ้นอย่างมาก

แชร์: