📌 TL;DR
นักวิจัยจาก Berkeley พบว่า AI Agent รุ่นใหม่ๆ กำลังทำคะแนนสอบวัดความฉลาดได้สูงลิ่ว แต่ความจริงอาจไม่ใช่ความเก่ง แต่เป็นการ ‘จำคำตอบ’ หรือใช้ทางลัดในการสอบ!
📖 เนื้อหาแบบเข้าใจง่าย
ลองจินตนาการดูนะครับ… ถ้าคุณกำลังจะสอบเข้ามหาวิทยาลัย แล้วจู่ๆ คุณก็ทำคะแนนได้เต็ม 100 ทุกวิชา ทั้งที่เมื่อวานยังทำไม่ได้เลย เพื่อนๆ จะคิดว่าคุณคืออัจฉริยะ หรือคิดว่าคุณแอบจดโพยเข้าไปกันแน่?
นี่คือสิ่งที่กำลังเกิดขึ้นในโลกของ AI ครับ! ล่าสุดทีมนักวิจัยจาก Berkeley ได้ออกมาเปิดเผยเรื่องที่น่าตกใจว่า AI Agent (หรือระบบ AI ที่ไม่ได้แค่ตอบคำถาม แต่สามารถลงมือทำงานแทนเราได้จริงๆ) กำลังทำคะแนนใน ‘Benchmark’ หรือ ‘ข้อสอบมาตรฐาน’ ของโลก AI ได้สูงจนน่าเหลือเชื่อ
แต่เดี๋ยวก่อน… เรื่องมันไม่ได้สวยงามแบบนั้นครับ เพราะจากการเจาะลึกพบว่า AI เหล่านี้ไม่ได้ ‘ฉลาดขึ้น’ แบบก้าวกระโดดในเชิงตรรกะเสมอไป แต่มันเหมือนกำลัง ‘ติวข้อสอบเก่า’ หรือใช้เทคนิคบางอย่างที่ทำให้คะแนนพุ่งสูงขึ้นโดยที่ไม่ได้เข้าใจหัวใจของงานจริงๆ ซึ่งในวงการเราเรียกว่ามันกำลังเจอปัญหาเรื่อง ‘Contamination’ หรือการที่ข้อมูลข้อสอบหลุดเข้าไปอยู่ในฐานข้อมูลที่ AI ใช้เรียนรู้นั่นเอง
งานวิจัยนี้กำลังส่งสัญญาณเตือนแรงๆ ไปถึงนักพัฒนาทั่วโลกครับว่า ‘ไม้บรรทัด’ ที่เราใช้ประเมินความเก่งของ AI ในตอนนี้อาจจะพังไปแล้ว! ถ้าเรายังใช้ข้อสอบเดิมๆ วัดค่า AI ต่อไป เราอาจจะหลงเชื่อว่า AI มันทำได้ทุกอย่าง ทั้งที่จริงๆ มันแค่จำคำตอบมาตอบ
แล้วก้าวต่อไปล่ะ? นักวิจัยกำลังเร่งสร้าง ‘ข้อสอบชุดใหม่’ ที่ยากขึ้น ซับซ้อนขึ้น และป้องกันการโกงได้ดีขึ้น เพื่อให้แน่ใจว่า AI ที่เราจะปล่อยมาช่วยทำงานในชีวิตจริง คือ AI ที่ฉลาดและไว้ใจได้จริงๆ ไม่ใช่แค่ AI ที่สอบผ่านเพราะจำโพยได้ครับ!
🔗 ที่มาต้นฉบับ
Source: Hacker News AI
Original Title: How We Broke Top AI Agent Benchmarks: And What Comes Next