📌 TL;DR
ทีมนักวิจัยจาก Berkeley พบว่าการทดสอบ AI Agent ในปัจจุบันอาจไม่ได้วัดความฉลาดจริง แต่เป็นการวัดความสามารถในการ ‘จำคำตอบ’ ซึ่งกำลังนำไปสู่การสร้างมาตรฐานการทดสอบใหม่ที่เข้มงวดกว่าเดิม
📖 เนื้อหาแบบเข้าใจง่าย
ลองนึกภาพดูนะครับ… ถ้าคุณต้องเข้าสอบวิชาคณิตศาสตร์ที่ยากสุดๆ แต่แทนที่จะต้องแก้โจทย์ คุณกลับแค่จำคำตอบจากข้อสอบเก่ามาตอบได้เป๊ะๆ คุณจะได้คะแนนเต็ม 100 แน่นอน! ฟังดูเหมือนจะฉลาดใช่ไหมครับ? แต่ในโลกของ AI เรื่องนี้กำลังเป็นปัญหาใหญ่ที่น่าตกใจมาก
ล่าสุด ทีมนักวิจัยจาก Berkeley ได้ออกมาแฉความลับที่ทำให้วงการ AI ต้องสะเทือน พวกเขาพบว่า ‘AI Agents’ หรือระบบ AI ที่เราหวังจะให้มันทำงานแทนเราได้เหมือนมนุษย์นั้น จริงๆ แล้วคะแนนที่เห็นว่าพุ่งกระฉูดใน Benchmark (หรือสนามสอบมาตรฐาน) มันอาจจะเป็นแค่ ‘ภาพลวงตา’
ปัญหาคือ สนามสอบที่มีอยู่ตอนนี้มันเริ่ม ‘ง่ายเกินไป’ หรือไม่ก็ ‘รั่ว’ ครับ ข้อมูลที่ใช้สอบดันไปหลุดอยู่ในชุดข้อมูลที่ใช้ฝึก AI ทำให้ AI ไม่ต้องคิดเอง แต่ใช้วิธี ‘จำมาตอบ’ แทน ผลที่ได้คือคะแนนสูงลิ่ว แต่พอเอาไปใช้งานจริงในโลกที่ซับซ้อน กลับทำงานไม่ได้เรื่องเหมือนคนไม่ได้เรียนมา
นี่ไม่ใช่แค่เรื่องของคะแนน แต่มันคือเรื่องของ ‘ความเชื่อใจ’ ครับ ถ้าเราจะปล่อยให้ AI มาขับรถ แทนคน หรือมาดูแลบัญชีการเงิน เราจะฝากชีวิตไว้กับ AI ที่แค่ ‘ท่องจำข้อสอบ’ ได้งั้นเหรอ?
แต่นี่ไม่ใช่ข่าวร้ายซะทีเดียว เพราะนี่คือจุดเริ่มต้นของยุคใหม่ นักวิจัยกำลังเร่งสร้าง ‘สนามสอบแบบใหม่’ ที่ AI ไม่สามารถโกงได้ ต้องใช้ทักษะการแก้ปัญหาจริงๆ และต้องทำงานในสภาพแวดล้อมที่คาดเดาไม่ได้เหมือนชีวิตจริง ถึงจะผ่านเกณฑ์ได้ เตรียมตัวรอชมกันได้เลยครับ เพราะหลังจากนี้ เราจะได้เห็นการวัดความฉลาดของ AI ที่ ‘ของจริง’ กว่าเดิมหลายเท่า!
🔗 ที่มาต้นฉบับ
Source: Hacker News AI
Original Title: How We Broke Top AI Agent Benchmarks: And What Comes Next
