📌 TL;DR
นักวิจัยพบว่าคะแนนทดสอบ AI Agent ที่ดูสูงลิ่วอาจเป็นแค่เรื่องหลอกตา เพราะ AI เริ่ม ‘จำข้อสอบ’ ได้แทนที่จะคิดเป็นจริงๆ
📖 เนื้อหาแบบเข้าใจง่าย
ลองนึกภาพดูนะครับ… ถ้าคุณไปสอบเข้ามหาวิทยาลัย แล้วพบว่าข้อสอบชุดนั้นมันดันเป็นข้อสอบที่ใครๆ ก็เคยเห็นผ่านตามาหมดแล้ว คุณจะตอบถูกเพราะ ‘ความรู้’ หรือเพราะคุณแค่ ‘จำคำตอบ’ มากันแน่?
นี่คือสิ่งที่กำลังเกิดขึ้นในโลกของ AI ครับ! ล่าสุดทีมนักวิจัยจาก Berkeley ได้ออกมาเปิดโปงความลับที่ทำเอาวงการสะเทือน เมื่อพวกเขาพบว่าคะแนน Benchmark หรือ ‘ข้อสอบวัดระดับ’ ของเหล่า AI Agent ที่เราเห็นว่าทำคะแนนได้สูงปรี๊ดจนน่าตกใจ จริงๆ แล้วมันอาจจะเป็นแค่ภาพลวงตา
ปัญหาคือ AI สมัยนี้มันฉลาดเกินไปครับ! แทนที่มันจะเรียนรู้วิธีแก้ปัญหาใหม่ๆ มันกลับไป ‘จดจำ’ รูปแบบคำถามและคำตอบที่เคยอยู่ในฐานข้อมูลฝึกฝน (Training Data) จนทำให้เวลาเจอข้อสอบเดิมๆ มันก็ตอบได้แม่นยำราวกับมีเฉลยอยู่ในมือ ซึ่งในทางเทคนิคเราอาจจะเรียกมันว่าการที่โมเดลมัน Overfit หรือการที่มันไม่ได้ ‘เข้าใจ’ จริงๆ แต่แค่ ‘จำเก่ง’ เท่านั้นเอง
เรื่องนี้ไม่ใช่เรื่องเล่นๆ นะครับ เพราะถ้าเราใช้คะแนนพวกนี้เป็นบรรทัดฐานในการตัดสินว่า AI ตัวไหนเก่งที่สุด เราอาจจะกำลังหลงทางและสนับสนุน AI ที่แค่ ‘ท่องจำ’ มากกว่า AI ที่ ‘คิดวิเคราะห์’ ได้จริง
แล้วก้าวต่อไปคืออะไร? ทีมนักวิจัยกำลังเร่งสร้าง ‘ข้อสอบชุดใหม่’ ที่ยากขึ้น ซับซ้อนขึ้น และที่สำคัญคือต้องเป็นข้อสอบที่ AI ไม่เคยเห็นมาก่อน เพื่อให้มั่นใจว่า AI Agent ในอนาคตจะไม่ได้มีดีแค่ความจำ แต่ต้องมี ‘สมอง’ ที่พร้อมจะแก้ปัญหาในโลกจริงได้จริงๆ ครับ!
🔗 ที่มาต้นฉบับ
Source: Hacker News AI
Original Title: How We Broke Top AI Agent Benchmarks: And What Comes Next