📌 TL;DR
นักวิจัยพบว่า AI Agent ที่ดูเหมือนจะเก่งระดับเทพ จริงๆ แล้วอาจแค่ ‘จำข้อสอบได้’ ไม่ใช่เพราะฉลาดจริง พร้อมเปิดเผยแนวทางใหม่ในการสร้างบรรทัดฐานการวัดผลที่เชื่อถือได้
📖 เนื้อหาแบบเข้าใจง่าย
ลองจินตนาการดูนะครับ… ถ้าคุณไปสอบเข้ามหาวิทยาลัย แล้วพบว่าข้อสอบชุดนั้นมันดันไปตรงกับข้อสอบเก่าที่คุณเคยอ่านผ่านตามาเมื่อปีที่แล้วเป๊ะๆ คุณจะทำคะแนนได้เต็มแน่นอน แต่นั่นไม่ได้แปลว่าคุณ ‘เก่งขึ้น’ แต่มันแปลว่าคุณแค่ ‘จำคำตอบได้’ ต่างหาก!
นี่คือสิ่งที่กำลังเกิดขึ้นในโลกของ AI ครับ! ล่าสุดทีมนักวิจัยจาก Berkeley ได้ออกมาเปิดโปงเรื่องที่น่าตกใจว่า AI Agent หรือระบบ AI ที่เราหวังจะให้มันทำงานแทนเราได้แบบอัตโนมัติ (เหมือนมีเลขาอัจฉริยะส่วนตัว) ที่เคยทำคะแนนพุ่งกระฉูดในแบบทดสอบ (Benchmarks) ต่างๆ จริงๆ แล้วมันอาจจะแค่ ‘ท่องจำ’ คำตอบจากชุดข้อมูลที่ใช้ฝึกมันมาก็ได้
ปัญหาคือตอนนี้เรากำลังติดกับดักที่เรียกว่า ‘Data Contamination’ หรือการที่ข้อมูลข้อสอบหลุดเข้าไปอยู่ในสมองของ AI ตั้งแต่ตอนเรียน ทำให้เวลาเราเอาข้อสอบชุดเดิมไปวัดผล มันเลยดูเหมือนฉลาดล้ำโลก ทั้งที่จริงๆ แล้วมันแค่ทำข้อสอบเก่าได้แม่นเท่านั้นเอง
แต่นี่ไม่ใช่ข่าวร้ายเสียทีเดียวครับ เพราะการ ‘จับโป๊ะ’ ครั้งนี้กำลังจะนำไปสู่ยุคใหม่ของการสร้าง ‘บรรทัดฐานการวัดผลที่ไว้ใจได้’ (Trustworthy Benchmarks) นักวิจัยกำลังพยายามสร้างโจทย์ที่สดใหม่ ยากขึ้น และซับซ้อนจน AI ไม่สามารถใช้วิธีจำมาตอบได้ เพื่อที่เราจะได้รู้จริงๆ ว่า AI ตัวไหนกันแน่ที่พร้อมจะมาเป็นผู้ช่วยมือโปรในชีวิตจริงของเรา ไม่ใช่แค่เก่งแค่ในกระดาษคำตอบ!
🔗 ที่มาต้นฉบับ
Source: Hacker News AI
Original Title: How We Broke Top AI Agent Benchmarks: And What Comes Next