Створено іспит, який штучний інтелект поки не може скласти
Коли системи штучного інтелекту почали легко складати традиційні академічні тести, зокрема Massive Multitask Language Understanding (MMLU), науковці дійшли висновку, що існуючі оцінювання більше не відображають реальний рівень розвитку ШІ.
Джерело: techxplore.com
У відповідь міжнародний консорціум майже з тисячі дослідників створив новий тест під назвою «Останній іспит людства» (Humanity’s Last Exam, HLE). Опис проєкту опубліковано в журналі Nature, а частину матеріалів розміщено на сайті lastexam.ai.
HLE містить 2 500 запитань з математики, гуманітарних і природничих наук, давніх мов та вузькоспеціалізованих галузей. Завдання розробляли та перевіряли експерти з усього світу, гарантуючи однозначність відповідей і неможливість швидкого пошуку розв’язку в інтернеті. Якщо провідні моделі штучного інтелекту відповідали правильно, запитання вилучали з фінальної версії тесту. Серед учасників проєкту — доцент кафедри комп’ютерних наук і інженерії Техаського університету A&M доктор Тунг Нгуєн, який підготував 73 запитання.
Перші результати засвідчили значні труднощі для сучасних моделей. GPT-4o набрала лише 2,7%, Claude 3.5 Sonnet — 4,1%, модель OpenAI o1 — 8%. Навіть найновіші системи, зокрема Gemini 3.1 Pro та Claude Opus 4.6, досягли лише приблизно 40–50% правильних відповідей. За словами Тунга Нгуєна, тест демонструє, що інтелект — це не лише розпізнавання шаблонів, а глибина знань, контекст і спеціалізована експертиза.
Дослідники наголошують, що HLE не є «змаганням проти ШІ», а інструментом для точнішого вимірювання його можливостей і ризиків. Частину тесту зроблено публічною, а більшість запитань приховано, щоб моделі не могли їх запам’ятати. Проєкт став прикладом масштабної міждисциплінарної співпраці, яка дозволяє краще зрозуміти межі сучасного штучного інтелекту та зберегти значущість людської експертизи.
2026-03-03 11:03:20