Дослідження Penn State: відповіді штучного інтелекту на медичні запити користувачів є точними лише на 76%

Дослідники з Університету штату Пенсільванія (Penn State) провели масштабне дослідження, щоб з'ясувати точність та безпеку порад, які популярні чат-боти на базі штучного інтелекту дають звичайним користувачам щодо здоров'я.

Джерело: medicalxpress.com

Результати показали, що сучасні великі мовні моделі правильно відповідають на повсякденні медичні запити лише у 76,2% випадків. Автори проекту планують офіційно представити свої висновки на профільній міжнародній конференції FAccT 2026 в Монреалі (Канада) наприкінці червня, а повний текст наукової статті вже з'явився на сервері препринтів arXiv.

Для того щоб максимально точно відтворити реальну поведінку звичайних користувачів в інтернеті, вчені організували спеціальний змагальний хакатон під назвою «Diagnose-a-thon». Загалом 34 учасники — від професорів до студентів — надіслали 212 запитів та отриманих відповідей щодо вигаданих і реальних симптомів захворювань, використовуючи моделі ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro та Llama3-8b. Особливістю цього партисипативного дослідження стало те, що люди могли вільно обирати будь-яку нейромережу і спілкуватися з нею у звичному для себе повсякденному стилі, формулюючи питання як від імені пацієнта, так і від імені лікаря.

Для оцінки медичної якості згенерованих відповідей автори залучили незалежну експертну комісію, до складу якої увійшли дев'ять дипломованих американських лікарів. Медики оцінювали достовірність інформації та її потенційну шкоду для здоров'я за спеціальною шестибальною шкалою від дуже низького до дуже високого рівня. Окремі грошові призи оргкомітет присудив за найбільш точні медичні описи, а також за найбільш небезпечну та помилкову ШІ-відповідь, яка в реальному житті могла б призвести до критичних наслідків для пацієнта.

Аналіз експертних оцінок виявив значну різницю в ефективності штучного інтелекту залежно від конкретної галузі медицини. Найкращі результати з високим рівнем валідності та мінімальними ризиками ШІ продемонстрував у сфері акушерства, гінекології та отоларингології (лікування захворювань вуха, горла та носа). Натомість найгірші показники точності та найвищий рівень потенційної небезпеки зафіксували у галузях внутрішньої медицини, неврології та дерматології. Крім того, вчені виявили чітку закономірність: найточніші результати нейромережі видавали на дуже конкретні запити обсягом від 60 до 250 символів.

Під час наступного етапу експерименту дослідники спробували додатково донавчити базові нейромережі, завантаживши в них профільні медичні підручники, клінічні протоколи та рецензовані наукові статті з програми медичних вишів. Проте незалежна панель із семи медичних експертів та інтернів неочікувано віддала перевагу саме оригінальним базовим моделям Gemini та Llama, не помітивши суттєвого покращення навіть у сімействі ChatGPT. Професорка внутрішньої медицини Дженніфер Крашневські підкреслила, що попри загальний технологічний прогрес, рівень помилок ШІ все ще перевищує 20%, що приблизно вдвічі більше за середній показник помилок живих лікарів.

Співавтори дослідження констатують, що штучний інтелект найближчим часом точно не зможе замінити кваліфікованих медичних працівників, проте він має колосальний потенціал як інструмент підтримки та підвищення кваліфікації самих лікарів. Люди в усьому світі гарантовано продовжуватимуть використовувати ШІ як швидкий довідник симптомів замість класичного пошуку в Google. Розуміння реальних паттернів взаємодії суспільства з технологіями та виявлення слабких місць у діагностиці допоможе розробити чіткі правила цифрової грамотності та убезпечити пацієнтів від небезпечного самолікування.

2026-06-02 11:10:36