Великі мовні моделі можуть автоматизувати боротьбу з мовою ворожнечі в інтернеті
Тривале перебування в інтернеті часто призводить до зіткнення з жахливим контентом.
Джерело: techxplore.com
Мова ворожнечі стрімко поширюється в соціальних мережах та онлайн-спільнотах, особливо на платформах із низьким рівнем фільтрації або за повної її відсутності. Навіть на вебсайтах із суворими правилами спільноти колосальні обсяги щоденних публікацій роблять ефективну ручну перевірку майже неможливою для людей.
Вирішити цю проблему здатні великі мовні моделі (LLM). Ці алгоритми штучного інтелекту спроможні швидко аналізувати зміст і контекст величезних масивів тексту, автоматично відсіювати мову ворожнечі та надавати зворотний зв'язок людським модераторам. Однак масштабне використання таких моделей є фінансово витратним, особливо коли від штучного інтелекту вимагають детальних пояснень щодо кожного заблокованого фрагмента тексту.
Юань Чжао з Технологічного інституту Нью-Джерсі запропонував інтерпретований і дешевий метод оцінювання класифікації мови ворожнечі великими мовними моделями. Свою роботу дослідник презентував на 190-му засіданні Акустичного товариства Америки, яке проходило з 11 по 15 травня. Створена науковцем система спирається на модель раціональної неуважності — економічну концепцію, розроблену для опису людської поведінки в умовах обмеженої уваги.
Зазначена економічна теорія стверджує, що люди схильні заощаджувати ресурси й спрямовувати обмежену увагу лише на прийняття рішень із високою винагородою, де зусилля принесуть найбільший ефект. Хоча великі мовні моделі не є людьми, концепцію балансу уваги та витрат можна застосувати й до них. Автор дослідження розглядає алгоритми як суб'єктів прийняття рішень, що постійно балансують між якістю роботи та обчислювальною вартістю процесів.
Юань Чжао протестував великі мовні моделі в різних умовах, щоб перевірити, чи діють вони як раціональні суб'єкти. Потім він використав модель раціональної неуважності для імітації поведінки штучного інтелекту й виявив, що економічний підхід точно передбачає зміни в ефективності алгоритмів. Цей аналіз допоможе цифровим спільнотам оптимізувати автоматичну модерацію та краще розуміти логіку дій комп'ютерних систем.
Інтеграція моделі раціональної неуважності підвищить довіру до штучного інтелекту, демонструючи вразливі місця алгоритмів під час роботи з двозначним або навмисно замаскованим текстом. Онлайн-платформи зможуть чітко визначати моменти, коли система потребує покращення або де необхідне пряме залучення людських рецензентів. Нова методологія робить процес прийняття рішень штучним інтелектом прозорим та економічно вигідним.
2026-05-15 11:27:01