Революція в перекладі: штучний інтелект навчив навушники чути кожного окремо

AI-наушники з груповим перекладом, просторовим звуком і клонуванням голосу

Візіком, maps API, карта,

Джерело: techxplore.com

Туочао Чен, аспірант Вашингтонського університету, нещодавно відвідав музей у Мексиці. Він не говорить іспанською, тож спробував переклад через додаток на телефоні. Але навіть у відносній тиші музею фоновий шум зіпсував усе — текст перекладу був непридатним.

Сучасні системи перекладу мають багато обмежень: більшість із них працює лише з одним ізольованим мовцем. Нові окуляри Meta, наприклад, перекладають лише після того, як людина закінчить говорити.

Але тепер Чен разом з командою з UW створили систему під назвою Spatial Speech Translation — це навушники, які здатні перекладати кількох людей одночасно, зберігаючи інтонацію, напрямок голосу та його особливості.

Навушники обладнані мікрофонами і працюють із вбудованими алгоритмами, які розрізняють, скільки людей говорить, де саме вони знаходяться, і слідкують за рухами голів. Усе це відбувається в реальному часі з невеликою затримкою в 2–4 секунди.

«Інші системи вважають, що говорить лише один. Але в реальності так не буває. Ми вперше зберегли індивідуальні голоси і напрямки їхнього звучання», — каже професор Ш’ям Голлакота.

Система робить три речі:

Визначає кількість мовців у просторі, скануючи його на 360 градусів;
Перекладає їхню мову з інтонацією і гучністю;
Супроводжує звук відповідним просторовим напрямком навіть коли люди рухаються.

Прототип працює на пристроях з Apple M2 і не використовує хмарні сервіси — через ризики, пов’язані з клонуванням голосу.

У тестах із 29 учасниками більшість віддали перевагу затримці перекладу в 3–4 секунди — при коротшій система робила більше помилок. Поки що вона підтримує звичайну мову, але може бути адаптована для перекладу до 100 мов.

«Це крок до подолання мовних бар’єрів між культурами. Йдучи вулицею в іншій країні, я можу чути переклад того, що говорить кожна людина», — каже Чен.

До дослідження також долучилися студент Кіруй Ван та аспірантка Рунлінь Хе. Результати презентували 30 квітня на конференції CHI в Йокогамі, Японія.

2025-05-14 10:48:35