Нова AI-модель оживляє команди для роботів і аватарів
Дослідники Університету Брауна створили штучний інтелект, що здатен генерувати рухи для роботів і анімаційних фігур подібно до того, як ChatGPT генерує текст.
Джерело: techxplore.com
Модель під назвою MotionGlot дозволяє користувачам просто ввести дію — наприклад, «пройди кілька кроків уперед і поверни праворуч» — і вона згенерує точну траєкторію руху для управління роботом або анімованим персонажем.
За словами дослідників, головне досягнення MotionGlot — це здатність «перекладати» рухи між різними типами тіл: від гуманоїдів до чотириногих роботів. Це відкриває можливість створення рухів для найрізноманітніших форм роботів у різних просторових умовах.
«Ми розглядаємо рух як мову», — пояснює Сударшан Харітас, аспірант кафедри інформатики Браунівського університету та провідний автор розробки. — «Як ми можемо перекладати англійську на китайську, так само тепер можемо перекладати мовні команди на рухи для будь-якого типу тіла. Це відкриває безліч нових застосувань».
Дослідження буде представлено на Міжнародній конференції з робототехніки та автоматизації (ICRA-2025) в Атланті. Співавтором роботи став доцент інформатики Срінас Срідхар.
Як і великі мовні моделі типу ChatGPT, MotionGlot ґрунтується на принципі передбачення наступного токена, де замість слів використовуються токени руху — окремі положення частин тіла. Завдяки цьому модель здатна генерувати плавні рухи.
Однак виклик у тому, що одне й те саме слово, як-от «ходити», означає різні рухи для різних істот: людина ходить на двох, собака — на чотирьох. MotionGlot вміє перекладати сенс руху між цими формами. Тобто команда «іди прямо» буде правильно виконана як гуманоїдом, так і псом-роботом.
Для навчання моделі використали два набори даних: QUAD-LOCO (рухи чотириногих роботів із текстовим описом) і QUES-CAP (рухи людей з докладними анотаціями).
MotionGlot вміє реагувати навіть на складні або нові команди, наприклад «робот іде назад, повертає ліворуч і рухається вперед» або «робот іде радісно». У режимі запитань і відповідей модель може навіть показати «рух під час кардіо», створюючи анімацію бігу людини.
«Ці моделі найкраще працюють із великими обсягами даних», — зазначає Срідхар. — «Чим більше ми зберемо, тим масштабнішою стане модель».
Завдяки своїй універсальності MotionGlot має потенціал для використання в колаборації людини й робота, відеоіграх, віртуальній реальності, цифровій анімації та відеовиробництві. Розробники планують зробити модель і її код відкритими для наукової спільноти.
2025-05-15 10:22:02