У Прінстоні розробили метод ШІ, що відновлює 3D-сцени з фото

Дослідники з Прінстонського університету представили новий метод інверсного рендерингу, що дозволяє штучному інтелекту реконструювати тривимірні сцени з двовимірних зображень.

Це відкриває шлях до більш універсальних і пояснюваних систем комп’ютерного зору. Візіком, maps API, карта,

Джерело: techxplore.com

Протягом десятиліть розробники створювали моделі комп’ютерного зору, здатні аналізувати та інтерпретувати зображення для медицини, робототехніки, виробництва чи розваг. Найпоширеніші з них — feed-forward нейронні мережі, що послідовно обробляють дані й роблять передбачення. Вони добре працюють на знайомих даних, але часто не узагальнюють результати для нових сцен. Крім того, їхні «висновки» важко пояснити.

Інверсний підхід

Команда Фелікса Гайде запропонувала інший підхід — inverse neural rendering. Замість того щоб лише аналізувати фото, система відтворює процес створення зображення. Генеративна модель формує віртуальну 3D-сцену з об’єктами, перетворює її на 2D-зображення, а далі порівнює з реальним фото. Відмінності між ними «зворотно поширюються» через модель, поступово коригуючи параметри, доки симульоване зображення не стане схожим на спостережуване.

Таким чином, модель оптимізує свої вхідні дані в кілька кроків і отримує не лише результат, а й пояснення у вигляді тривимірної реконструкції.

Результати й переваги

За словами авторів, новий метод демонструє таку ж ефективність у завданнях відстеження об’єктів, як і традиційні feed-forward мережі. Проте він дає зрозумілі 3D-пояснення та працює з різними наборами даних без додаткового донавчання. Це особливо важливо для сфер, де збір і розмітка нових даних є дорогим і трудомістким процесом.

«Ми показали, що наш метод узагальнює роботу на різних датасетах і не вимагає перенавчання. Це може значно знизити витрати й навіть стати основою для автоматичної розмітки», — пояснює Гайде.

Майбутні застосування

У перспективі команда планує розширити підхід до інших задач — 3D-сегментації, детекції та навіть реконструкції цілої сцени, а не лише окремих об’єктів. Це дозволить роботам у майбутньому створювати й постійно оновлювати власні тривимірні моделі світу з вбудованою пояснюваністю.

Дослідження опубліковане у журналі Nature Machine Intelligence і вже викликало інтерес у сфері автономного водіння та робототехніки, де здатність системи не просто «бачити», а й пояснювати сприйняте середовище є критичною.

Таким чином, інверсний рендеринг стає кроком до прозорішого й більш універсального штучного інтелекту, здатного інтерпретувати світ так, щоб його розуміння було зрозумілим і для людини.

2025-08-29 10:38:33