🎥 ИИ от Netflix удаляет объекты из видео с учетом физики и понимания мира
Netflix представила модель VOID, которая удаляет объекты из видео не просто «по пикселям», а вместе с последствиями их присутствия в сцене.
Если из видео с ДТП с двумя машинами стереть одну — аварии не случится, и второе авто поедет дальше. Если убрать людей, сбивающих кегли шаром, то кегли останутся на своих местах.
ℹ️ VOID не просто вырезает пиксели, а строит альтернативную версию происходящего, где после исчезновения объекта меняется и физика сцены.
Сначала система с помощью визуальной модели размечает на видео объект, который нужно убрать, и зоны, которые он затрагивает: что может упасть, сдвинуться, столкнуться или изменить траекторию. Затем эта схема передается в генератор видео, который тренировали на примерах видео с присутствием объекта и без него — чтобы модель училась понимать разницу и достраивать взаимодействия.
Если на первом проходе появляются артефакты, система делает дополнительный этап коррекции.
➡️ Веса выложили в открытый доступ на Hugging Face, но запустить модель на домашнем железе вряд ли получится. Авторы рекомендуют использовать GPU минимум с 40 ГБ памяти, например, A100.
👋 Подпишитесь на Hi, AI!
Комментарии