ArXiv · Перевод

ActCam: Генерация видео с контролем движения и камеры

Авторы оригиналаOmar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque, Ulysse Mizrahi, Philip Torr, Ivan Laptev, Fabio Pizzati, Baptiste Bellot-Gurlet

ПереводKENDEV AI

Дата2026-05-08

Теги

генерация видеоконтроль движениякинематографиядиффузионные моделиActCam

## Перевод abstract Для художественных приложений генерация видео требует тонкого контроля как над исполнением, так и над кинематографией, то есть над движением актера и траекторией камеры. Мы представляем ActCam, метод генерации видео без обучения, который совместно переносит движение персонажа из исходного видео в новую сцену и позволяет управлять внутренними и внешними параметрами камеры на каждом кадре. ActCam основывается на любом предварительно обученном диффузионном модели изображения в видео, которая принимает условия в виде глубины сцены и позы персонажа. Учитывая исходное видео с движущимся персонажем и целевое движение камеры, ActCam генерирует условия позы и глубины, которые остаются геометрически согласованными на протяжении всех кадров. Затем мы проводим единственный процесс выборки с двухфазным графиком условий: на ранних этапах снижения шума условия задаются как позой, так и разреженной глубиной для обеспечения структуры сцены, после чего глубина исключается, а управление только позой уточняет детали высокой частоты без чрезмерного ограничения генерации. Мы оцениваем ActCam на нескольких контрольных точках, охватывающих разнообразные движения персонажей и сложные изменения углов обзора. Мы обнаруживаем, что в сравнении с контролем только по позе и другими методами управления позой и камерой ActCam улучшает соблюдение камеры и точность движения, и предпочтителен в оценках людей, особенно при больших изменениях углов обзора. Наши результаты подчеркивают, что тщательное кондиционирование, согласующееся с камерой, и поэтапное руководство могут обеспечить сильный совместный контроль камеры и движения без необходимости в обучении. ## Ключевые выводы 1. ActCam представляет собой метод генерации видео без обучения, который позволяет одновременно управлять движением персонажей и параметрами камеры. 2. Метод использует предварительно обученные модели диффузии изображений, что позволяет сохранять геометрическую согласованность условий позы и глубины. 3. ActCam демонстрирует улучшение в соблюдении камеры и точности движения по сравнению с другими методами, особенно при значительных изменениях углов обзора. 4. Двухфазный график условий позволяет эффективно управлять детализацией генерации, не перегружая процесс. 5. Оценки пользователей показывают предпочтение ActCam в художественных приложениях, где важна кинематографическая точность. ## Практическая значимость Разработка ActCam может быть полезна для профессионалов в области кино и анимации, позволяя им создавать видеоматериалы с высоким уровнем контроля над движением персонажей и параметрами камеры. Метод может быть применен в производстве фильмов, видеоигр и виртуальной реальности, где требуется синхронизация движения и камеры для достижения художественного эффекта. Кроме того, ActCam может быть интересен исследователям в области компьютерного зрения и машинного обучения, предоставляя новые возможности для изучения генерации видео. ## Ограничения и критика Одним из возможных ограничений ActCam является зависимость от качества предварительно обученных моделей, что может повлиять на итоговые результаты. Также метод может сталкиваться с трудностями при генерации видео в сценах с высокой сложностью или большим количеством объектов, что требует дальнейших исследований. Кроме того, отсутствие необходимости в обучении может ограничивать возможности настройки и адаптации для специфических задач или стилей. Важно также отметить, что исследование не рассматривает влияние различных художественных стилей на результаты генерации, что может быть важным аспектом для будущих работ.