ArXiv · Перевод

Вызов LoViF 2026: Оценка качества видео в 4D моделях

Авторы оригиналаWei Luo, Yiting Lu, Xin Li, Haoran Li, Fengbin Guan, Chen Gao, Xin Jin, Yong Li, Zhibo Chen, Sijing Wu, Kang Fu, Yunhao Li, Ziang Xiao, Huiyu Duan, Jing Liu, Qiang Hu, Xiongkuo Min, Guangtao Zhai, Manxi Sun, Zixuan Guo, Yun Li, Ziyang Chen, Manabu Tsukada, Zhengyang Li, Zhenglin Du, Yi Wen, Licheng Jiao, Fang Liu, Lingling Li, Yiwen Ren, Zhilong Song, Dubing Chen, Yucheng Zhou, Tianyi Yan, Huan Zheng

ПереводKENDEV AI

Дата2026-05-07

Теги

LoViF 2026качество видеофизический реализмвременная согласованностьоценка видео

## Перевод abstract В данной статье представлен вызов LoViF 2026 PhyScore, соревнование по комплексной оценке качества видео, сгенерированных моделями мира как в 2D, так и в 4D. Этот вызов обусловлен центральной проблемой в текущей практике оценки: перцептивного качества недостаточно для того, чтобы судить о том, являются ли сгенерированные динамики физически правдоподобными, временно согласованными и соответствующими входным условиям. Участникам требуется разработать метрику, которая совместно предсказывает четыре измерения: качество видео, физический реализм, соответствие условий и видео, а также временную согласованность. Кроме того, участникам необходимо локализовать временные метки физических аномалий для детальной диагностики. Бенчмарк-датасет содержит 1554 видео, сгенерированных семью представительными моделями генерации мира, организованными в три трека (текст-2D, изображение-4D и видео-4D) и охватывающими 26 категорий. Эти категории явно охватывают сцены, относящиеся к физике, включая динамику, оптику и термодинамику, наряду с разнообразным контентом из реального мира и креативным контентом. Для обеспечения надежности меток оценки баллы и временные метки аномалий были получены с помощью аннотации, выполненной обученными людьми, с дополнительным автоматизированным контролем качества. Оценка основана как на предсказании баллов, так и на локализации аномалий, с использованием комбинированного протокола, который включает TimeStamp_IOU и SRCC/PLCC. Этот отчет подводит итоги дизайна вызова и предоставляет методические инсайты из представленных решений. ## Ключевые выводы 1. Вызов LoViF 2026 PhyScore направлен на создание комплексной метрики для оценки качества видео, сгенерированных моделями мира, учитывающей физический реализм и временную согласованность. 2. Участники должны не только оценивать видео, но и локализовать временные метки физических аномалий, что позволяет проводить более детальный анализ. 3. Бенчмарк-датасет включает 1554 видео, охватывающих 26 категорий, что позволяет исследовать различные физические сценарии и креативный контент. 4. Оценка качества видео осуществляется на основе предсказания баллов и локализации аномалий с использованием комбинированного протокола. 5. Статья предоставляет методические рекомендации и выводы на основе решений, представленных участниками. ## Практическая значимость Результаты данного вызова могут быть полезны для разработчиков и исследователей в области генерации видео и компьютерной графики, а также в смежных областях, таких как виртуальная реальность и анимация. Создание надежных метрик для оценки качества видео может улучшить технологии генерации контента и повысить уровень реализма в визуальных приложениях. ## Ограничения и критика Одним из слабых мест исследования является ограниченность в охвате категорий, что может не учитывать все возможные физические сценарии. Кроме того, reliance на аннотацию, выполненную людьми, может привести к субъективности в оценках. Необходимо также учитывать, что использование автоматизированных методов контроля качества не всегда может заменить человеческую оценку, что может повлиять на надежность результатов.