ArXiv · Перевод

D-OPSD: Новая парадигма обучения для моделей диффузии

Авторы оригиналаDengyang Jiang, Xin Jin, Dongyang Liu, Zanyi Wang, Mingzhe Zheng, Ruoyi Du, Xiangpeng Yang, Qilong Wu, Zhen Li, Peng Gao, Harry Yang, Steven Hoi

ПереводKENDEV AI

Дата2026-05-07

Теги

D-OPSDмодели диффузииобучениесамодистилляциясупервайзинговая донастройка

## Перевод abstract Ландшафт высокопроизводительных моделей генерации изображений в настоящее время меняется от неэффективных многошаговых моделей к эффективным моделям с небольшим числом шагов (например, Z-Image-Turbo и FLUX.2-klein). Однако эти модели представляют собой значительные проблемы для прямой непрерывной супервайзинговой донастройки. Например, применение обычно используемой техники донастройки может подорвать их врожденную способность к выводу за несколько шагов. Чтобы решить эту проблему, мы предлагаем D-OPSD, новую парадигму обучения для моделей диффузии с шаговой дистилляцией, которая позволяет осуществлять обучение на политике в процессе супервайзинговой донастройки. Мы сначала обнаруживаем, что современная модель диффузии, где LLM/VLM (большая языковая модель/модель визуального языка) выступает в качестве кодировщика, может унаследовать способности контекстного понимания своего кодировщика. Это позволяет нам рассматривать обучение как процесс самодистилляции на политике. Конкретно, в процессе обучения мы заставляем модель выступать одновременно и в роли учителя, и в роли студента с различными контекстами, где студент основывается только на текстовых признаках, в то время как учитель основывается на мультимодальных признаках как текстового запроса, так и целевого изображения. Обучение минимизирует два предсказанных распределения по собственным выходам студента. Оптимизируя на основе траектории модели и под ее собственным контролем, D-OPSD позволяет модели изучать новые концепции, стили и т.д., не жертвуя оригинальной способностью к выводу за несколько шагов. ## Ключевые выводы 1. D-OPSD представляет собой новую парадигму обучения, которая позволяет моделям диффузии с шаговой дистилляцией осуществлять обучение на политике во время супервайзинговой донастройки. 2. Модель использует современные диффузионные модели, где LLM/VLM служит кодировщиком, что позволяет унаследовать способности контекстного понимания. 3. В процессе обучения модель действует как учитель и студент, что позволяет эффективно использовать мультимодальные признаки. 4. Метод минимизирует два предсказанных распределения на основе собственных выходов студента, что способствует более глубокому обучению без потери оригинальной эффективности. 5. D-OPSD позволяет моделям осваивать новые концепции и стили, не ухудшая их производительность при выводе за несколько шагов. ## Практическая значимость Разработка D-OPSD может быть полезна для исследователей и разработчиков в области генерации изображений и искусственного интеллекта. Этот метод может быть применен в таких областях, как создание мультимедийного контента, визуальные эффекты в киноиндустрии, а также в приложениях, связанных с дизайном и искусством, где важна высокая производительность и качество изображений. ## Ограничения и критика Работа не рассматривает потенциальные ограничения, связанные с общими подходами к обучению на политике, особенно в контексте масштабируемости и универсальности метода. Также не обсуждаются возможные проблемы, связанные с вычислительными затратами и необходимыми ресурсами для реализации D-OPSD. Кроме того, не хватает эмпирических данных, подтверждающих эффективность предложенного подхода по сравнению с другими методами донастройки.