Новости

Ученые из Массачусетского технологического института и Google улучшают качество изображений, создаваемых ИИ, без необходимости в переобучении

Их метод повышает качество изображений в процессе генерации, используя принципы, уже применяемые в моделях диффузии для улучшения изображений с помощью шумоподавления. В статье «Масштабирование времени вывода для моделей диффузии за пределами масштабирования этапов шумоподавления» авторы предлагают два ключевых элемента: верификаторы, которые выполняют роль контролёров качества, и алгоритмы поиска, которые используют эти оценки для нахождения оптимальных изображений.

Этот подход примечателен тем, что позволяет улучшить результаты без необходимости переобучать модель ИИ. Вместо этого он фокусируется на оптимизации самого процесса генерации, аналогично тому, как модели вроде o1 от OpenAI, Gemini 2.0 Flash Thinking от Google и R1 от DeepSeek улучшают свои выходные данные при генерации текста.

Система использует несколько типов верификаторов для оценки различных аспектов сгенерированных изображений. Среди них — эстетическая оценка визуального качества, «CLIPScore», который проверяет соответствие изображения текстовой подсказке, и «ImageReward», оценивающий изображения по человеческим критериям. Все эти верификаторы объединены в «ансамбль», чтобы учитывать различные факторы

Команда также разработала три алгоритма поиска. Случайный поиск генерирует несколько вариантов и выбирает лучший, хотя чрезмерное количество попыток может привести к слишком похожим изображениям. Поиск нулевого порядка начинается со случайного изображения и постепенно ищет улучшения. Поиск по путям, наиболее сложный из подходов, оптимизирует весь процесс генерации, улучшая шаги шумоподавления на каждом этапе.

Тесты показали, что все три метода значительно улучшили качество изображений — даже небольшие модели с этой оптимизацией показали лучшие результаты, чем большие модели без неё. Однако есть компромисс: более качественные изображения требуют больше вычислительного времени. Исследователи выяснили, что около 50 дополнительных вычислительных шагов на изображение обеспечивают хороший баланс между качеством и временем.

Разные верификаторы дают разные результаты: Aesthetic Score чаще создаёт более художественные изображения, в то время как CLIPScore ориентирован на реалистичность. Это означает, что пользователи должны выбирать верификатор в зависимости от того, какой результат им нужен.