Исходный размер 758x1024

Обучение нейросети на примере Дружка из Барбоскиных

Проект принимает участие в конкурсе

Рубрикатор

1. Описание идеи проекта 2. Исходные изображения для обучения 3. Описание 4. Итоговая серия изображений 5. Анализ результата 6. Использование генеративного ИИ в проекте 7. Вывод 8. Блокнот и датасет

Описание идеи проекта

Цель проекта — исследовать возможности дообучения генеративной модели Stable Diffusion XL методом DreamBooth LoRA для точного воспроизведения персонажа мультфильма. В качестве объекта выбран Дружок Барбоскин, герой мультсериала «Барбоскины».

Основная задача — обучить модель распознавать индивидуальные характеристики персонажа и генерировать новые изображения, которые сохраняют его стиль, пропорции и визуальную идентичность, но помещают его в новые сцены и контексты.

Исходные изображения для обучения

Для обучения собран датасет из 37 изображений персонажа. Изображения охватывают разные ракурсы и сцены. Перед обучением к каждому изображению автоматически генерировались текстовые описания (кэпшены). Это улучшает качество обучения модели.

0

Описание

Подготовка датасета

Все изображения были предварительно приведены к единому формату в процессе обучения.

Чтобы улучшить работу модели, к изображениям были добавлены автоматически сгенерированные текстовые описания, на основе которых затем был сформирован файл metadata.jsonl.

Использование текстовых описаний повышает семантическую осмысленность датасета и увеличивает способность модели обобщать особенности персонажа.

Автоматическая генерация описаний с помощью BLIP

Для генерации кэпшенов использовалась модель BLIP. Она анализирует каждое изображение и создаёт текстовое описание Эти описания автоматически включаются в metadata.jsonl и используются в обучении DreamBooth. Таким образом, BLIP помогает:

  1. связать визуальные элементы изображения с текстовой информацией;
  2. повысить качество обучения;
  3. уменьшить риск переобучения;
  4. обеспечить лучшую интерпретацию персонажа в новых сценах.

Настройка DreamBooth LoRA

В проекте использована современная генеративная модель Stable Diffusion XL. SDXL отличается высокой выразительностью, улучшенной архитектурой UNet и двумя текстовыми энкодерами, что делает её наиболее подходящей для задач детализированной стилизации и воспроизведения персонажей.

Ход обучения

В ноутбуке происходят следующие этапы:

  1. Загрузка SDXL и подготовка LoRA-слоёв.
  2. Загрузка изображений и кэпшенов BLIP.
  3. Подготовка датасета для тренировки.
  4. Запуск тренера для DreamBooth LoRA.
  5. Периодическое сохранение промежуточных весов.
  6. Экспорт итоговой LoRA-модели.
Исходный размер 2101x581

Загрузка SDXL и подготовка LoRA-слоёв

Исходный размер 2609x695

Загрузка изображений и кэпшенов BLIP

Исходный размер 2615x927

Запуск тренера для DreamBooth LoRA

Процесс обучения выполнялся на GPU. После завершения обучение созданы LoRA-веса, которые можно использовать совместно с любой SDXL-моделью для генерации новых изображений персонажа.

Применение обученной LoRA-модели

После обучения LoRA подключается обратно к SDXL. Теперь генерации выполняются через текстовый запрос. Модель уверенно воспроизводит персонажа в разных стилях, с различным освещением, в новых контекстах, в разных позах и при этом сохраняет узнаваемость и стилистическую цельность.

Итоговая серия изображений

0

Анализ результата

Модель хорошо передала ключевые особенности Дружка: характерные пропорции головы, цвет шерсти, форма ушей, характерные большие глаза, стилизацию. На итоговых изображениях заметно, что стиль остаётся консистентным, персонаж легко вписывается в новые сцены, сохраняется базовая цветовая палитра, модель понимает позы и может варьировать мимику. Также можно отметить следующие вариации: модель генерирует различное освещение, меняет фон, корректно реагирует на запросы: «в лесу», «в городе», «в 3D стиле», «в акварели».

Использование генеративного ИИ в проекте

В рамках проекта использовались сервисы:

  1. BLIP — для автоматической подготовки данных
  2. SDXL + LoRA — для выполнения основной задачи обучения генеративной модели
  3. ChatGPT — для повышения качества оформления проекта и анализа качества датасета.

Вывод

После обучения была получена новая серия изображений. Заметно, что в них модель сохраняет ключевые особенности персонажа. Соответственно, можно сделать вывод, что дообучение позволяет передать индивидуальные особенности образа.

Обучение нейросети на примере Дружка из Барбоскиных
Проект создан 23.03.2026