Обучение генеративной нейросети Stable Diffusion под создание фотографий на Deziiign

Идея проекта

Создать генеративную нейросеть, способную создавать портрет меня самого в разнообразных стилях и ситуациях на основе небольшого набора фотографий. Цель — получить инструмент, который позволяет «поместить» реального человека в любые контексты.

Исходные изображения для обучения

Для обучения я собрал датасет из 25 фотографий меня.

Характеристики датасета:

· Разные ракурсы: анфас, профиль, ¾ поворота · Разная мимика: улыбка, серьёзное выражение · Разный фон: в помещении, на улице

примеры из моего датасета

Описание процесса обучения

Для обучения генеративной нейросети я использовал метод DreamBooth в сочетании с LoRA на базе модели Stable Diffusion XL. Этот подход позволяет обучить большую модель на небольшом датасете, добавляя всего несколько мегабайт новых весов, что экономит время и ресурсы.

Подготовка данных

Я собрал 25 своих фотографий, стараясь обеспечить разнообразие ракурсов, освещения и фонов. Исходные изображения были обрезаны до квадрата с сохранением центральной части кадра. Для каждого изображения с помощью модели BLIP автоматически сгенерированы текстовые описания, к которым добавлялось триггер-слово «Mihail». Это слово в дальнейшем использовалось для вызова моего лица при генерации.

Ход обучения

Процесс занял около двух часов. На первых шагах модель училась обобщать черты лица, к 250-му шагу потери снизились до 0.004, что говорит о хорошей сходимости. После 500 шагов обучение было остановлено — дальнейшее увеличение количества шагов могло привести к переобучению.

Результат

Финальные веса сохранены в формате safetensors. Модель научилась сохранять узнаваемость лица при генерации в разных стилях и контекстах, что подтверждается итоговой серией изображений.

Результирующая серия изображений

Использование ГенИИ в проекте

В проекте использовались следующие генеративные модел:

Модель Stable Diffusion — для генерации изображений DreamBooth + LoRA — обучение модели на персональных фото BLIP — Автоматическая генерация подписей (captioning) для изображений в датасете Recraft — создание обложки проекта

Ссылка на код