Исходный размер 1140x1600

Обучение генеративной нейросети Stable Diffusion

Проект принимает участие в конкурсе

Концепция и референсы

В детстве я обожала пластилин: весь стол был в цветных неоттираемых разводах, а к полке над рабочим местом уже давным-давно приклеились однотипные котики и собачки. Всё, слепленное мной, было слеплено с огромной любовью и огоньком в глазах. Теперь же я выросла, технологии шагнули вперёд, и для создания чего-то классного пластилинового не нужно пачкать руки и стол. Так, я решила обучить нейросеть этому чудному стилю.

Исходный размер 1795x1225

Референсы по стилю

Исходных изображений было около 30. Я собрала их в отдельную папку, которая позже выступила датасетом моего кода.

Цель проекта — найти интересный пластилиновый стиль и обучить ему нейросеть. Посмотреть на сложности и понять, что всё-таки быстрее: слепить самому или написасть код и сгенерить?

Процесс обучения

Исходный размер 1897x924

Фрагмент кода

Итак, вначале потребовалось установить все необходимые для работы библиотеки: Diffusers, DreamBooth и так далее. Далее я загрузила заранее кадрированный под квадратный формат датасет с референсами. Задав название стилю, а именно «messy clay style», я убедилась, что код верно считывает изображения, описывая, что на них происходит.

Исходный размер 1897x801

Фрагмент кода

Исходный размер 1897x971

Фрагмент кода

Стоит отметить, что я также выполнила вход через систему Hugging Face и использовала персональный токен. После этого начался процесс непосредственного обучения нейросети. К сожалению, высокого качества при обучении мне добиться не удалось — не хватало оперативной памяти графического процессора, так что было принято решение установить следующие параметры: разрешение — 384 максимальный шаг тренинга — 200

Это позволило мне успешно прогрузить код.

Исходный размер 1332x1057

Фрагмент кода

Далее я выгрузила нейросеть на Hagging Face и приступила к генерациям уникальных пластилиновых шедевров.

Генерация изображений

Исходный размер 1905x902

«messy clay style, blue cat resting on a red roof, plasticine texture, handmade look»

На мой взгляд, нейросеть довольно успешно обучилась, несмотря на всевозможные урезания качества и оптимизацию процесса. У неё получилось сохранить абсолютно невинный, иногда безобразный детский вид пластилинового мира.

«messy clay style, one yellow dog, cute appearance», «messy clay style, pattern of yellow dogs, cute appearance»

Исходный размер 1905x902

«messy clay style, pretty cat with a long whiskers on a red background, cute bright round shapes»

«messy clay style, some abstract round pink forms, soft lighting, on vibrant green background», «messy clay style, beautiful sky with white round clouds, colorful clay texture»

Какие-то генерации выходили абсолютно искусными, другие же — супер простыми и «неправильными». Но в этом и прелесть творчества из пластилина — никогда не знаешь, что получится в итоге.

«messy clay style, cute girl, plasticine texture, handmade look», «messy clay style, beautiful blue flower on a vibrant pink background»

В результате нейросеть хорошо поняла детали работы с пластилином и выдержала милый стиль даже в абстракции. Генерировать изображения весело и интересно, так как каждая генерация — новый пластилиновый чубрик.

Моим личным достижением стало вдохновение от процесса и возникшее желание поработать с реальным материалом. А раз нейросеть вдохновляет, это уже успех.

Обучение генеративной нейросети Stable Diffusion
Проект создан 23.03.2026