Идея проекта
Мне очень нравится рисовка анимационной студии Studio Ghibli, поэтому я решила обучить генеративную нейросеть Stable Diffusion для генерации иллюстраций в подобном стиле. В последствии их можно использовать для фестивалей или фирменного стиля, посвященного мультфильмам данной студии. Основная задача проекта — проверить, насколько нейросеть сможет уловить стилистику Ghibli.
Описание процесса работы
Для начала я нашла готовый dataset с иллюстрациями Studio Ghibli.
и загрузила картинки в Google Colab через Google Диск
Далее был разработан класс датасета, позволяющий последовательно обходить набор данных, извлекать изображения по одному и подавать их на вход модели.
Затем модель была загружена, и к ней добавлены LoRA-слои. Для ускорения обучения использовался GPU, на который переводилась модель. Все слои, кроме LoRA-слоёв, были заморожены, чтобы избежать обучения всей модели целиком. Для оптимизации использования видеопамяти применялся градиентный чекпоинтинг.
Процесс обучения представлен на изображении и занял 11 минут. По завершении получается модель, способная генерировать новые изображения в заданном стиле.
И затем я начала вводить промпты для генерации изображений.
результат одного из промптов
Результаты изображений
В целом я довольна получившимися изображениями, удалось довольно точно передать задуманный стиль. Совпадения выходят удачными, хотя в каждой серии почти всегда находится как минимум одна «кривая» картинка, что можно объяснить либо неудачным промптом, либо не очень аккуратно собранным датасетом, где вперемешку встречаются и люди, и пейзажи, и другие сцены. При этом, по моим наблюдениям, именно пейзажи генерируются заметно лучше, чем, например, животные.
Используемые инструменты
Stable Duffusion — генеративная модель Google colab — написание и выполнение кода Hugging Face — использовался для поиска и выбора модели




