Обучение генеративной нейросети стилю из ролика ЩедрыйВторник на Deziiign

Идея

В прошлом модуле я делала ролик для благотворительного движения #ЩедрыйВторник. Думаю, стиль, в котором я тогда работала, был достаточно уникальным, так как он был разработан специально для той анимации. В данном проекте я бы хотела обучить нейросеть на кадрах из того ролика.

Возможно когда-нибудь я захочу вернуться к этому стилю в иллюстрации или анимации. Возможно организация, для которой я делала ролик, захочет применить мой стиль из ролика для своих нужд (например для мерча или плакатов). Возможно я или кто-то еще найдет другое применение нейросетевой модели, которую я создам.

Исходный визуал

Для начала приведу несколько кадров из ролика, чтобы наглядно показать стиль.

кадры из ролика все кадры в нужном формате загружены на яндекс.диск: https://disk.360.yandex.ru/d/8_zEFjr6HlB4aw

Код

Ссылка на нутбук, который я использовала в процессе обучения модели: https://disk.360.yandex.ru/d/_3DybYM1SQHFFA

Полученные изображения

Исходный размер 1024x1024

Промпт: a frame of animation movie in SHEDRIYVTORNIK style, crying boy on the red background

Очень похоже на мою картинку из ролика, однако эмоция не распознана.

Промпт: a frame of animation movie in SHEDRIYVTORNIK style, wight dog eating a coin on the black background

Хорошо адаптирована девочка, и силуэты собак просвечиваются, однако картинку пришлось обрезать, так как выше еще нарисовался мальчик.

Вторая генерация для того же промпта. Немного бледное изображение получилось, но персонажи хорошие.

Исходный размер 1024x1024

Промпт: а dog eating a coin on the black background

Несмотря на искажения в области рта и лба собаки, стилизация неплохая. Монетки также похожи на те, что я рисовала в ролике.

Исходный размер 1024x1024

Промпт: a red kitten on a mountain of coins

Независимо от промпта изображение красивое. Возможно из-за большого количества изображений с ракурсом «сверху» итоговые изображения также получаются с похожим ракурсом. Если учесть, что мы смотрим на кошку на горе сверху, то выглядит довольно реалистично.

Исходный размер 1024x1024

Промпт: red trees on a black lawn

Такой же ракурс как и в прошлом промпте. Лужайка продублировалась, она и снизу на картинке и в центре.

Исходный размер 1024x1024

Промпт: a family having a picnic under a red tree

Снова ракурс сверху. Ракурс дерева не совпал с остальной картинкой. Очень большая семья под деревом получилась.

Исходный размер 1024x1024

Промпт: a medieval map with rivers and cities marked in red

Небольшое отклонение по цветовой гамме, но, думаю, это из-за название самого промпта. В остальном стилизация близка к моему стилю.

Вывод

Подводя итоги, модель достаточно хорошо передает текстуру, которую я использовала для создания анимационного ролика, однако при создании определённых объектов и персонажей у нее все еще возникают проблемы.

В процессе работы над ноутбуком я использовала chat GPT для исправления возникающих ошибок и корректировки кода.