Рубрикатор
Описание идеи проекта
Исходные изображения для обучения
Первые попытки генерации изображений
Результирующая серия изображений
Комментарий
Ноутбук с кодом и описание процесса обучения
Использование ГенИИ в проекте
1. Описание идеи проекта
Проект посвящён обучению генеративной нейросети Stable Diffusion авторскому стилю ру-манги «Anthropomorphic Desert, or Where the Dog Wanders» («Антропоморфная пустыня, или Где бродит Пёс») с последующей трансформацией в двуцветную пиксельную эстетику.
Исходный материал — 40 кадров из личной манги, характеризующихся контрастной штриховкой, динамичными позами и выразительной мимикой.
Основная идея — не просто скопировать стиль, но создать гибридную визуальную систему, где традиционная манга-графика встречается с эстетикой ранней цифровой пиксельной графики (8-bit, дизеринг, ограниченная палитра). Такой подход позволяет расширить границы исходного стиля, сохранив его узнаваемость, но добавив новую фактурность и визуальную идентичность.
2. Исходные изображения для обучения
Страницы оригинальной ру-манги
3. Первые попытки генерации изображений
Первая и вторая попытки без нужной корректировки также представлены в ноутбуке
Первая попытка была «пробой пера» без учета нужды в направлении нейросети, неверно толковавшей причудливый узор оригинала.
Вторая попытка удовлетворяла некоторые запросы по стилю, но ввиду нехватки памяти изображения с таким разрешением превращались в кашу.
4. Результирующая серия изображений
Получившийся код запускался несколько раз, чтобы получить как можно больше результатов и выбрать наиболее выразительные
5. Комментарий
Серия включает 15 изображений, сгенерированных с использованием обученной LoRA. Визуальный ряд состоит из портретов, поясных кадров и динамичных сцен, объединённых общей стилистикой — сочетанием авторской манга-штриховки и двуцветной пиксельной обработки.
Изображение невошедшее в серию
Первоначальная идея заключалась в сохранении идентичности авторского стиля при его обогащении цифровой эстетикой. В результатах это проявилось через:
— сохранение характерной линии (толщина, динамика, угловатость);
— переход от чистого чёрно-белого к двуцветной палитре (чёрный + акцентный оттенок), что имитирует ограниченные возможности ранних дисплеев;
— внедрение пиксельной зернистости и дизеринга, добавляющих фактуру и «цифровой шарм».
Детали генерации и методы улучшения:
После базового обучения LoRA на 40 изображениях (10 эпох, batch size 2, learning rate 1e-4) использовалась донастройка промптов. В промпты были добавлены ключевые слова pixel art, dithering, 2-tone, duotone, high contrast, чтобы направить модель к желаемой пиксельно-двуцветной эстетике. Также был отключён safety checker для предотвращения ложных срабатываний NSFW-фильтра, характерных для манга-стилистики.
6. Ноутбук с кодом и описание процесса обучения
Описание процесса обучения:
Обучение проводилось в Google Colab с использованием T4 GPU. В качестве базовой модели выбрана Stable Diffusion v1.5 (runwayml/stable-diffusion-v1-5).
Применена техника LoRA (Low-Rank Adaptation) с параметрами: r=8, alpha=32, target_modules=[«to_q», «to_v», «to_k», «to_out.0»], lora_dropout=0.1.
Датасет — 40 изображений, приведённых к квадрату 512×512.
Обучение длилось 10 эпох с batch size 2, learning rate 1e-4, оптимизатором AdamW и линейным планировщиком скорости. Loss финальных эпох колебался в пределах 0.01–0.22, что свидетельствует о стабильной сходимости.
7. Использование ГенИИ в проекте
Помимо обученной нейросети Stable Diffusion, в проекте использовался ChatGPT (OpenAI) для:
— написания экспликации и развёрнутых комментариев;
— структурирования описания проекта;
— формулировки технических деталей.
Сама генерация изображений выполнена исключительно обученной моделью (Stable Diffusion + LoRA) без дополнительных инструментов постобработки.




