Описание проекта и выбор данных
В поисках подходящего датасета для финального проекта я обратилась к ресурсам Kaggle и специализированным репозиториям. Мой выбор пал на исторические данные о продажах видеоигр (Video Game Sales), основанные на статистике авторитетного портала VGChartz. Я выбрала эту тему по двум причинам. Во-первых, игровая индустрия — это один из самых динамичных секторов мировой экономики, который обгоняет по выручке кино и музыку. Во-вторых, мне хотелось проанализировать объективные показатели успеха: не субъективные оценки критиков, а реальные продажи («голосование рублем»). Мне было интересно узнать, какие платформы исторически доминировали на рынке, как менялась активность издателей за последние 30 лет и существуют ли фундаментальные различия во вкусах геймеров из США, Европы и Японии
Подготовка и инструменты
Для реализации проекта я использовала язык программирования Python в среде Google Colab. Основной стек библиотек включал: • Pandas: для загрузки, очистки и агрегации табличных данных. • Matplotlib и Seaborn: для построения продвинутых визуализаций. • NumPy: для математических вычислений.
Визуальный стиль
Перед началом работы я уделила особое внимание дизайну. Чтобы графики выглядели профессионально и современно (в стиле «Tech Analytics»), я отказался от стандартных цветов Matplotlib. Был выбран монохромный стиль (Tech Blue) — градиенты от глубокого темно-синего (003366) до ярко-голубого (4da6ff). Все графики были созданы на прозрачном фоне, без лишних рамок («chartjunk»), чтобы их можно было бесшовно интегрировать в любую презентацию, сохраняя высокий коэффициент информативности (Data-Ink Ratio).
Этапы визуализации и анализ
Лидеры рынка платформ (Top Platforms) Тип: Горизонтальная столбчатая диаграмма (Horizontal Bar Chart)
Первым делом я решила выяснить, какие игровые консоли обладают самой богатой библиотекой игр. Используя метод value_counts (), я подсчитала количество уникальных релизов для каждой платформы. Инсайт: График демонстрирует безоговорочное доминирование экосистем Sony и Nintendo. Историческими лидерами остаются PlayStation 2 и Nintendo DS. Это объясняется их невероятно долгим жизненным циклом и огромной базой пользователей, что делало эти платформы привлекательными для разработчиков на протяжении более чем 10 лет.
Пульс индустрии (Industry Growth) Тип: Диаграмма с областями (Area Chart)
Чтобы понять, как развивалась индустрия во времени, я построила график динамики релизов с 1995 по 2020 год. Технически это было реализовано через группировку данных по годам и использование функции fill_between для создания эффекта объема. Инсайт: Мы наблюдаем экспоненциальный рост количества игр с середины 90-х, достигший пика в период «золотого века ритейла» (2008–2010 гг.). Интересно заметить спад на графике после 2015 года. Это не говорит о кризисе индустрии, а иллюстрирует фундаментальный сдвиг в дистрибуции: рынок массово перешел на цифровые продажи (Steam, PS Store), данные о которых часто закрыты и не попадают в классические отчеты о физических отгрузках.
Топ Издателей (Top Publishers) Тип: Столбчатая диаграмма (Bar Chart)
Для анализа ключевых игроков рынка я отфильтровала данные по издателям. В процессе очистки данных мне пришлось столкнуться с проблемой «грязных» данных (значения «Unknown» и скрытые пробелы), которую я решила с помощью строковых методов Pandas (str.strip ()). Инсайт: Рынок имеет олигополистическую структуру. Топ-5 компаний (Electronic Arts, Activision, Ubisoft и др.) формируют значительную часть всего контента. Эти гиганты делают ставку на конвейерное производство крупных франшиз (FIFA, Call of Duty, Assassin’s Creed), что обеспечивает им стабильное лидерство.
Сегментация рынка (Market Share) Тип: Кольцевая диаграмма (Donut Chart)
Для отображения долей рынка я использовала диаграмму-пончик. Это более современная альтернатива классическому «пирогу», которая легче воспринимается визуально. Инсайт: Визуализация подтверждает принцип «Winner Takes All» (Победитель получает всё). Несмотря на существование десятков консолей в истории, около 80% рынка контролируется тремя основными корпорациями: Sony, Nintendo и Microsoft. Платформы с наибольшей базой игроков привлекают больше эксклюзивов, еще сильнее увеличивая отрыв от конкурентов.
Битва регионов (Sales by Region) Тип: Стек-диаграмма (Stacked Bar Chart)
Один из самых сложных технических графиков в проекте. Мне нужно было сравнить продажи на топ-платформах в трех ключевых регионах: Северной Америке (NA), Европе (EU) и Японии (JP). Для этого я написала алгоритм, который автоматически находил нужные столбцы в датасете и накладывал их друг на друга. Инсайт: График выявил четкое географическое разделение предпочтений: • США: Драйвер продаж для Xbox и жанра шутеров. • Европа: Более сбалансированный рынок, тяготеющий к PlayStation. • Япония: Уникальный изолированный рынок с аномально высокой долей портативных консолей (DS, 3DS, Switch) и ролевых игр, где домашние консоли Xbox практически не продаются.
Зал Славы (Hall of Fame) Тип: Горизонтальный рейтинг
Рейтинг самых продаваемых игр всех времен. Здесь использовалась сортировка по глобальным продажам. Инсайт: В топ попадают так называемые «System Sellers» — игры, ради которых люди покупали саму приставку (Wii Sports, Super Mario, GTA V). Статистически эти проекты являются «выбросами»: их продажи превышают средние показатели по индустрии в десятки раз.
Жизненный цикл консолей (Platform Lifecycle) Тип: Тепловая карта (Heatmap)
Для этого графика я использовала сводную таблицу (pivot_table), где по оси X отложены годы, а по оси Y — платформы. Интенсивность цвета показывает количество выпущенных игр. Инсайт: Тепловая карта идеально визуализирует смену поколений. Четко прослеживаются 5–7 летние циклы жизни консолей: запуск -> насыщение рынка -> угасание. Видно, как активность на PlayStation 3 падает ровно в тот момент, когда разгорается активность на PlayStation 4. Это «сердцебиение» индустрии, диктующее сроки разработки игр.
Использование генеративных моделей (ИИ)
В соответствии с требованиями, в проекте использовался искусственный интеллект (модель Google Gemini) в роли ассистента-аналитика («Thought Partner»). Цели применения:
- Оптимизация кода: ИИ помогал писать сложные конструкции Pandas (например, автоматический поиск и переименование столбцов с продажами, чтобы код работал универсально на разных версиях датасета).
- Отладка (Debugging): Помощь в устранении ошибок типа KeyError и проблем с типами данных при очистке пропусков.
- Стилизация: Генерация параметров для библиотеки Seaborn, чтобы добиться единого «бесшовного» стиля графиков без рамок и на прозрачном фоне.
- Интерпретация: Помощь в формулировке бизнес-инсайтов на основе полученных визуализаций. Ссылка на модель: Google Gemini https://gemini.google.com/u/1/
Заключение
В ходе работы был проведен полный цикл анализа данных: от поиска и очистки «сырого» датасета до создания презентационных материалов. Анализ подтвердил, что игровая индустрия — это цикличный рынок с высокой конкуренцией, где успех зависит от географического позиционирования и наличия сильных эксклюзивных проектов. Использование Python позволило обработать массив из тысяч строк за секунды и выявить тренды, которые невозможно заметить при обычном просмотре таблиц.



