Исходный размер 1140x1600

Анализ и визуализация данных индустрии видеоигр

PROTECT STATUS: not protected

Описание проекта и выбор данных

В поисках подходящего датасета для финального проекта я обратилась к ресурсам Kaggle и специализированным репозиториям. Мой выбор пал на исторические данные о продажах видеоигр (Video Game Sales), основанные на статистике авторитетного портала VGChartz. Я выбрала эту тему по двум причинам. Во-первых, игровая индустрия — это один из самых динамичных секторов мировой экономики, который обгоняет по выручке кино и музыку. Во-вторых, мне хотелось проанализировать объективные показатели успеха: не субъективные оценки критиков, а реальные продажи («голосование рублем»). Мне было интересно узнать, какие платформы исторически доминировали на рынке, как менялась активность издателей за последние 30 лет и существуют ли фундаментальные различия во вкусах геймеров из США, Европы и Японии

Подготовка и инструменты

Для реализации проекта я использовала язык программирования Python в среде Google Colab. Основной стек библиотек включал: • Pandas: для загрузки, очистки и агрегации табличных данных. • Matplotlib и Seaborn: для построения продвинутых визуализаций. • NumPy: для математических вычислений.

Визуальный стиль

Перед началом работы я уделила особое внимание дизайну. Чтобы графики выглядели профессионально и современно (в стиле «Tech Analytics»), я отказался от стандартных цветов Matplotlib. Был выбран монохромный стиль (Tech Blue) — градиенты от глубокого темно-синего (003366) до ярко-голубого (4da6ff). Все графики были созданы на прозрачном фоне, без лишних рамок («chartjunk»), чтобы их можно было бесшовно интегрировать в любую презентацию, сохраняя высокий коэффициент информативности (Data-Ink Ratio).

Этапы визуализации и анализ

Исходный размер 974x671

Лидеры рынка платформ (Top Platforms) Тип: Горизонтальная столбчатая диаграмма (Horizontal Bar Chart)

Исходный размер 851x290

Первым делом я решила выяснить, какие игровые консоли обладают самой богатой библиотекой игр. Используя метод value_counts (), я подсчитала количество уникальных релизов для каждой платформы. Инсайт: График демонстрирует безоговорочное доминирование экосистем Sony и Nintendo. Историческими лидерами остаются PlayStation 2 и Nintendo DS. Это объясняется их невероятно долгим жизненным циклом и огромной базой пользователей, что делало эти платформы привлекательными для разработчиков на протяжении более чем 10 лет.

Исходный размер 974x704

Пульс индустрии (Industry Growth) Тип: Диаграмма с областями (Area Chart)

Исходный размер 929x338

Чтобы понять, как развивалась индустрия во времени, я построила график динамики релизов с 1995 по 2020 год. Технически это было реализовано через группировку данных по годам и использование функции fill_between для создания эффекта объема. Инсайт: Мы наблюдаем экспоненциальный рост количества игр с середины 90-х, достигший пика в период «золотого века ритейла» (2008–2010 гг.). Интересно заметить спад на графике после 2015 года. Это не говорит о кризисе индустрии, а иллюстрирует фундаментальный сдвиг в дистрибуции: рынок массово перешел на цифровые продажи (Steam, PS Store), данные о которых часто закрыты и не попадают в классические отчеты о физических отгрузках.

Исходный размер 974x628

Топ Издателей (Top Publishers) Тип: Столбчатая диаграмма (Bar Chart)

Исходный размер 837x596

Для анализа ключевых игроков рынка я отфильтровала данные по издателям. В процессе очистки данных мне пришлось столкнуться с проблемой «грязных» данных (значения «Unknown» и скрытые пробелы), которую я решила с помощью строковых методов Pandas (str.strip ()). Инсайт: Рынок имеет олигополистическую структуру. Топ-5 компаний (Electronic Arts, Activision, Ubisoft и др.) формируют значительную часть всего контента. Эти гиганты делают ставку на конвейерное производство крупных франшиз (FIFA, Call of Duty, Assassin’s Creed), что обеспечивает им стабильное лидерство.

Исходный размер 952x994

Сегментация рынка (Market Share) Тип: Кольцевая диаграмма (Donut Chart)

Исходный размер 929x587

Для отображения долей рынка я использовала диаграмму-пончик. Это более современная альтернатива классическому «пирогу», которая легче воспринимается визуально. Инсайт: Визуализация подтверждает принцип «Winner Takes All» (Победитель получает всё). Несмотря на существование десятков консолей в истории, около 80% рынка контролируется тремя основными корпорациями: Sony, Nintendo и Microsoft. Платформы с наибольшей базой игроков привлекают больше эксклюзивов, еще сильнее увеличивая отрыв от конкурентов.

Исходный размер 974x567

Битва регионов (Sales by Region) Тип: Стек-диаграмма (Stacked Bar Chart)

Исходный размер 969x604
Исходный размер 1129x397

Один из самых сложных технических графиков в проекте. Мне нужно было сравнить продажи на топ-платформах в трех ключевых регионах: Северной Америке (NA), Европе (EU) и Японии (JP). Для этого я написала алгоритм, который автоматически находил нужные столбцы в датасете и накладывал их друг на друга. Инсайт: График выявил четкое географическое разделение предпочтений: • США: Драйвер продаж для Xbox и жанра шутеров. • Европа: Более сбалансированный рынок, тяготеющий к PlayStation. • Япония: Уникальный изолированный рынок с аномально высокой долей портативных консолей (DS, 3DS, Switch) и ролевых игр, где домашние консоли Xbox практически не продаются.

Исходный размер 974x561

Зал Славы (Hall of Fame) Тип: Горизонтальный рейтинг

Исходный размер 1145x601

Рейтинг самых продаваемых игр всех времен. Здесь использовалась сортировка по глобальным продажам. Инсайт: В топ попадают так называемые «System Sellers» — игры, ради которых люди покупали саму приставку (Wii Sports, Super Mario, GTA V). Статистически эти проекты являются «выбросами»: их продажи превышают средние показатели по индустрии в десятки раз.

Исходный размер 974x601

Жизненный цикл консолей (Platform Lifecycle) Тип: Тепловая карта (Heatmap)

Исходный размер 1199x420

Для этого графика я использовала сводную таблицу (pivot_table), где по оси X отложены годы, а по оси Y — платформы. Интенсивность цвета показывает количество выпущенных игр. Инсайт: Тепловая карта идеально визуализирует смену поколений. Четко прослеживаются 5–7 летние циклы жизни консолей: запуск -> насыщение рынка -> угасание. Видно, как активность на PlayStation 3 падает ровно в тот момент, когда разгорается активность на PlayStation 4. Это «сердцебиение» индустрии, диктующее сроки разработки игр.

Использование генеративных моделей (ИИ)

В соответствии с требованиями, в проекте использовался искусственный интеллект (модель Google Gemini) в роли ассистента-аналитика («Thought Partner»). Цели применения:

  1. Оптимизация кода: ИИ помогал писать сложные конструкции Pandas (например, автоматический поиск и переименование столбцов с продажами, чтобы код работал универсально на разных версиях датасета).
  2. Отладка (Debugging): Помощь в устранении ошибок типа KeyError и проблем с типами данных при очистке пропусков.
  3. Стилизация: Генерация параметров для библиотеки Seaborn, чтобы добиться единого «бесшовного» стиля графиков без рамок и на прозрачном фоне.
  4. Интерпретация: Помощь в формулировке бизнес-инсайтов на основе полученных визуализаций. Ссылка на модель: Google Gemini https://gemini.google.com/u/1/

Заключение

В ходе работы был проведен полный цикл анализа данных: от поиска и очистки «сырого» датасета до создания презентационных материалов. Анализ подтвердил, что игровая индустрия — это цикличный рынок с высокой конкуренцией, где успех зависит от географического позиционирования и наличия сильных эксклюзивных проектов. Использование Python позволило обработать массив из тысяч строк за секунды и выявить тренды, которые невозможно заметить при обычном просмотре таблиц.

Анализ и визуализация данных индустрии видеоигр
Проект создан 17.01.2026