Вводная часть:
- Какие данные были выбраны и где они были найдены:
В качестве основы для анализа был выбран датасет с платформы Kaggle, содержащий информацию об играх в Steam. В таблице представлены такие характеристики, как жанры, цены, пользовательские оценки, количество отзывов и многие другие параметры, описывающие рынок видеоигр.
- Почему именно эти данные представляют интерес
Во первых: я люблю индустрию игр и в целом очень хорошо знаком с этим миром еще с детства. Во вторых: игровая индустрия — одна из самых быстрорастущих сфер цифровых развлечений. Эти данные позволяют проследить, какие жанры наиболее популярны, как формируются цены на игры и существует ли связь между стоимостью продукта и оценками пользователей. Анализ таких данных помогает лучше понять устройство современного игрового рынка.
- Какие виды графиков были выбраны и почему:
Для анализа данных были использованы следующие типы визуализаций:
— Столбчатая диаграмма — для отображения самых популярных жанров по количеству игр.
— Столбчатая диаграмма средних значений — для сравнения средней цены игр в разных жанрах.
— Гистограмма — для анализа распределения цен на игры.
— Диаграмма рассеяния — для выявления зависимости между ценой игры и пользовательской оценкой.
Выбор этих типов графиков обусловлен тем, что они наглядно показывают структуру данных, позволяют сравнивать значения и выявлять скрытые тенденции.
Этапы работы:
Обработка данных
Сначала прикреплю полный, изначальный код, затем второй поэтапно — уже тот, который использовался для создания финальных графиков.
Теперь второй код — он финальный и уже доработанный
- Импорт библиотек + настройка отображения
pandas — для загрузки и обработки таблиц (CSV). matplotlib.pyplot — для построения графиков. seaborn — для более красивых визуализаций. matplotlib as mpl — для глубокой настройки стилей и шрифтов. %matplotlib inline — чтобы графики отображались прямо внутри нотбука.
- Настройка фирменного пастельного стиля визуализации
Задаём единый шрифт для всех графиков. Устанавливаем базовый размер текста. Заголовки делаем жирными, чтобы выделялись.
- Создание авторской цветовой палитры
Мы не используем стандартные цвета Python. Все графики оформлены в едином пастельном стиле. Выполняется критерий: «Цвета заданы кодом».
- Настройка «журнального» светлого оформления
Светлый фон — как у дизайнерской инфографики. Тёмные подписи для контраста. Мягкая сетка для удобства чтения. Все графики выглядят как единая серия.
- Загрузка датасета
Загружается CSV-файл с играми. df.shape показывает размер таблицы (строки × столбцы). df.head () показывает первые 5 строк для проверки данных.
- Подготовка и очистка данных
Преобразуем цену из текста в число.
df_genres — для анализа жанров. df_genres_price — для средней цены по жанрам. df_price — для распределения цен.
- Выбор метрики для scatter-графика
Если есть оценки пользователей — используем их. Если нет — используем количество позитивных отзывов.
Готовим данные только для scatter-графика.
- График 1 — Топ-10 жанров (столбчатая диаграмма)
Показывает какие жанры самые популярные по количеству игр.
- График 2 — Средняя цена по жанрам
Показывает: в каких жанрах игры самые дорогие. В каких — самые дешёвые.
- График 3 — Распределение цен (гистограмма)
Показывает: какие цены встречаются чаще всего. Сколько дешёвых, средних и дорогих игр.
- График 4 — Цена и оценка / отзывы
Показывает: есть ли связь между ценой и качеством игры. Дорогие игры не всегда получают высокие оценки.
Использование нейросети в проекте
В ходе выполнения моего проекта использовалась генеративная модель ChatGPT (OpenAI). Нейросеть применялась в качестве вспомогательного инструмента для: объяснения принципов работы библиотеки Pandas; помощи написания в коде Python для анализа данных; подбора типов визуализаций под конкретные задачи.
Примеры моих принтов: «Сделай анализ датасета с играми в Стим с помощью Pandas»; «Подбери отличный, пастельный минималистичный стиль для визуализации данных»; «Скажи, какие типы графиков лучше использовать для анализа жанров и цен»; «Сформулируй выводы по графикам для презентации».
Стилизация графиков
Для визуализации данных был выбран минималистичный пастельный стиль, ориентированный на современную дизайнерскую подачу аналитики. Основная цель стилизации — сделать графики не только информативными, но и визуально аккуратными, подходящими для моего проекта. Основные приёмы стилизации: использование кастомной пастельной цветовой палитры, заданной напрямую через код; светлый фон, мягкие контрастные цвета, тонкая сетка; единый размер шрифтов, отступов и пропорций графиков.
Возможно графики не идеальные, но я старался сделать их понятными и информативно полезными.
Изучающий и объясняющий формат визуализации данных для выбранной темы
В проекте визуализация используется не только для демонстрации данных, но и для их объяснения и анализа. Каждый график отвечает на конкретный исследовательский вопрос и помогает сделать выводы о рынке видеоигр.
Например: топ-10 жанров по количеству игр. Вопрос: какие жанры наиболее распространены на рынке? Что показывает график: Столбчатая диаграмма отображает жанры, в которых выпускается больше всего игр. Таким образом, наибольшее количество игр приходится на жанры, связанные с Indie, Action и Adventure. Это говорит о том, что рынок ориентирован не только на крупные студии, но и на независимых разработчиков. Инди-сегмент является наиболее активным и доступным для входа.
Используемые статистические методы
- Подсчёт частот (value_counts) Использовался для определения самых популярных жанров по количеству игр. Применение: График «Топ-10 жанров по количеству игр». Что позволяет понять: какие жанры доминируют на рынке и какие направления являются наиболее массовыми.
- Группировка и вычисление среднего значения (groupby + mean) Использовались для расчёта средней цены игр в каждом жанре. Применение: график «Средняя цена игр по жанрам». Что позволяет понять: как различается ценовая политика в разных жанрах.
Блокнот с кодом и датасет
Выводы:
Рынок видеоигр ориентирован на массового пользователя. Большая часть игр относится к жанрам Action, Adventure и Indie, что говорит о высокой доступности входа в индустрию и популярности универсальных игровых форматов. Цена игры сильно зависит от жанра. Стратегии, симуляторы и RPG в среднем стоят дороже, так как требуют большего времени разработки и более сложных игровых систем. Casual и Indie проекты чаще всего остаются в низком ценовом сегменте. Большинство игр находятся в низком ценовом диапазоне. Распределение цен показывает, что основной объём рынка составляют недорогие или бесплатные проекты. Дорогие игры — это меньшинство. Цена не гарантирует высокое качество. Анализ зависимости между ценой и пользовательскими оценками показал, что среди дешёвых игр встречается множество высокооценённых проектов, а дорогие игры не всегда получают положительные отзывы. Визуализация помогает лучше понимать данные. Использование разных типов графиков позволило не просто показать цифры, а объяснить устройство игрового рынка, его структуру и экономические особенности.



