Исходный размер 1140x1600

Анализ SteamMarket

PROTECT STATUS: not protected

В рамках проекта я выбрала Steam Games Dataset, опубликованный на платформе Kaggle и агрегирующий информацию об играх, размещённых в Steam. Это интересно, так как подобные статистики дают больше понимания о популярности тех или иных игр на рынке.

Датасет содержит сведения о более чем 20 000 игр, включая дату релиза, цену, жанры, количество положительных и отрицательных пользовательских отзывов, а также дополнительные продуктовые метрики.

post

В данном проекте проводится анализ данных об играх, опубликованных в Steam, с целью выявления взаимосвязи между ценой, жанрами и пользовательскими оценками.

Проект сочетает анализ данных, визуализацию и интерпретацию результатов в исследовательском и объясняющем формате.

Источник данных: Steam Games Dataset (Kaggle).

Описание датасета

Для анализа используется открытый датасет Steam Games Dataset, размещённый на платформе Kaggle. Он содержит информацию об играх, опубликованных в Steam, включая дату релиза, цену, жанры и пользовательские отзывы.

Датасет представляет интерес, так как отражает реальные рыночные условия цифровой дистрибуции игр и позволяет изучать продуктовые и пользовательские метрики.

Исходный размер 291x73

Загрузка данных

Исходный размер 1230x247
Исходный размер 1221x655

Здесь вы видите часть датасета в виде таблицы

Первичный анализ данных

После загрузки данных проводится первичный анализ структуры датасета. Цель этого этапа определить объём данных, типы признаков и возможные проблемы, такие как пропущенные значения или некорректные типы данных.

Исходный размер 1030x201
Исходный размер 593x807

Анализ структуры данных позволяет определить, какие признаки являются числовыми, категориальными или временными, а также выявить столбцы с пропущенными значениями, которые потребуют дополнительной обработки.

post

Полученный список признаков используется для выбора ключевых переменных, которые будут задействованы в дальнейшем анализе и визуализации.

Исходный размер 786x538

Описательная статистика позволяет оценить распределение числовых признаков, таких как цена и пользовательские показатели, а также выявить потенциальные выбросы и асимметрию распределений.

post

Анализ пропущенных значений показывает, какие признаки требуют очистки или исключения из анализа. Это необходимо для повышения корректности статистических выводов и визуализаций.

Пользовательские оценки и рейтинг

post

В датасете представлены абсолютные значения положительных и отрицательных отзывов. Для корректного анализа требуется привести их к относительной метрике, которая отражает общее восприятие игры пользователями.

В рамках проекта пользовательский рейтинг рассчитывается как доля положительных отзывов от общего числа отзывов.

Полученная метрика пользовательского рейтинга принимает значения от 0 до 1, где более высокие значения соответствуют более позитивному восприятию игры.

Использование относительного рейтинга позволяет избежать искажений, связанных с абсолютным количеством отзывов у популярных и нишевых проектов.

Free-to-Play и платные игры

post

Модель распространения является важным фактором, влияющим на пользовательские ожидания и оценки. На данном этапе игры разделяются на бесплатные и платные на основе значения цены.

Разделение игр на бесплатные и платные позволит в дальнейшем сравнить пользовательские оценки между различными моделями монетизации и выявить возможные различия в восприятии качества.

Дата релиза и динамика рынка

Для анализа изменения рынка Steam во времени необходимо преобразовать дату релиза в числовой формат и выделить год выпуска игры.

Исходный размер 1114x365

Проблема с разбором даты релиза Колонка Release date содержит разные форматы или некорректные значения.

Ограничения данных и фокус исследования

В процессе анализа было выявлено, что данные о дате релиза содержат значительное количество пропущенных значений, что делает временной анализ ненадёжным.

В связи с этим фокус исследования смещён на анализ взаимосвязи между ценой, жанрами и пользовательскими оценками игр.

Подготовка данных к визуализации

post

Перед построением графиков проводится финальная подготовка данных: очистка цен, ограничение диапазонов значений и отбор релевантных наблюдений для анализа.

Распределение цен игр в Steam

Первым этапом визуализации рассматривается распределение цен. Это позволяет понять, какие ценовые сегменты доминируют на платформе и насколько рынок смещён в сторону бесплатных и дешёвых игр.

Исходный размер 845x478

Сравнение пользовательских оценок между бесплатными и платными играми позволяет выявить различия в восприятии качества в зависимости от модели монетизации

Исходный размер 814x673

Связь цены и пользовательского рейтинга

Исходный размер 829x709

Точечная диаграмма позволяет оценить, существует ли связь между стоимостью игры и её пользовательским рейтингом.

Пользовательские оценки по жанрам

Для анализа жанров используется нормализация составного признака Genres путём разбиения и последующей агрегации по медианному пользовательскому рейтингу.

Исходный размер 1109x694
Исходный размер 739x767

Итоги

В рамках проекта был проведён анализ рынка игр Steam на основе открытого датасета, включающего более 70 тысяч проектов, с фокусом на цене, пользовательских отзывах и жанровой принадлежности. Целью исследования было выявление взаимосвязей между моделью монетизации, стоимостью игры и пользовательскими оценками.

Анализ модели распространения показал, что рынок Steam крайне асимметричен. Бесплатные игры составляют абсолютное большинство проектов: около 72 000 бесплатных игр против примерно 1 600 платных. Это указывает на доминирование Free-to-Play как массовой модели присутствия на платформе, однако не обязательно как модели с наивысшим пользовательским одобрением.

Распределение цен подтверждает, что рынок смещён в сторону нулевой или низкой стоимости. Большая часть платных игр находится в диапазоне до 10 USD, в то время как более дорогие проекты встречаются существенно реже и не формируют основную структуру предложения. Таким образом, высокая цена является скорее исключением, чем нормой для Steam.

Сравнение пользовательских оценок показало отсутствие прямой зависимости между ценой игры и её пользовательским рейтингом. Даже при росте стоимости оценки остаются в широком диапазоне значений, что указывает на отсутствие выраженной линейной связи между ценой и субъективно воспринимаемым качеством продукта. Это означает, что высокая цена сама по себе не гарантирует более позитивного пользовательского отклика.

Жанровый анализ выявил более устойчивые различия. Наиболее высокие медианные пользовательские рейтинги демонстрируют жанры Casual (медианный рейтинг ≈ 0.85, около 29 000 игр), Indie (≈ 0.84, более 52 000 игр) и Adventure (≈ 0.83, около 29 000 игр). Эти жанры сочетают высокую пользовательскую оценку с большим количеством представленных проектов, что указывает на их стабильную востребованность.

В то же время жанры Free to Play как самостоятельная категория демонстрируют более низкий медианный рейтинг (≈ 0.75), несмотря на значительное количество игр. Это может свидетельствовать о более высоких пользовательских ожиданиях к бесплатным проектам и более критичном восприятии их качества.

В совокупности результаты анализа показывают, что пользовательское восприятие качества игр в Steam в большей степени определяется жанровыми характеристиками и ожиданиями аудитории, чем ценой или фактом оплаты. Полученные выводы подчёркивают важность жанрового позиционирования и соответствия ожиданиям пользователей при выборе стратегии монетизации.

Анализ SteamMarket
Проект создан 16.01.2026