Исходный размер 1140x1600

Цифровой портрет игрока: анализ пользовательских паттернов в Steam

PROTECT STATUS: not protected

Выбор данных и источник

Для данного исследования я выбрал датасет «steam200k», содержащий информацию о поведении пользователей платформы Steam. Данный набор данных представляет собой выборку из 200 000 записей о взаимодействиях пользователей с играми, включая такие действия как покупка игр и время, проведённое в них.

Данный датасет я обнаружил на платформе Kaggle, где он предоставлен в категории данных для анализа пользовательского поведения. датасет содержит следующие колонки:

 — ID пользователя  — Название игры  — Тип взаимодействия (покупка/игра)  — Количество часов (для записей типа «игра»)  — Временная метка последней активности

Почему эти данные представляют интерес?

Платформа Steam на сегодняшний день является крупнейшим цифровым дистрибьютором видеоигр на ПК, с аудиторией 120 миллионов активных пользователей.

Анализ поведения пользователей Steam позволяет нам заглянуть в экосистему современной игровой индустрии и понять:

  1. Какие игры привлекают наибольшее количество игроков.
  2. Как соотносятся количество покупок и реальное использование игр.
  3. Какие игры наиболее затягивающие (по среднему времени, проведённому в игре).
  4. Существует ли корреляция между популярностью игр и её способностью удерживать игрока.

Выбор типов визуализации

Для анализа данных я выбрал следующие типы визуализаций:

 — Столбчатые диаграммы для отображения количественных показателей по играм.  — Гистограмма для анализа распределения времени, проведённого в играх.  — Круговая диаграмма для представления соотношения типов активности.  — Точечная диаграмма для анализа корреляций между метриками.  — Сгруппированная столбчатая диаграмма для сравнения метрик между играми.

Эти типы визуализаций наиболее эффективно представляют закономерности в данных и позволяют выявить интересные паттерны поведения пользователей.

Обработка данных

Процесс анализа данных состоял из следующих этапов:

  1. Загрузка и подготовка данных.  — Импорт Датасета с с возможностью загрузки файла пользователем через интерфейс Google Colab.  — Присвоение осмысленных имён столбцам для дальнейшего анализа.  — Первичный анализ структуры данных (проверка размерности, типов данных, пропущенных значений).

  2. Анализ популярности игр.  — Подсчёт количества уникальных пользователей для каждой игры.  — Выделение топ-10 игр по количеству игроков.  — Визуализация результатов в виде столбчатой диаграммы.

  3. Анализ времени, проведённого в играх.  — Фильтрация записей с типом взаимодействия «игра».  — Ограничение выборки до 500 часов для исключения выбросов.  — Построение гистограммы распределения времени.

  1. Анализ соотношения активности.  — Подсчёт количества записей каждого типа (покупка/игра).  — Визуализация в виде круговой диаграммы.
  2. Определение самых «затягивающих» игр.  — Расчёт среднего времени игры для каждого названия.  — Фильтрация игр с минимальным порогом игроков (50+) для статистической значимости.  — Визуализация топ-10 игр по среднему времени.
  3. Анализ корреляции между популярностью и вовлечённостью.  — Объединение данных о количестве игроков и среднем времени игры. — Визуализация взаимосвязи с помощью точечной диаграммы.
  4. Анализ конверсии из покупки в игр.  — Расчёт соотношения между количеством покупок и количеством игровых сессий.  — Вычисление процента конверсии для топ-10 популярных игр.  — Визуализация с помощью сгруппированной столбчатой диаграммы.

Использование нейросетей

В процессе разработки проекта я использовал языковую модель DeepSeek для решения следующих задач:

  1. Структурирование кода и оптимизация.  — Модель помогла структурировать код в соответствии с лучшими практиками анализа данных.  — Были оптимизированы запросы к датасету для более эффективной обработки.

  2. Разработка цветовой схемы.  — DeepSeek предложил использовать цветовую схему, вдохновлённую интерфейсом Steam.  — Были подобраны цвета, отражающие фирменный стиль платформы (тёмно-синий, голубой, оранжевый).

  3. Улучшение визуализаций.  — Модель помогла с настройкой параметров визуализации для лучшей читаемости.  — Были добавлены дополнительные элементы (подписи, сетка, цветовая кодировка)

  4. Интерпретация результатов.  — DeepSeek предложил интересные гипотезы о паттернах поведения пользователей на основе полученных визуализаций.  — Были выявлены неочевидные зависимости между метриками.

Стилизация визуализаций

Для создания единого визуального стиля я разработал следующую концепцию:

  1. Цветовая палитра:  — Основная палитра включает цвета, вдохновлённые интерфейсом Steam: темно-синий (#1b2838), голубой (#66c0f4), тёмно-бирюзовый (#2a475e), светло-серый (#c7d5e0) и оранжевый акценты (#ff9900).  — Для тепловых карт и градиентов создана специальная цветовая карта на основе этих цветов.

  2. Элементы визуализации:  — Прозрачность столбцов и маркеров (alpha=0.7-0.8) для лучшей читаемости.  — Контрастная обводка элементов для выделения.  — Пунктирная сетка с пониженной непрозрачностью.  — Числовые метки на ключевых элементах для точной интерпретации.

  3. Композиция:  — Единый размер графиков (преимущественно 12×8 дюймов).  — Выравнивание заголовков и подписей.  — Отступы для улучшения читаемости.  — Поворот подписей на оси Х для предотвращения наложения.

Результаты анализа

Топ-10 популярных игр на Steam по количеству игроков:

Диаграмма представляет десять наиболее популярных игр в датасете по количеству уникальных пользователей. лидерами являются такие игры как Dota 2, Counter-Strike: Global Offensive и Team Fortress 2, что согласуется с общими трендами популярности на платформе Steam. Особенно интересно, что топ-список возглавляют условно-бесплатные игры с соревновательным многопользовательским режимом.

Исходный размер 1184x784

Распределение времени, проведённого игроками в играх:

Гистограмма демонстрирует характерное распределение с «длинным хвостом», где большинство игроков проводят в играх относительно небольшое количество часов (до 100), в то время как существует небольшая доля очень активных пользователей с сотнями часов игрового времени. это классическое распределение соответствует закону Парето (принцип 80/20), где небольшое количество пользователей генерирует значительную часть общего времени, проведённого в играх.

Исходный размер 1030x729

Соотношение действий: покупка vs игра:

Круговая диаграмма показывает соотношение записей о покупке игр и фактическом игровом процессе. Интересно отметить, что количество записей об игре преобладает над количеством записей о покупке, что может свидетельствовать о высокой вовлеченности пользователей платформы — купив игру, пользователи действительно играют в неё и делают это неоднократно.

Исходный размер 839x832

Топ-10 самых «затягивающих» игр:

На этой диаграмме представлены игры с наибольшим средним игровым временем на одного пользователя. Лидерами являются игры с открытым миром, ролевые игры и стратегии, требующие большого количества времени для освоения и прохождения. Особенно выделяются такие названия как Football Manager, Sid Meier`s civilization V и The Elder ScrollsV: Skyrim — игры, известные своей способностью удерживать внимание игроков в течение сотен часов.

Исходный размер 1184x784

Взаимосвязь между популярностью игр и средним временем игры:

Точечная диаграмма демонстрирует корреляцию между количеством игроков и средним временем, проведённым в игре. Наблюдается интересная тенденция: не всегда самые популярные игры являются самыми затягивающими. Нишевые проекты с меньшей аудиторией часто имеют более высокое среднее время игры, что говорит о высокой лояльности их аудитории.

Исходный размер 1118x784

Соотношение покупок и игр для топ-10 популярных игр:

Сгруппированная столбчатая диаграмма показывает количество записей о покупке и игре для топ-10 популярных игр, а также процент «конверсии» — соотношение между игровыми сессиями и покупками. Высокий процент конверсии указывает на то, что большинство пользователей, купивших игру, действительно начинают в неё играть. Особенно высокие показатели у условно-бесплатных игр, где барьер входа значительно ниже.

Исходный размер 1384x784

Выводы

Проведённый анализ позволил выявить несколько интересных паттернов в поведении пользователей Steam:

  1. Доминирование условно-бесплатных игр с соревновательным элементом:  — Игры с моделью free-to-play привлекают наибольшее количество пользователей.  — Соревновательных элемент способствует долгосрочному вовлечению игроков.

  2. Разделение на «казуальную» и «хардкорную» аудитории:  — Большинство пользователей проводят в играх относительно небольшое количество времени.  — Существует небольшая группа очень активных игроков с сотнями и тысячами часов игрового времени.

  3. Различные ниши имеют разные метрики успеха:  — Популярные мультиплеерные игры привлекают больше игроков, но среднее время игры может быть ниже.  — Стратегии и ролевые игры удерживают меньшее количество игроков, но на более длительный срок.

  4. Высокая степень вовлечённости пользователей Steam:  — Большинство купленных игр действительно используются, а не остаются в библиотеке без внимания.  — Многие популярные игры демонстрируют «конверсию» из покупки в активное использование.

Блокнот и Датасет (https://goo.su/aATiQ)

Цифровой портрет игрока: анализ пользовательских паттернов в Steam
Проект создан 10.04.2025