Вводная часть
Выбор данных и источник
Для анализа я выбрала датасет «Sanrio Character Rankings Top 10 (1986-2024)» с платформы Kaggle. Этот датасет содержит информацию о ежегодных рейтингах популярности персонажей Sanrio за 39 лет — с 1986 по 2024 год.
Данные собраны из официальных источников Sanrio, включая Sanrio Wiki и Hello Kitty Wiki. В датасете содержится информация о рангах персонажей, их дебюте, количестве появлений в топ-10 и другие метрики популярности.
Почему эти данные интересны?
Sanrio — это не просто милые персонажи, а культурный феномен, который существует уже почти 50 лет. Меня заинтересовал этот датасет по нескольким причинам:
- Культурная значимость: Hello Kitty, My Melody, Cinnamoroll — эти персонажи стали глобальными иконами, влияющими на моду, дизайн и поп-культуру
- Временной охват: 39 лет данных позволяют увидеть, как менялись предпочтения аудитории, какие персонажи остались вечными фаворитами, а какие исчезли
- Личный интерес: Я выросла на этих персонажах, и мне было любопытно узнать, кто же на самом деле самый популярный
- Объем данных: Около 390 записей — достаточно для содержательного анализа, но не слишком много для обработки
Выбор типов визуализации
Я решила использовать разные виды графиков, чтобы показать данные с разных сторон:
Линейный график (Bump Chart) — показывает эволюцию рангов во времени: как персонажи поднимались и падали в рейтинге. Столбчатая диаграмма — сравнивает количество появлений в топ-10: кто чаще всех попадал в рейтинг. Тепловая карта (Heatmap) — визуализирует, какие персонажи на каких позициях задерживались чаще всего. Круговая диаграмма — показывает распределение дебютов персонажей по десятилетиям. Box Plot — анализирует разброс позиций для каждого персонажа.
Все графики я решила стилизовать в узнаваемом стиле Sanrio — пастельные тона, мягкие формы, милая атмосфера.
Этапы работы
Загрузка данных и первичный анализ
Первым делом я загрузила датасет и посмотрела, что внутри.
Датасет оказался довольно чистым, но с некоторыми особенностями: часть колонок содержит метаданные, которые повторяются для каждого персонажа.
Очистка и подготовка данных
Я заметила, что некоторые строки содержат знак «?», обозначающий неизвестных персонажей. Решила их удалить
Затем я создала отдельную таблицу со статистикой по каждому персонажу
Стилизация графиков
Для создания узнаваемого стиля Sanrio в графиках я выбрала пастельную палитру и настроила визуальное оформление.
Я вдохновлялась официальным сайтом Sanrio и упаковками их продукции — там всегда используются мягкие пастельные тона и округлые формы.
Визуализации
График 1: Эволюция популярности (Линейный график)
Формат: изучающий — позволяет исследовать, как менялись позиции персонажей во времени.
Этот график показывает траектории самых популярных персонажей на протяжении всех лет.
Статистический метод: анализ временных рядов — отслеживание изменения значений во времени для выявления трендов.
Что видно: Hello Kitty долгое время была лидером, но в последние годы Cinnamoroll уверенно вышел вперед
График 2: Чемпионы рейтинга (Столбчатая диаграмма)
Формат: объясняющий — наглядно демонстрирует, кто чаще всех попадал в топ-10.
Статистический метод: частотный анализ — подсчет количества появлений каждого персонажа.
Что видно: Hello Kitty — абсолютный рекордсмен с 39 появлениями, за ней следуют My Melody и Little Twin Stars.
График 3: Тепловая карта позиций (Heatmap)
Формат: объясняющий — показывает, на каких позициях персонажи задерживались чаще всего.
Статистический метод: кросс-табуляция — построение двумерной таблицы частот для анализа распределения.
Что видно: Hello Kitty и Cinnamoroll чаще всех занимали 1-е место, а My Melody стабильно держалась в топ-3.
График 4: Когда родились звезды? (Круговая диаграмма)
Формат: изучающий — помогает понять, в какие десятилетия были созданы самые популярные персонажи.
Статистический метод: группировка данных по категориям с подсчетом частот.
Что видно: большинство популярных персонажей были созданы в 70-х, 90-х и 2000-х годах.
График 5: Стабильность популярности (Box Plot)
Формат: изучающий — показывает разброс позиций для каждого персонажа.
Статистический метод: квартильный анализ — использование медианы, первого и третьего квартилей для описания распределения.
Что видно: у Cinnamoroll самое стабильное высокое положение в последние годы, а у Pochacco — большой разброс позиций.
Использование статистических методов
В работе я применила несколько статистических подходов:
- Анализ временных рядов — отслеживание изменения рангов персонажей во времени
- Частотный анализ — подсчет количества появлений каждого персонажа в топ-10
- Кросс-табуляция — построение матрицы «персонаж × позиция» для тепловой карты
- Квартильный анализ — вычисление медианы, Q1, Q3 для понимания разброса позиций
- Группировка и агрегация — объединение данных по персонажам и десятилетиям для подсчета статистик
Ключевые выводы
После анализа данных я пришла к нескольким интересным выводам:
1. Смена эпох
- 1986-1996: эра Pochacco и персонажей первого поколения
- 1997-2009: золотое время Hello Kitty (13 лет в топ-3)
- 2010-2016: рост My Melody и Pompompurin
- 2017-2024: эпоха Cinnamoroll (5 побед подряд)
2. Феномен Cinnamoroll
Самое впечатляющее открытие — это взлет Cinnamoroll. Персонаж, созданный в 2001 году, сначала попал в рейтинг в 2003 году на 3-м месте, одержал первую победу в 2017 году, а с 2020 года не выпускает лидерство. Это показывает, что новые персонажи могут успешно конкурировать с классикой.Вечная Hello Kitty
Hello Kitty — абсолютный рекордсмен по количеству появлений (39 раз), но ее доминирование постепенно ослабевает. Это естественный процесс — меняются поколения, меняются вкусы.4. Персонажи-долгожители
My Melody, Little Twin Stars, Pompompurin — эти персонажи показывают удивительную стабильность, регулярно попадая в топ-10 на протяжении десятилетий.Описание применения генеративной модели
Использованная модель: Claude 3.5 Sonnet (Anthropic) Ссылка: https://claude.ai
Цель использования:
- Помощь с настройкой графиков
- Консультации по выбору статистических методов
Файлы проекта
.ipynb с кодом: Ссылка на блокнот Датасет: Kaggle — Sanrio Rankings
Все файлы доступны для скачивания и просмотра.
Источники



