ТОП 250 ФИЛЬМОВ
Данные — это топ-250 фильмов по версии Кинопоиска. Источник: Kaggle. Интересны для анализа вкусов российской аудитории, эволюции кино и корреляций рейтингов со временем, странами — ценны для UX-дизайна в кино-приложениях и культурных исследований.
Я люблю смотреть кино по вечерам, и мне было интересно, какие факторы влияют на рейтинг, какие режиссеры получали больше наград, какие страны снимали лучшее кино!
Начало работы
Обработка данных: Для анализа была использована библиотека Pandas.
Процесс обработки включал следующие шаги: Загрузка данных. Чтение файла kinopoisk-top250.csv.
Feature Engineering (Создание признаков): Для анализа временных трендов был создан новый столбец decade (десятилетие), так как группировка по конкретным годам дает слишком сильный шум (Фрагмент кода: df[«decade'] — (df[„year'] // 10) • 10))
Фильтрация: Для сравнения стран (Boxplot) и анализа динамики были выделены топ-5 стран-лидеров по количеству фильмов, чтобы исключить статистические выбросы от стран с 1-2 фильмами.
Агрегация: Использовались методы groupby и pivot table для подготовки данных к построению сложных диаграмм (например, для стековой диаграммы „Битва кинодержав“).
Датасет был взят с сайта Kaggle https://www.kaggle.com.
Google Colab использовался как среда, обеспечивающая воспроизводимость и прозрачность кода.

Визуальное оформление

Я выбрала именно эту яркую палитру, потому что она визуально и эмоционально передаёт суть подборки.
Красный — цвет страсти и силы, он подчёркивает самые эмоционально насыщенные и культовые картины, привлекает внимание и работает как акцент для рейтинговых позиций и важных меток.
Фиолетово‑синий — символ глубины, мистики и авторского кино; этот тон добавляет благородства и интеллекта, хорошо подходит для разделов с арт‑хаусом, триллерами и фильмами, которые оставляют послевкусие.
Лаймово‑жёлтый (зелёный) — ассоциируется с новизной, лёгкостью и смелостью; он оживляет общий стиль, подходит для комедий, открытий и заметных выделений (бейджи, теги «новинка»).
Так же эти цвета чаще всего применяются в афишах к выпуску новых фильмов, они привлекают внимание проходящих мимо людей.
Шрифт я взяла простой, чтобы он нес информационный характер и помогал воспринимать информацию правильно.
Визуализация данных
График 1
Распределение шедевров по десятилетиям неравномерное — наибольшее число фильмов приходится на 1990-е годы (76 фильмов, ≈30% выборки). Большая часть списка сосредоточена в более поздние периоды: с 1970-х по 2000-е включительно приходится свыше 75% всех шедевров (34 + 48 + 76 + 35 = 193 фильма). Ранние десятилетия XX века (до середины века) представлены очень слабо — вместе они дают лишь около 7% списка. Тенденция: устойчивый рост числа «шедевров» от первых десятилетий к концу XX века с пиком в 1990-х и небольшим снижением в 2000-е.
График 2
Что видно сразу: большинство рейтингов сосредоточено примерно между 8.0 и 8.3 — пик распределения около ~8.1. То есть центральная масса фильмов в выборке имеет очень близкие, довольно высокие оценки. Форма распределения: основная «горка» слева и более длинный хвост справа — есть несколько фильмов с заметно более высокими оценками (8.6 и выше), но их мало. Низких оценок (ниже ~7.9) практически нет. Что это значит на практике: рейтинги в этой выборке сильно сжаты вокруг высокой отметки — низкой вариативности. Другими словами, в наборе в основном хорошие фильмы, явных «провалов» почти нет.
График 3
На графике видно явное доминирование американского кинематографа — США занимают около 63,6% позиций в топ-250. На втором месте — СССР с заметным вкладом (≈17.7%), а остальные страны (Великобритания, Франция, Япония, Италия, Германия) вместе составляют менее 20% (каждая — по нескольким процентам). Таким образом, список сильно смещён в пользу США с ограниченным географическим разнообразием остальных лидеров.
График 4
Лидером по числу фильмов в топе является Игорь Масленников — у него 7 фильмов, что заметно больше, чем у остальных режиссёров. Большая группа режиссёров (Чаплин, Финчер, Нолан, Спилберг, Питер Джексон, Леонид Гайдай, Роберт Земекис) имеют по 5 фильмов в топе — это основной «коридор» значений. Гай Ричи и Мартин Скорсезе замыкают список с 4 фильмами каждый. В целом большинство режиссёров в выборке сосредоточены в диапазоне 4–5 фильмов; Масленников — явный выброс вверх.
График 5
Оценки кино в целом всегда были высокими и сильно не шокируют: подъём в 30–40‑е, небольшое проседание в 50‑е, затем второй пик в 70‑е/90‑е. В последние десятилетия средний рейтинг чуть ниже, но стабильный. Разброс оценок местами большой — значит вкусы зрителей иногда сильно расходятся.
График 6
Фильмы из СССР в этой выборке получают чуть более высокие и более стабильные оценки — их медиана выше, а разброс поменьше. Французские фильмы демонстрируют наибольшую вариативность: есть как более низкие оценки, так и высокие выбросы. США, Великобритания и Япония находятся в похожем диапазоне медиан (около 8.1–8.2) и имеют средний разброс. Важно: все различия небольшие (порядка десятых долей балла), так что в целом рейтинги по странам схожи.
График 7
По 250 фильмам видна слабая отрицательная тенденция — в среднем старые фильмы получают чуть более высокие оценки, тогда как в последние десятилетия много картин сосредоточено вокруг отметок ~8.0–8.5. При этом разброс большой: отличные фильмы есть в любом году, так что сдвиг небольшой и может быть частично обусловлен отбором и фактором «ностальгии», а не резким падением качества.
График 8
По этому рейтингу 250 фильмов для России «шедевры» почти не встречаются до 1950-х. В 2010-е видно заметное падение, что может быть связано с меньшей «историей» нового десятилетия, изменением вкусов или методики отбора. Вывод: по этому списку лучшее кино сконцентрировано в 1990–2000-х, но на результаты влияет выборка и критерии рейтинга.
График 9
Американское кино растёт и к концу XX — началу XXI века явно доминирует в рейтинге: доля США заметно увеличивается.
Советское/русское кино сильно представлено в 1950–1970-е годы, но после 1990-х почти исчезает из топа.
Великобритания и Франция дают небольшие, относительно стабильные вклады на всех этапах. Япония выглядит как равномерная, но менее заметная зона — стабильное, но не лидирующее присутствие.
График 10
Визуализация показывает, что большая часть фильмов в выборке приходится на более поздние годы (примерно 1990–2010-е) и сгущается вокруг рейтинга ~8.0 (максимальная плотность — примерно в начале 2000-х). Редкие высокие оценки (8.5–9.0+) встречаются реже и распределены по разным годам, а фильмы до 1960-х представлены слабо. В целом данные выглядят смещёнными в сторону современных релизов с типичным рейтингом около 8.0.
График 11
В российском ТОП‑250 явный лидер — Игорь Масленников (7 фильмов), за ним большая группа авторов с по 5 фильмами (Чаплин, Финчер, Нолан, Спилберг, Джексон, Гайдай, Земекіс), и ещё два режиссёра по 4 фильма (Гай Ричи, Скорсезе). То есть 10 самых представленных режиссёров дают 50 фильмов — пятая часть рейтинга, что говорит о заметной концентрации предпочтений. Приметно, что в списке сочетаются как отечественные классики, так и западные мастера разных эпох и жанров — россияне ценят и местное наследие, и мировые блокбастеры/авторское кино.
Заключение
В ходе работы было проанализировано большое количество данных и выявлено много интересных фактов о кино.
В своей работе я использовала ИИ: Perplexity AI для: 1) генерации идей визуализаций/стиля; 2) кодов для построения диаграмм. Цель: оптимизация workflow.



