Исходный размер 832x1248

Визуализация данных. Titanic — Machine Learning from Disaster

PROTECT STATUS: not protected

Описание

Источник данных: Платформа Kaggle, датасет «Titanic: Machine Learning from Disaster» Формат данных: Структурированный CSV-файл Объем данных: 891 запись с 12 атрибутами на каждого пассажира Период данных: 1912 год, рейс RMS Titanic

Актуальность и ценность

Данные о пассанирах Титаника представляют историческую, социологическую и статистическую ценность: Отражение социальной стратификации начала XX века Демонстрация гендерных различий в чрезвычайных ситуациях Возможность анализа факторов выживаемости в катастрофах Классический пример для применения методов машинного обучения

Цели и задачи

Выявление ключевых факторов, повлиявших на выживаемость пассажиров Анализ демографического состава пассажиров Исследование влияния социально-экономического статуса Оценка гендерных различий в выживаемости

Инструментарий

Язык программирования: Python 3.0 Основные библиотеки: Pandas, Matplotlib, Seaborn, NumPy Среда разработки: Jupyter Notebook Вспомогательные инструменты: Статистические методы анализа данных

Этапы обработки данных

  1. Загрузка и первичный анализ
  2. Очистка данных (обработка пропусков, удаление некритичных признаков)
  3. Предобработка (типизация данных, создание производных признаков)
  4. Статистический анализ
  5. Визуализация и интерпретация

Визуализация

  1. Единый стилистический подход Тематика: Морская, соответствующая тематике данных Цветовая палитра: Оттенки синего с акцентными цветами для выживаемости Типографика: Четкий, читаемый шрифт DejaVu Sans Композиция: Сбалансированное расположение элементов

  2. Принципы визуального дизайна Информационная плотность: Максимальное количество информации на единицу площади Иерархия данных: Выделение важных статистических показателей Согласованность: Единый стиль для всех графиков Доступность: Учет особенностей цветового восприятия

  3. Источники дизайн-вдохновения Исторические документы и газеты 1912 года Морские навигационные карты Научные публикации по визуализации данных Принципы информационного дизайна Эдварда Тафти

Исходный размер 2339x1754

Полный код

Исходный размер 1453x1176

График: Распределение возраста пассажиров

Исходный размер 1799x1465
Исходный размер 3570x2372

График: Выживаемость по полу и классу

Исходный размер 1640x2114
Исходный размер 4351x2972

График: Распределение стоимости билетов

Исходный размер 1640x2066
Исходный размер 4165x2670

График: Многомерный анализ возраста и стоимости билета

Исходный размер 1378x2176
Исходный размер 4169x2370
Исходный размер 1200x812

Статистические методы и анализ

Описательная статистика:

  1. Среднее арифметическое
  2. Медиана
  3. Квартили
  4. Стандартное отклонение

Анализ распределений:

  1. Гистограммы для непрерывных переменных
  2. Анализ моды для категориальных данных
  3. Сравнительный анализ:
  4. Группировка данных по категориальным признакам
  5. Расчет процентных соотношений

Корреляционный анализ:

  1. Визуальная оценка взаимосвязей
  2. Исследование многомерных зависимостей

Статистические показатели

Общая выживаемость: 38,4% Выживаемость женщин: 74,2% Выживаемость мужчин: 18,9% Выживаемость по классам: 1-й: 63,0%, 2-й: 47,3%, 3-й: 24,2% Медианный возраст: 28.0 лет Медианная стоимость билета: £14.45

Вывод

Социально-экономический статус был определяющим фактором выживаемости. Гендерный фактор играл критическую роль при спасательных операциях. Возраст имел меньшее значение, чем класс билета и пол. Дети из высших социальных слоев имели наибольшие шансы на выживание. Результаты анализа подтверждают исторические свидетельства о том, что: приоритет при спасении отдавался женщинам и детям, пассажиры первого класса имели лучший доступ к спасательным шлюпкам, социальная иерархия сохранялась даже в чрезвычайной ситуации. емонстрация применения методов анализа данных к историческим данным

Исходный размер 1600x1252

Обложка сгенерирована нейросетью Grok

Визуализация данных. Titanic — Machine Learning from Disaster
Проект создан 16.01.2026