Описание
Источник данных: Платформа Kaggle, датасет «Titanic: Machine Learning from Disaster» Формат данных: Структурированный CSV-файл Объем данных: 891 запись с 12 атрибутами на каждого пассажира Период данных: 1912 год, рейс RMS Titanic
Актуальность и ценность
Данные о пассанирах Титаника представляют историческую, социологическую и статистическую ценность: Отражение социальной стратификации начала XX века Демонстрация гендерных различий в чрезвычайных ситуациях Возможность анализа факторов выживаемости в катастрофах Классический пример для применения методов машинного обучения
Цели и задачи
Выявление ключевых факторов, повлиявших на выживаемость пассажиров Анализ демографического состава пассажиров Исследование влияния социально-экономического статуса Оценка гендерных различий в выживаемости
Инструментарий
Язык программирования: Python 3.0 Основные библиотеки: Pandas, Matplotlib, Seaborn, NumPy Среда разработки: Jupyter Notebook Вспомогательные инструменты: Статистические методы анализа данных
Этапы обработки данных
- Загрузка и первичный анализ
- Очистка данных (обработка пропусков, удаление некритичных признаков)
- Предобработка (типизация данных, создание производных признаков)
- Статистический анализ
- Визуализация и интерпретация
Визуализация
Единый стилистический подход Тематика: Морская, соответствующая тематике данных Цветовая палитра: Оттенки синего с акцентными цветами для выживаемости Типографика: Четкий, читаемый шрифт DejaVu Sans Композиция: Сбалансированное расположение элементов
Принципы визуального дизайна Информационная плотность: Максимальное количество информации на единицу площади Иерархия данных: Выделение важных статистических показателей Согласованность: Единый стиль для всех графиков Доступность: Учет особенностей цветового восприятия
Источники дизайн-вдохновения Исторические документы и газеты 1912 года Морские навигационные карты Научные публикации по визуализации данных Принципы информационного дизайна Эдварда Тафти
Полный код
График: Распределение возраста пассажиров
График: Выживаемость по полу и классу
График: Распределение стоимости билетов
График: Многомерный анализ возраста и стоимости билета
Статистические методы и анализ
Описательная статистика:
- Среднее арифметическое
- Медиана
- Квартили
- Стандартное отклонение
Анализ распределений:
- Гистограммы для непрерывных переменных
- Анализ моды для категориальных данных
- Сравнительный анализ:
- Группировка данных по категориальным признакам
- Расчет процентных соотношений
Корреляционный анализ:
- Визуальная оценка взаимосвязей
- Исследование многомерных зависимостей
Статистические показатели
Общая выживаемость: 38,4% Выживаемость женщин: 74,2% Выживаемость мужчин: 18,9% Выживаемость по классам: 1-й: 63,0%, 2-й: 47,3%, 3-й: 24,2% Медианный возраст: 28.0 лет Медианная стоимость билета: £14.45
Вывод
Социально-экономический статус был определяющим фактором выживаемости. Гендерный фактор играл критическую роль при спасательных операциях. Возраст имел меньшее значение, чем класс билета и пол. Дети из высших социальных слоев имели наибольшие шансы на выживание. Результаты анализа подтверждают исторические свидетельства о том, что: приоритет при спасении отдавался женщинам и детям, пассажиры первого класса имели лучший доступ к спасательным шлюпкам, социальная иерархия сохранялась даже в чрезвычайной ситуации. емонстрация применения методов анализа данных к историческим данным
Обложка сгенерирована нейросетью Grok



