Введение
Я выбрал в крушение титаника в качестве данных. Они являются классическим датасетом для анализа данных, предоставленным Kaggle (Titanic: Machine Learning from Disaster). Перед работой с данными я их очистил в excel, чтобы избежать data.data, а также разобраться, что здесь можно анализировать и какие данные имеются. Продолжать работу будем с файлом titanic.xlsx.
Почему эта тема?
Данные позволяют ответить на важный вопрос: «Кто имел больше шансов выжить?» — что отражает социальное неравенство, гендерные и возрастные стереотипы начала XX века.
Подготовка
Загружаем библиотеки.
Загружаем файл с данными.
Этапы работы
Проведём первичный анализ данных.
Проведём общий анализ статистики, чтобы найти критерии для сравнения.
При статистическом анализе данных, мы выяснили, что больше всех выжили:
По полу: Женщины Люди с 1 класса Пассажиры с порта «C»
Графики
Составим общий график выживших.
Как мы уже выяснили, больше всего выживших по полу — женщины. А также больше выживших оказалось в 1 классе. Рассмотрим это на графике.
В 1 классе можно сказать, что выжили все женщины. А вот про 3 класс, лишь половина и невероятно маленький процент мужчин. Шансов выжить в 1 классе было в 2 раза больше!
Теперь рассмотрим категорию возраста.
Больший процент выживших — дети.
Также из статистичного анализа было известно, что больший процент выживших был среди пассажиров, севших на рейс в порту «C».
Но этот процент выживших связан с тем, что в порту Cherbourg село много людей из 1 класса. Что соотноситься с большим процентом выживаемости из 1 класса.
Выводы
Гендерный фактор оказался решающим: женщины выживали в 74,2% случаев, мужчины — только в 18,9%.
Социальный статус (класс билета) сильно влиял на выживаемость: 1-й класс: 62,9% выживших 2-й класс: 47,3% выживших 3-й класс: 24,2% выживших
Возраст имел значение: дети выживали в 52,8% случаев, пожилые — только в 19,2%.
Описание применения генеративной модели
Для работы с Pandas



