Датасет: Diabetes Health Indicators Dataset (BRFSS 2015).
Источник: Kaggle (данные CDC — Центров по контролю и профилактике заболеваний США).
Почему этот датасет? Он про диабет. Выбранный файл содержит сбалансированную выборку (50% здоровых, 50% с диабетом), выделялся по качеству на Kaggle и сама тема близка лично мне.
Тепловая карта (Heatmap): быстрый обзор корреляций между всеми 22 признаками.
Столбчатая диаграмма (Bar Chart): сравнение конкретных групп риска.
График плотности (KDE Plot): визуализация распределения непрерывной величины (BMI).
Скрипичная диаграмма (Violin Plot): сложное сравнение распределений внутри категорий (Health vs BMI).
Этапы работы
Описательная статистика
Создание «портрета» типичного пациента после изучения распределения данных. Использовал метод describe ().
Insights:
Корреляционный анализ
Построение матрицы корреляций, чтобы понять какие факторы сильнее всего влияют на появление диабета.
Insights:
Агрегация и новые признаки
RiskGroup — новая категория, объединяющая давление и холестерин.
Для подсчёта процента заболеваемости в каждой группе, я агрегировал данные.
Стиль графиков
Использованы библиотеки Matplotlib (в связке с Seaborn) с кастомизированной темной темой и неоновой цветовой палитрой.



