Исходный размер 1024x1536

Анализ факторов риска диабета

PROTECT STATUS: not protected

Датасет: Diabetes Health Indicators Dataset (BRFSS 2015).

Источник: Kaggle (данные CDC — Центров по контролю и профилактике заболеваний США).

Почему этот датасет? Он про диабет. Выбранный файл содержит сбалансированную выборку (50% здоровых, 50% с диабетом), выделялся по качеству на Kaggle и сама тема близка лично мне.

Тепловая карта (Heatmap): быстрый обзор корреляций между всеми 22 признаками.

Столбчатая диаграмма (Bar Chart): сравнение конкретных групп риска.

График плотности (KDE Plot): визуализация распределения непрерывной величины (BMI).

Скрипичная диаграмма (Violin Plot): сложное сравнение распределений внутри категорий (Health vs BMI).

Этапы работы

  • Описательная статистика
  • Корреляционный анализ
  • Агрегация и новые признаки
  • Описательная статистика

    Создание «портрета» типичного пациента после изучения распределения данных. Использовал метод describe ().

    Insights:

  • Средний индекс массы тела (BMI) в выборке составляет 29.8, что граничит с ожирением.
  • Средний возраст пациентов находится в категории 9 (60-64 года).
  • Исходный размер 721x28

    Корреляционный анализ

    Построение матрицы корреляций, чтобы понять какие факторы сильнее всего влияют на появление диабета.

    Insights:

  • Самая сильная связь с диабетом у показателя GenHlth (Общее самочувствие) — коэффициент 0.41.
  • На втором месте HighBP (Высокое давление) — 0.38.
  • Исходный размер 631x49

    Агрегация и новые признаки

    RiskGroup — новая категория, объединяющая давление и холестерин.

    Для подсчёта процента заболеваемости в каждой группе, я агрегировал данные.

    Исходный размер 911x152

    Стиль графиков

    Использованы библиотеки Matplotlib (в связке с Seaborn) с кастомизированной темной темой и неоновой цветовой палитрой.

    Исходный размер 574x257
    Исходный размер 1800x1500
    Исходный размер 1500x900
    Исходный размер 1800x900
    Исходный размер 1500x900
    Анализ факторов риска диабета
    Проект создан 16.01.2026