Исходный размер 1240x1750

Анализ и визуализация данных по депрессии у студентов

ВВЕДЕНИЕ

Данные для этого задания были взяты с сайта kaggle.com в разделе Datasets. Среди исследований с параметром Usability 10.0 мной было выбрано исследование под названием Student Depression Dataset (данные о студенческой депрессии), которое содержит следующие данные: • возраст; • пол; • город; • средний балл; • продолжительность сна; • профессия; • рабочее давление; • академическое давление.

Тема была выбрана в связи с интересом к области изучения расстройств депрессивного спектра, которые, как известно, особенно распространены среди представителей моего поколения.

Многие современные студенты, независимо от места проживания, сталкивались с данной проблемой лично или через близкое окружение, что делает изучение депрессии особенно актуальным.

Исходя из предоставленных данных я решила проследить взаимосвязь между депрессией и такими факторами, как продолжительность сна, пищевое поведение и академическое давление. Вышеперечисленные факторы актуальны для большинства студентов. Самым опасным проявлением депрессии является суицидальный риск, в связи с чем было интересно узнать, представители какого пола наиболее подвержены данному риску.

В работе мной были использованы следующие виды графиков: • горизонтальный и вертикальный барчарт — потому что он наилучшим образом демонстрирует соотношение разных величин между собой; • линейная диаграмма — лучше показывает зависимость одной переменной от другой; • пайчарт — потому что этот вид графика лучше показывает соотношение долей в исследованиях.

Изображение для обложки данной работы было сгенерировано с помощью нейросети Leonardo.AI

ЭТАПЫ РАБОТЫ

ПОДГОТОВКА СРЕДЫ К РАБОТЕ:

• импортирую библиотеку Pandas для работы с таблицами; • импортирую библиотеку Matplotlib для построения графиков; • загружаю данные в DataFrame из файла формата csv; • русифицирую название колонки Depression для отображения на графиках; • выборочно просматриваю записи в полученном фрейме, для понимания того, какие данные и в каком объёме у меня есть.

Исходный размер 1729x215

Просматриваю данные в первой строке для наглядного отображения структуры и содержания записей.

Исходный размер 1781x776

ОБЩИЕ АЛГОРИТМЫ

Для создания сводной таблицы я использовала алгоритм, которым вдохновилась в работах на сайте kaggle.com.

Далее группирую значения по полям с данными о наличии депрессии и исследуемым параметром. В качестве результирующего значения использую метод подсчета количества для каждой пары группировки «size», учитывающий пустые значения.

Преобразую таблицу в сводную таблицу методом unstack с заполнением пустых значений нулем.

Для перевода значений столбца на русский язык применяю алгоритм, который нашла на сайте stackoverflow.

Создаю словарь качества питания для перевода на русский язык, где ключ — это английское название, а значение — русское. При помощи метода replace заменяю в колонке английский текст на русский.

АНАЛИЗ ДАННЫХ

ВЛИЯНИЕ ДЕПРЕССИИ НА ПРОДОЛЖИТЕЛЬНОСТЬ СНА:

• переводим значения в колонке «Sleep Duration» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Исходный размер 1604x446
Исходный размер 1680x699

ВЛИЯНИЕ ДЕПРЕССИИ НА ПИЩЕВОЕ ПОВЕДЕНИЕ:

• переводим значения в колонке «Dietary Habits» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Исходный размер 1719x475
Исходный размер 1680x699

ВЛИЯНИЕ УРОВНЯ АКАДЕМИЧЕСКОГО ДАВЛЕНИЯ НА ДЕПРЕССИЮ:

• группируем данные в DataFrame по полю Academic Pressure; • рассчитываем какой процент студентов с депрессией выявлен для данного уровня академического давления в поле с результатом группировки.

Исходный размер 1699x244
Исходный размер 1680x699

ВЛИЯНИЕ ПОЛА НА СУИЦИДАЛЬНЫЕ МЫСЛИ:

• переводим значения в колонке «Gender» на русский язык; • переименовываем поле со значениями для удобства, оставляем только студентов с депрессией; • создаём новый DataFrame с нужными нам полями для анализа; • группируем по полю Gender и подсчитываем количество студентов для каждого пола.

Исходный размер 1709x459
Исходный размер 1680x699

РЕЗУЛЬТАТ

В итоге я получила 4 разных графика, для стилизации которых меняла цветовую палитру, расположение надписей, также добавляла сетку, где это было уместно.

Исходный размер 1680x429

ССЫЛКА НА DATASET И БЛОКНОТ

Анализ и визуализация данных по депрессии у студентов
Проект создан 30.12.2024
Подтвердите возрастПроект содержит информацию, предназначенную только для лиц старше 18 лет
Мне уже исполнилось 18 лет
Отменить
Подтвердить