Вступление
Выбор данного датасета неслучаен. Я очень часто хожу по магазинам и было всегда интересно, зачем меня просят заводить скидочные карты или карты лояльности, теперь я поняла, что как раз таки для аналитики и для построения стратегий!
Типы графиков
- Pairplot график
- Линейный график
- Boxplot
- Интерактивный Boxplot при помощи библиотеки plotly.express
- 3D график при помощи библиотеки scatter_3d
- Dendrogram при помощи библиотеки scipy.cluster.hierarchy
Этапы работы
- Выбор данных, которые интересно проанализировать, предобработка данных
- Анализ данных
- Визуализация
Оформление графиков
В оформлении графиков я разделила цвета, чтобы не путаться и видеть статистику мужчин и женщин. Также использовала много интерактивных элементов, чтобы интереснее было работать и анализировать данные.
Описание датасета
Данные посетителей магазина: — id, — пол, — возраст, — доход, — рейтинг трат.
Я сделала общую предобработку: импорт библиотек, поверхностный анализ и тд.
Графики
Посмотрела на визуализацию даты по всем признакам, попросила ChatGPT стилизовать график и «сделать его красивым» (промт), он предложил визуализацию с кругами и квадратами на pairplot с использование розового и голубого цветов (что действительно напомнило гендер пати) я выбрала для визуализации pairplot, так как он выводит все признаки в одном графике, что очень полезно и удобно.
Я решила взять предложенный график из гугл коллаба и преобразовать его (зависимость customer id и spending score). В промте я указала свой график и попросила «покрасить линии в неоновые цвета"(промт ChatGpt)
Boxplot — это статистический график, который позволяет наглядно представить распределение числовых значений и выявить наличие выбросов. В данном случае, boxplot используется для визуализации связи между годовым доходом и показателем трат, что помогает понять, как распределены и связаны эти данные внутри набора данных.
Существует разнообразие показателей трат у клиентов с разным годовым доходом. Это видно по разбросу значений внутри каждого уровня дохода.
Наблюдается тенденция к увеличению показателя трат у клиентов с более высоким годовым доходом, что может свидетельствовать о том, что люди с более высоким доходом склонны тратить больше.
Теперь я построю такой же график, но с интерактивными элементами. Я закинула в промт ChatGpt свою строку кода и попросила «построить из этого интерактивный график» (промт).
Далее следует рассмотреть общую зависимость трех признаков, вместо группировки я выбрала наиболее релевантным вариантом создать 3D график, чтобы посмотреть на визуализацию.
Немного затрону кластеризацию, ведь при работе с данными это одна и основополагающих целей, сначала преобразую категориальные переменные в формат, который можно использовать для обучения модели машинного обучения без создания ложной упорядоченности в данных.
Выбор данного типа графика обусловлен возможностью визуализации иерархической кластеризации, что позволяет обнаружить структуру данных, выделять кластеры объектов и делать выводы о схожести между ними, что может быть полезным в работе с неструктурированными данными или при анализе группировки объектов.
Исходники
Ноутбук и дататест: https://drive.google.com/drive/folders/1EFRO-AAEQHLZw5MznxLag_Fmsg7BrDF0?usp=sharing
Обложка сделана нейросетью «Леонардо»




