Исходный размер 840x1264

Урожайность сельскохозяйственных культур на фермах

PROTECT STATUS: not protected

Описание

Я выбрала датасет по интересной мне тематике — сельскому хозяйству.

Стилистика

big
Исходный размер 3206x1908

Мудборд

big
Исходный размер 1622x1012

Цветовая палитра проекта

Используемый шрифт для кода — Farm House Regular

Подготовка данных

Используемые библиотеки:

  1. pandas Основная библиотека для работы с таблицами (DataFrame). Позволяет загружать, обрабатывать, фильтровать и анализировать данные.

  2. numpy Библиотека для работы с массивами и числовыми операциями. Она быстрее и эффективнее, чем списки Python, особенно при больших объемах данных.

  3. matplotlib.pyplot Библиотека для построения графиков. Позволяет строить линии, столбцы, диаграммы, настраивать их внешний вид и отображать в файле.

  4. seaborn Продвинутая библиотека визуализации на основе matplotlib. Позволяет создавать красивые и информативные графики с минимальным кодом.

  5. kagglehub Используется для загрузки моделей и данных с платформы Kaggle

  6. matplotlib.colors Позволяет создавать кастомные цветовые схемы (градиенты), которые можно использовать графиках.

Хочется добавить в датасет не только числовые, но и категориальные признаки, в частности круто было бы различать высокие/низкие показатели сбора урожая.

Из описания нового признака достанем перцентиль 75 = 455 и установим как аномально высокое значение урожая на 1 га.

Аналогично перцентиль 25 = 199 будем считать низким значением.

Исходный размер 3500x524

Визуализация данных

График № 1: попарные корреляции

Исходный размер 1302x1231
Исходный размер 3500x1164

Очевидно, что величины: количество осадков, индекс качества почвы, количество солнечных часов, количество удобрений — не коррелируют.

В этом можно убедиться посмотрев на попарные графики — абсолютное отсутствие зависимости этих величин.

Более точная метрика — вычисление точной корреляции между признаками, отличная визуализация в таком случае — хитмапа.

График № 2: хитмапа корреляций

Исходный размер 1292x1110
Исходный размер 3500x1495

График № 3: джоинт плоты

Нас интересует прежде всего зависимость количества урожая от остальных признаков. Как видно из хитмапы — ярковыраженных зависимостей нет, однако больше всего (~ на 10%) коррелируют признаки количество выпавших осадков и индекс качества удобрений. Изучим подробней:

Исходный размер 1672x870
Исходный размер 3500x1341

График № 4: скрипки

0
0

График № 5: бар плот

Исходный размер 1194x866
Исходный размер 3500x287

Вывод

Ярковыраженных простых линейных зависимостей от отдельных признаков не наблюдается, что неочевидно на первый взгляд — казалось, что чем больше количество осадков, Солнца, качественных удобрений, тем больше будет урожай. Однако это оказалось не совсем так.

Я считаю, что так происходит потому, что для получения хорошего урожая необходимо лишь достаточное количество Солнца, удобрений и его качества, а не как можно больше. Среди признаков мы не наблюдаем экстремальных разбросов — например, минимальное количество часов Солнца в представленных данных — 4 часа, что, как я предполагаю, является достаточным для большинства агро-культур.

Также причина отсутствия зависимостей от внешних факторов (Солнца, дождя) может быть в том, что производство урожая автоматизировано: автополив, верхнее покрытие (теплицы, пленки). Кроме того, большинство культур, выращиваемых массово в полях, достаточно неприхотливы, поэтому и стали популярны, что также может объяснить причину низкой корреляции, наблюдаемой на графиках выше.

Используемые нейросети и программы

Leonardo.AI: — генерация изображений для обложки

Adobe Color: — генерация цветовой палитры на основе мудборда

Chat GPT: — генерация промпта для обложки — генерация кода определенных типов диаграмм и графиков для последующей модернизации их вручную

Adobe Photoshop: — оформление кода

Урожайность сельскохозяйственных культур на фермах
Проект создан 06.06.2026