Анализ базы данных не раскрытых особо тяжких преступлений
Вводная часть
Для своего исследования я выбрал данные о количестве нераскрытых особо тяжких преступлений, зафиксированных в различных регионах и субъектах Российской Федерации. Источником информации выступает открытый портал crimestat.ru, предоставляющий данные в формате XML.
Анализ подобной статистики имеет прикладную ценность: он позволяет выявить региональные особенности в раскрываемости тяжких преступлений и может быть использован для повышения эффективности работы правоохранительных органов и органов государственной власти.
В процессе анализа я использую визуализацию данных — в частности, строю круговые и линейные диаграммы, чтобы представить информацию более наглядно и облегчить её восприятие.
1. Топ-15 регионов по количеству нераскрытых особо тяжких преступлений (2020)
- Загрузим XML-файл

- Преобразуем XML в таблицу

- Отфильтруем данные за 2020 год

- Построим столбчатую диаграмму
Для визуализации был применён инструмент matplotlib.pyplot, с помощью которого я построил столбчатую диаграмму. Она отобразила топ-15 регионов с наибольшим числом нераскрытых особо тяжких преступлений. Региональные значения были отсортированы по убыванию, чтобы акцентировать внимание на наиболее проблемных субъектах Российской Федерации.
2. Доля нераскрытых особо тяжких преступлений по регионам (2020)
- Преобразуем XML в таблицу
- Отфильтруем по 2020 году и объединим
- Создадим круговую диаграмму по топ-10 регионам + «Прочие»
Для построения самой круговой диаграммы я использовал библиотеку matplotlib.pyplot, указав формат отображения долей (autopct='%1.1f%%'), начальный угол (startangle=140) и обеспечив равномерное распределение сегментов (plt.axis ('equal')). В результате получилась визуализация, которая показывает вклад каждого региона (в том числе группы «Прочие») в общее количество нераскрытых особо тяжких преступлений за выбранный год.
3. Динамика нераскрытых особо тяжких преступлений по регионам
- Преобразуем XML в таблицу
- Выберем регионы для анализа
- Построим линейную диаграмму
Для визуализации я применил библиотеку matplotlib.pyplot, построив линейную диаграмму, где каждая линия отражает изменение количества нераскрытых особо тяжких преступлений в конкретном регионе по годам. Использование точек (marker='o') на линиях делает акценты на конкретных значениях, а наличие сетки и легенды упрощает восприятие графика. Такой подход позволяет наглядно оценить, где наблюдается рост, спад или стабильность показателей во времени.
4. Сравнение количества нераскрытых особо тяжких преступлений в регионах (2014 vs 2020)
- Преобразуем XML в таблицу
- Отбор данных за 2014 и 2020 годы
- Построим сравнительную столбчатую диаграмму
Для анализа я отобрал данные за 2014 и 2020 годы, поскольку сравнение этих двух периодов позволяет выявить изменения в раскрываемости особо тяжких преступлений на временном интервале. Региональные значения были отсортированы по убыванию данных за 2020 год, и в финальную диаграмму были включены 15 регионов с наибольшими значениями.
Для построения визуализации использовалась библиотека matplotlib.pyplot. Итоговая сравнительная столбчатая диаграмма позволила наглядно представить, как изменилась ситуация по каждому региону между 2014 и 2020 годами, выявив как случаи роста, так и снижения количества нераскрытых особо тяжких преступлений.
5. Сравнение количества нераскрытых особо тяжких преступлений (2014 vs 2020)
- Преобразуем XML в таблицу
- Подготовим данные для scatter plot (2014 vs 2020)
- Построим диаграмму рассеяния
Для построения диаграммы я отобрал только данные за 2014 и 2020 годы, так как целью было сравнение двух временных точек. Сгруппировав данные по регионам и по годам, я получил таблицу, в которой для каждого региона указано количество нераскрытых преступлений в эти два года. Из таблицы были исключены регионы, по которым отсутствуют данные за один из годов, чтобы избежать искажений.
С помощью библиотеки matplotlib.pyplot я построил диаграмму рассеяния, где по оси X отложено значение за 2014 год, а по оси Y — за 2020 год. Добавление диагонали y = x позволило визуально оценить изменения: точки выше диагонали обозначают увеличение количества нераскрытых преступлений, ниже — снижение, на диагонали — отсутствие изменений. Для крупных значений были добавлены подписи с названиями регионов, чтобы выделить ключевые случаи. Это позволяет быстро определить, где ситуация с раскрываемостью преступлений улучшилась, а где — ухудшилась.



