ВВОДНАЯ ЧАСТЬ
Статистика данных:
Я взял такую статистику данных, как «Количество ютуберов, стран, подписок и просмотров на этапе конца 2023 года».
Для выбора этой базы данных я использовал сайт Kaggle, где по запросу «Global YouTube Statistics 2023» вывелась статистика ютуберов и их подписок за 2023 год.
Ценность:
Эти данные представляют для меня огромную ценность, так как 70% своего свободного времени я провожу именно в приложении Youtube. Я не только смотрю игровые видеоролики, но и занимаюсь жизнедеятельностью своего канала. По этой причине мне стало очень интересно собрать данные всех популярных каналов воедино и написать о них.
Виды используемых диаграмм:
В своём проекте я буду использовать такие виды диаграмм как: — Линейные диаграммы — Гистограммы — Столбчатые диаграммы — Круговые диаграммы
МОИ ЭТАПЫ РАБОТЫ
- Обработка данных:
Чтобы получить структурированные данные таблицы и с их помощью создавать диаграммы я использовал библиотеку Pandas на языке Python. Скачав и использовав программу Anaconda в среде Spider я вывел данные таблицы и создал несколько диаграмм, которые будут описаны ниже.
Так как оригинальная версия таблицы имеет 28 колонок, то я выбрал 5 наиболее значимых по моему мнению.

Код в среде Spider для структурирования таблицы.
Так как сперва мои данные не хотели читаться из-за неверной кодировки файла, мне пришлось написать ещё код, который читал кодировку моего файла. Строчка 3 в изображении выше.
Код в среде Spyder для выявления кодировки файла.
1.1. Обработка данных в диаграммах:
Я работал в приложении «Google Colab», так как в среде Spyder у меня не получилось создать диаграмму.
Все итоговые диаграммы прикреплены в самом конце проекта. Написанный код и база данных, ведущая на гугл диск, будут также прикреплены в самом конце проекта.
Диаграмма № 1
Первую диаграмму, которую я решил использовать стала «Столбчатая диаграмма». Цель её создания — узнать количество каналов с тремя вариациями по числу подписчиков на момент 2023 года.
Объясню, как устроен мой код, разбив его на 3 части:
- Чтение файла с ПК
- Определение категорий
- Построение графика
Так как файл был на моём рабочем столе я скопировал из среды Spyder исходный код открытия таблицы и в приложении Colab настроил на чтения файла с моего рабочего стола.
Чтение файла в Colab.
Так как мне стало интересно, я решил использовать такие данные, как: — Количество ютуберов, у которых больше 100 млн подписчиков; — Количество ютуберов, у которых больше 50 млн подписчиков; — Количество ютуберов, у которых больше 10 млн подписчиков. Эти данные мне будут нужны для создания следующих диаграмм, а также для понимания разницы между количеством ютуберов.
Определение категорий.
После определения категорий я начал создавать столбчатую диаграмму, так как она очень хорошо может показать такую статистику.
Построение графика в Colab.
Диаграмма № 2
Вторая диаграмма является круговой. Она показывает распределение количество каналов по странам в процентах за 2023 год.
Так как в оригинальной таблице свыше 30 различных стран, я решил выбрать наиболее популярные страны в последнее время. В этот список попали такие страны, как: США, Россия, Индия, Бразилия, Южная Корея.
Объясню, как устроен мой код, разбив его на 2 части:
- Список стран и количество каналов
- Создание круговой диаграммы
Выбор пяти стран для анализа базы данных.
Я выбрал именно эти пять стран, так как за последние несколько лет они на слуху у многих пользователей приложения Youtube.
Создание круговой диаграммы.
Диаграмма № 3
Третьей я выбрал линейчатую диаграмму. С её помощью я решил сравнить общее количество просмотренных видео за весь год между двумя странами. Первую страну я взял США, так как в предыдущей диаграмме мы узнали, что у США больше всего ютуберов-миллионщиков. Вторую страну я взял Россия, так как я в ней живу и мне стало интересно сколько видео было просмотрено на момент 2023 года.
Объясню, как устроен мой код, разбив его на 2 части:
- Выбор двух стран из списка и сумма количества просмотренных видео
- Создание линейчатой диаграммы
Сравнение общего количества просмотров видео у двух стран за 2023 год.
В представленном коде выше я нашёл сумму количества просмотренных видео у каждого канала из США и России на момент 2023 года.
Создание линейчатой диаграммы.
Диаграмма № 4
Четвёртой стала комбинированная диаграмма, целью которой была узнать у выбранных мною ранее пяти стран 5 самых популярных каналов по количеству подписчиков и сравнить друг с другом.
Объясню, как устроен мой код, разбив его на 2 части:
- Список стран и список популярных ютуберов по количеству подписок
- Создание комбинированной диаграммы
Выбор пяти популярных каналов в каждой стране.
В представленном коде выше из каждой страны я выбрал пять самых популярных каналов и их название.
Создание комбинированной диаграммы.
2. Нейросети:
В своём проекте я использовал такие нейросети как: — Чат GPT https://chat-gpt.org/ru/chat — Гигачат https://giga.chat/
Это 2 бесплатные нейросети, которые помогали мне с поиском и анализом данных.
3. Описание применения генеративной модели:
Я использовал нейросеть «Чат GPT». Моей целью его использования было найти информацию о сайтах, которые могут предоставить статистику ютуба на момент конца 2023 года.
Промт который был использован: «На каких сайтах я могу найти информацию и узнать о статистике пользователей ютуба в 2023 году.»
Я использовал нейросеть «Гигачат». Моей целью его использования было найти информацию о том, как узнать кодировку файла.
Промт который был использован: «Какой существует метод в Python, чтобы узнать у файла его кодировку. Подробное объяснение.»
Результат кода будет прикреплён снизу.
Код для вычисления кодировки файла. Был создан с помощью ИИ.
4. Стилизация графики:
Я создал 4 вида диаграммы. Совсем недавно я смотрел статистику одного игрового приложения и заметил там хорошо сделанные диаграммы. Именно этот момент вдохновил меня на создание похожей картины, только уже взяв популярное приложение YouTube.
5. Статистические методы:
В анализе статистики я использовал такие данные, как: — Описательная статистика — Визуализация данных — Создание диаграмм
Описательная статистика
Я использовал для изучения существующих данных в оригинальной таблице, и далее для выборочных данных в своём проекте.
Визуализация данных
Я визуализировал выбранные мною данные в одну структуру и создал диаграммы, чтобы было легче ориентироваться.
Создание диаграмм
Я создал 4 разные диаграммы, код которых описал в вверху проекта, а готовый результат прикрепил внизу.
ИТОГОВЫЕ ГРАФИКИ И КОД
Столбчатая диаграмма, показывающая количество пользователей по числу подписчиков за 2023 год.
Круговая диаграмма, показывающая количество каналов по странам.
Горизонтальная диаграмма, показывающая количество загруженных видео на территории США и на территории России за 2023 год.
Комбинированная диаграмма, показывающая в каждой стране по 5 самых популярных ютуберов.
Ссылка, ведущая на гугл диск, где хранится код и база данных: https://drive.google.com/file/d/1PLuyTnL1QAtAs5C4hohdsvXt4TUHA6jE/view?usp=sharing



