Исходный размер 490x631

Анализ количества ютуберов, стран, подписок и просмотров на 2023 год

PROTECT STATUS: not protected

ВВОДНАЯ ЧАСТЬ

Статистика данных:

Я взял такую статистику данных, как «Количество ютуберов, стран, подписок и просмотров на этапе конца 2023 года».

Для выбора этой базы данных я использовал сайт Kaggle, где по запросу «Global YouTube Statistics 2023» вывелась статистика ютуберов и их подписок за 2023 год.

Ценность:

Эти данные представляют для меня огромную ценность, так как 70% своего свободного времени я провожу именно в приложении Youtube. Я не только смотрю игровые видеоролики, но и занимаюсь жизнедеятельностью своего канала. По этой причине мне стало очень интересно собрать данные всех популярных каналов воедино и написать о них.

Виды используемых диаграмм:

В своём проекте я буду использовать такие виды диаграмм как: — Линейные диаграммы — Гистограммы — Столбчатые диаграммы — Круговые диаграммы

МОИ ЭТАПЫ РАБОТЫ

  1. Обработка данных:

Чтобы получить структурированные данные таблицы и с их помощью создавать диаграммы я использовал библиотеку Pandas на языке Python. Скачав и использовав программу Anaconda в среде Spider я вывел данные таблицы и создал несколько диаграмм, которые будут описаны ниже.

Так как оригинальная версия таблицы имеет 28 колонок, то я выбрал 5 наиболее значимых по моему мнению.

big
Исходный размер 698x128

Код в среде Spider для структурирования таблицы.

Так как сперва мои данные не хотели читаться из-за неверной кодировки файла, мне пришлось написать ещё код, который читал кодировку моего файла. Строчка 3 в изображении выше.

Исходный размер 426x111

Код в среде Spyder для выявления кодировки файла.

1.1. Обработка данных в диаграммах:

Я работал в приложении «Google Colab», так как в среде Spyder у меня не получилось создать диаграмму.

Все итоговые диаграммы прикреплены в самом конце проекта. Написанный код и база данных, ведущая на гугл диск, будут также прикреплены в самом конце проекта.

Диаграмма № 1

Первую диаграмму, которую я решил использовать стала «Столбчатая диаграмма». Цель её создания — узнать количество каналов с тремя вариациями по числу подписчиков на момент 2023 года.

Объясню, как устроен мой код, разбив его на 3 части:

  1. Чтение файла с ПК
  2. Определение категорий
  3. Построение графика

Так как файл был на моём рабочем столе я скопировал из среды Spyder исходный код открытия таблицы и в приложении Colab настроил на чтения файла с моего рабочего стола.

Исходный размер 563x121

Чтение файла в Colab.

Так как мне стало интересно, я решил использовать такие данные, как: — Количество ютуберов, у которых больше 100 млн подписчиков; — Количество ютуберов, у которых больше 50 млн подписчиков; — Количество ютуберов, у которых больше 10 млн подписчиков. Эти данные мне будут нужны для создания следующих диаграмм, а также для понимания разницы между количеством ютуберов.

Исходный размер 732x49

Определение категорий.

После определения категорий я начал создавать столбчатую диаграмму, так как она очень хорошо может показать такую статистику.

Исходный размер 520x122

Построение графика в Colab.

Диаграмма № 2

Вторая диаграмма является круговой. Она показывает распределение количество каналов по странам в процентах за 2023 год.

Так как в оригинальной таблице свыше 30 различных стран, я решил выбрать наиболее популярные страны в последнее время. В этот список попали такие страны, как: США, Россия, Индия, Бразилия, Южная Корея.

Объясню, как устроен мой код, разбив его на 2 части:

  1. Список стран и количество каналов
  2. Создание круговой диаграммы
Исходный размер 465x105

Выбор пяти стран для анализа базы данных.

Я выбрал именно эти пять стран, так как за последние несколько лет они на слуху у многих пользователей приложения Youtube.

Исходный размер 523x249

Создание круговой диаграммы.

Диаграмма № 3

Третьей я выбрал линейчатую диаграмму. С её помощью я решил сравнить общее количество просмотренных видео за весь год между двумя странами. Первую страну я взял США, так как в предыдущей диаграмме мы узнали, что у США больше всего ютуберов-миллионщиков. Вторую страну я взял Россия, так как я в ней живу и мне стало интересно сколько видео было просмотрено на момент 2023 года.

Объясню, как устроен мой код, разбив его на 2 части:

  1. Выбор двух стран из списка и сумма количества просмотренных видео
  2. Создание линейчатой диаграммы
Исходный размер 447x63

Сравнение общего количества просмотров видео у двух стран за 2023 год.

В представленном коде выше я нашёл сумму количества просмотренных видео у каждого канала из США и России на момент 2023 года.

Исходный размер 459x108

Создание линейчатой диаграммы.

Диаграмма № 4

Четвёртой стала комбинированная диаграмма, целью которой была узнать у выбранных мною ранее пяти стран 5 самых популярных каналов по количеству подписчиков и сравнить друг с другом.

Объясню, как устроен мой код, разбив его на 2 части:

  1. Список стран и список популярных ютуберов по количеству подписок
  2. Создание комбинированной диаграммы
Исходный размер 859x79

Выбор пяти популярных каналов в каждой стране.

В представленном коде выше из каждой страны я выбрал пять самых популярных каналов и их название.

Исходный размер 722x151

Создание комбинированной диаграммы.

2. Нейросети:

В своём проекте я использовал такие нейросети как: — Чат GPT https://chat-gpt.org/ru/chat — Гигачат https://giga.chat/

Это 2 бесплатные нейросети, которые помогали мне с поиском и анализом данных.

3. Описание применения генеративной модели:

Я использовал нейросеть «Чат GPT». Моей целью его использования было найти информацию о сайтах, которые могут предоставить статистику ютуба на момент конца 2023 года.

Промт который был использован: «На каких сайтах я могу найти информацию и узнать о статистике пользователей ютуба в 2023 году.»

Я использовал нейросеть «Гигачат». Моей целью его использования было найти информацию о том, как узнать кодировку файла.

Промт который был использован: «Какой существует метод в Python, чтобы узнать у файла его кодировку. Подробное объяснение.»

Результат кода будет прикреплён снизу.

Исходный размер 426x111

Код для вычисления кодировки файла. Был создан с помощью ИИ.

4. Стилизация графики:

Я создал 4 вида диаграммы. Совсем недавно я смотрел статистику одного игрового приложения и заметил там хорошо сделанные диаграммы. Именно этот момент вдохновил меня на создание похожей картины, только уже взяв популярное приложение YouTube.

5. Статистические методы:

В анализе статистики я использовал такие данные, как: — Описательная статистика — Визуализация данных — Создание диаграмм

Описательная статистика

Я использовал для изучения существующих данных в оригинальной таблице, и далее для выборочных данных в своём проекте.

Визуализация данных

Я визуализировал выбранные мною данные в одну структуру и создал диаграммы, чтобы было легче ориентироваться.

Создание диаграмм

Я создал 4 разные диаграммы, код которых описал в вверху проекта, а готовый результат прикрепил внизу.

ИТОГОВЫЕ ГРАФИКИ И КОД

Исходный размер 591x432

Столбчатая диаграмма, показывающая количество пользователей по числу подписчиков за 2023 год.

Исходный размер 536x338

Круговая диаграмма, показывающая количество каналов по странам.

Исходный размер 673x313

Горизонтальная диаграмма, показывающая количество загруженных видео на территории США и на территории России за 2023 год.

Исходный размер 983x1427

Комбинированная диаграмма, показывающая в каждой стране по 5 самых популярных ютуберов.

Ссылка, ведущая на гугл диск, где хранится код и база данных: https://drive.google.com/file/d/1PLuyTnL1QAtAs5C4hohdsvXt4TUHA6jE/view?usp=sharing

Анализ количества ютуберов, стран, подписок и просмотров на 2023 год
Проект создан 17.01.2026