Исходный размер 2480x3500

Анализ статистики по Sci-Fi книгам

PROTECT STATUS: not protected

Предисловие

В качестве датасета для анализа выбран «Science Fiction Books (10,000+)» с сайта www.kaggle.com; в этом семестре я посещала курс «Истории Фантастики и Футурологии», где нас познакомили с футурологическими и фантастическими концепциями из многих романов в жанре Science Fiction, и мне показалось будет интересно провести анализ жанра на уровне статистики.

Работа выполнена в Google Colab, с использованием Pandas для анализа и визуализации данных, искусственный интеллект при выполнении работы не использовался.

Подготовка к работе

Датасет состоит из 12ти файлов; они одинаково структурированы, разбивка датасета идёт по субжанрам Sci-Fi. Перед началом работы с датасетом нужно объединить их. Читаю каждый файл, а после использую функцию concat () для объединения.

В итоге получаю таблицу в 14974 строк и 11 колонок. Такой объём оправдывает использование программирования для анализа данных.

Исходный размер 586x321

Визуализация

В этом проекте я работаю с двумя видами диаграмм: гистограммы и точечные. Я считаю что они лучше всего подходят для наглядной демонстрации корреляций и статистики, особенно той что связана со временем.

Как оценивают Sci-Fi книги

Первым делом хочу визуализировать количество книг с определенным рейтингом (в датасете собрана информация с Goodreads). Использую простую строчку кода. Специально оставляю весь диапазон оценок видимым на диаграмме, во избежание искажений в понимании зрителя.

Исходный размер 541x48
Исходный размер 1227x351

На получившейся гистограмме можно увидеть, что оценки пользователей в среднем варьируются от 3 до 5 звёзд и больше всего книг оценено в районе 4х.

Годы издания

Интересная тема которую поднимали на Истории Футурологии это своеобразные эпохи в Sci-Fi, периоды через которые прошел жанр. Мне стало интересно посмотреть с высоты и узнать как жанр в целом набирал популярность, в данном случае среди авторов.

Исходный размер 735x55

Эта гистограмма будет логарифмической, так как если брать чистые данные значения поменьше просто невозможно быстро разглядеть.

Исходный размер 1237x351

На итоговой диаграмме видно, что количество изданных романов в жанре Sci-Fi в основном лишь росло всё это время.

Корреляция между годом публикации и читательской оценкой

Гипотеза была высказана на парах по Истории Футурологии: «качество романов в жанре Sci-Fi росло с годами выросло, потому что авторы учились друг у друга и с переходом жанра в mainstream они стали больше внимания уделять тому чтобы романы приятно и легко читались».

Проверим эту гипотезу с помощью построения диаграммы для отслеживания корреляции между годом выхода и оценкой читателей на Goodreads.

Исходный размер 744x325

Для работы беру романы начиная с 1800 года выпуска так как до этого их совсем мало, что плохо повлияет и на отслеживание корреляции, и затруднит восприятие зрителем более визуально загруженной части диаграммы.

Также не беру те романы которые оценены на 0: они так оценены в связи с тем, что оценок нет и это было бы не корректно позволять им влиять на статистику в этом случае.

Исходный размер 547x413

На получившейся диаграмме видим что тренд на повышение читательской оценки присутствует, но изменение не столь значительно: меньше чем половина балла. Нельзя сказать что в среднем восприятие читателями Sci-Fi романов значительно улучшилось с годами.

Корреляция между средней оценкой и количеством оценивших читателей

Также у меня возникла своя гипотеза. Что если высота оценки книги связана не столько с годом выпуска сколько с количеством проголосовавших? Узнаем как меняется оценка книги с возрастанием количества оценивших.

Сначала визуализирую весь датасет на точечной диаграмме, где по X количество проголосовавших, а по Y оценка на Goodreads.

Исходный размер 611x160
Исходный размер 554x432

Узнаю что книг с более чем 3мя миллионами оценок почти нет в датасете и для упрощения анализа и зрительского восприятия убираю их, прежде чем строить линию тренда.

Исходный размер 738x245
Исходный размер 567x432

На итоговой диаграмме видно, что не смотря на то что книги с большим количеством оценок не оценены на 5 баллов, в среднем книги с большим количеством оценок действительно оцениваются выше.

Заключение

В процессе работы я проанализировала датасет «Science Fiction Books (10,000+)»: визуализировала информацию о годах выпуска и читательской оценки романов и проверила гипотезы о корреляции читательской оценки романа с другими факторами.

Анализ статистики по Sci-Fi книгам
Проект создан 17.01.2026