Skip to content

slowwavesleep/TvTropesMovieData

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 

Repository files navigation

TvTropesMovieData

Кратко о тропах

Тропы — это разные повествовательные приёмы и конвенции, которые встречаются в более, чем одном произведении и узнаваемы для читателя, слушателя или зрителя. Тропы могут характеризовать места действия произведений (например, City Noir), сами сюжетные ходы или же те особенности, которые присущи лишь произведениям, использующим определённые способы передачи информации, как например, литературные тропы.

Таким образом, тропы могу охватывать совершенно разные аспекты произведения. Важно то, что они повторно используются от произведения к произведению (неосознанно или же намеренно). Тропы можно рассматривать как структурные элементы произведений. Если мы знаем из каких элементов собрано произведение, мы можем делать о нём качественные выводы. Если же мы посмотрим на некоторое множество произведений и их тропов, то тогда мы можем применить и количественные методы, что может позволить найти какие-то более глубокие закономерности.

Сами тропы собираются и описываются энтузиастами на таких сайтах, как:

Датасет

Датасет содержит информацию о фильмах: тропах, в них входящих, жанрах, годе выпуска. Также в датасете можно найти идентификаторы для привязки к датасетам Movielens и IMDB.

В каждой строке содержится список всех тропов одного фильма. Это сделано для того, чтобы данные можно было хранить компактно. Предполагается, что в зависимости от решаемой задачи, могут потребоваться дополнительные преобразования.

Файл с данными можно скачать по ссылке. Пример работы с данными доступен здесь.

Детальное описание данных

  • tropes_title — название фильма на tvtropes.org (из url)
  • tropes — список тропов данного фильма в виде строки (элементы разделены символом |)
  • imdb_id — идентификатор фильма на IMDB
  • imdb_genres — список жанров фильма на IMDB в виде строки
  • movielens_id — идентификатор фильма в датасете Movielens
  • tmdb_id — идентификатор фильма на The Movie Database
  • movielens_title — название фильма в датасете Movielens
  • movielens_genres — список жанров фильма в датасете Movielens в виде строки (элементы разделены символом |)
  • movielens_year — год выхода фильма, извлечённый из названия в датасете Movielens

Разделитель столбцов: ,.

Пропуски в данных

Не все идентификаторы IMDB существуют в датасете Movielens. В этих случаях movielens_id имеет значение 99999999.

Использованные библиотеки для сбора данных

  • Список тропов собран с помощью tropescraper
  • Идентификаторы IMDB получены с помощью поиска через IMDbPY

Источники данных

Releases

No releases published

Packages

No packages published