Тропы — это разные повествовательные приёмы и конвенции, которые встречаются в более, чем одном произведении и узнаваемы для читателя, слушателя или зрителя. Тропы могут характеризовать места действия произведений (например, City Noir), сами сюжетные ходы или же те особенности, которые присущи лишь произведениям, использующим определённые способы передачи информации, как например, литературные тропы.
Таким образом, тропы могу охватывать совершенно разные аспекты произведения. Важно то, что они повторно используются от произведения к произведению (неосознанно или же намеренно). Тропы можно рассматривать как структурные элементы произведений. Если мы знаем из каких элементов собрано произведение, мы можем делать о нём качественные выводы. Если же мы посмотрим на некоторое множество произведений и их тропов, то тогда мы можем применить и количественные методы, что может позволить найти какие-то более глубокие закономерности.
Сами тропы собираются и описываются энтузиастами на таких сайтах, как:
Датасет содержит информацию о фильмах: тропах, в них входящих, жанрах, годе выпуска. Также в датасете можно найти идентификаторы для привязки к датасетам Movielens и IMDB.
В каждой строке содержится список всех тропов одного фильма. Это сделано для того, чтобы данные можно было хранить компактно. Предполагается, что в зависимости от решаемой задачи, могут потребоваться дополнительные преобразования.
Файл с данными можно скачать по ссылке. Пример работы с данными доступен здесь.
tropes_title
— название фильма на tvtropes.org (из url)tropes
— список тропов данного фильма в виде строки (элементы разделены символом|
)imdb_id
— идентификатор фильма на IMDBimdb_genres
— список жанров фильма на IMDB в виде строкиmovielens_id
— идентификатор фильма в датасете Movielenstmdb_id
— идентификатор фильма на The Movie Databasemovielens_title
— название фильма в датасете Movielensmovielens_genres
— список жанров фильма в датасете Movielens в виде строки (элементы разделены символом|
)movielens_year
— год выхода фильма, извлечённый из названия в датасете Movielens
Разделитель столбцов: ,
.
Не все идентификаторы IMDB существуют в датасете Movielens. В этих случаях movielens_id
имеет значение 99999999
.
- Список тропов собран с помощью tropescraper
- Идентификаторы IMDB получены с помощью поиска через IMDbPY