Skip to content

Тематическое моделирование корпуса текстов: связь тем дневниковых записей с периодом времени написания.

Notifications You must be signed in to change notification settings

vyhuholl/prozhito_topic_modelling

Repository files navigation

Работа с хакатона центра Digital Humanities НИУ ВШЭ 17 января 2021 г.

Авторы:

Ольга Жукова (гуманитарная экспертиза, таймлайн)
1 курс магистратуры Digital Humanities, НИУ ВШЭ

Ольга Пичужкина (обработка и визуализация данных)
4 курс бакалавриата "Фундаментальная и компьютерная лингвистика", НИУ ВШЭ

Цель исследования

Тематическое моделирование корпуса текстов: связь тем дневниковых записей с периодом времени написания.

Данные

Meet your dataset: дневниковые записи (источник)
Откуда у нас дневники?
Наши данные - это причёсанный дамп сайта "Прожито" от апреля 2019 года. Таблицы содержит несколько сотен тысяч записей за большой отрезок времени (от XVIII до XXI века, преимущественно — XX век), так что вам будет, где развернуться ;).

Результаты

Презентация с хакатона

Код работы и описание методов: prozhito_topic_modelling.ipynb

Таймлайн "Живые души XX века"
Для просмотра нажмите на Present.
Он же, но в pdf: vyhuholl.github.io/prozhito_topic_modelling/prozhito_topic_modelling.pdf

Более сложные и интересные визуализации: visialization.ipynb

About

Тематическое моделирование корпуса текстов: связь тем дневниковых записей с периодом времени написания.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published