Работа с хакатона центра Digital Humanities НИУ ВШЭ 17 января 2021 г.
Ольга Жукова (гуманитарная экспертиза, таймлайн)
1 курс магистратуры Digital Humanities, НИУ ВШЭ
Ольга Пичужкина (обработка и визуализация данных)
4 курс бакалавриата "Фундаментальная и компьютерная лингвистика", НИУ ВШЭ
Тематическое моделирование корпуса текстов: связь тем дневниковых записей с периодом времени написания.
Meet your dataset: дневниковые записи (источник)
Откуда у нас дневники?
Наши данные - это причёсанный дамп сайта "Прожито" от апреля 2019 года. Таблицы содержит несколько сотен тысяч записей за большой отрезок времени (от XVIII до XXI века, преимущественно — XX век), так что вам будет, где развернуться ;).
Презентация с хакатона
Код работы и описание методов: prozhito_topic_modelling.ipynb
Таймлайн "Живые души XX века"
Для просмотра нажмите на Present.
Он же, но в pdf: vyhuholl.github.io/prozhito_topic_modelling/prozhito_topic_modelling.pdf
Более сложные и интересные визуализации: visialization.ipynb