GitHub

Краткое описание

В данном репозитории находится решение задачи классификации текстов (~450к документов)
Категории документов: Интернет и СМИ, Культура, Мир, Наука и техника, Спорт, Экономика

Список тетрадок

00. Анализ данных
01. Предобработка данных
02. Логистическая регрессия (TFIDF+SVD)
03. Извлечение статических эмбеддингов (TFIDF+SVD, Word2Vec+SVD)
04. Логистическая регрессия на базе статических эмбеддингов (TFIDF+SVD, Word2Vec+SVD)
05. Градиентный бустинг на базе CatBoost (используя встроенный текстовый векторайзер)
06. Пайплайн для классификации новых текстов для 3х вышеописанных моделей
07. Нейросетевой классификатор на базе предобученной модели rubert-tiny2
08. Пайплайн для классификации новых текстов для модели из предыдущего пункта
09. Визуализация латентного пространства (статические эмбеддинги TFIDF+SVD, Word2Vec+SVD)
10. Визуализация латентного пространства (контекстные эмбеддинги cls токена модели rubert-tiny2)
11. Список файлов в директории data с указанием их размера (датасет, корпус, веса моделей и т.д.)
12. Бонус: решил повторить sql join'ы, к данному проекту отношения не имеет :)
13. Модели CNN, SepCNN, LSTM на базе предобученных статических эмбеддингов

Дальнейшие планы

Подбор гиперпараметров, выбор лучшей модели (GridSearchCV, Optuna)
Классификаторы на базе статических эмбеддингов из BM25 векторайзера
Классификаторы на основе KNN, SVM, Random Forest (статические эмбеддинги)
Классификаторы на базе CNN / RNN / CNN + RNN (используя статические эмбеддинги)
Дистиляция, квантизация, каскадирование, прунинг (для модели на базе rubert-tiny2)
Подробное тестирование и сравнение производительности классических и нейросетевых моделей

Воспроизводимость результатов

git clone https://github.com/vaaliferov/topic.git

Содержимое директории data можно скачать здесь.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
00_eda.ipynb		00_eda.ipynb
01_preprocess.ipynb		01_preprocess.ipynb
02_tfidf_logreg.ipynb		02_tfidf_logreg.ipynb
03_stat_embs.ipynb		03_stat_embs.ipynb
04_embs_logreg.ipynb		04_embs_logreg.ipynb
05_catboost.ipynb		05_catboost.ipynb
06_predict.ipynb		06_predict.ipynb
07_bert.ipynb		07_bert.ipynb
08_bert_predict.ipynb		08_bert_predict.ipynb
09_latent_space.ipynb		09_latent_space.ipynb
10_bert_latent_space.ipynb		10_bert_latent_space.ipynb
11_data_du.ipynb		11_data_du.ipynb
12_join.ipynb		12_join.ipynb
13_cnn_rnn.ipynb		13_cnn_rnn.ipynb
readme.md		readme.md
requirements.txt		requirements.txt
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Краткое описание

Список тетрадок

Дальнейшие планы

Воспроизводимость результатов

About

Releases

Packages

Languages

vaaliferov/topic

Folders and files

Latest commit

History

Repository files navigation

Краткое описание

Список тетрадок

Дальнейшие планы

Воспроизводимость результатов

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages