Источник модели, использующейся для частеречной разметки корпуса – Pashto-POS-Tagging-Project.
Файл pos_tagger.py
проходится по всем текстам в папке texts
, размечает их по частям речи и сохраняет размеченные тексты в папку tagged_texts
. Запускается из командной строки командой:
python3 pos_tagger.py
Чтобы выводить в консоль результат разметки, используется аргумент командной строки -v
или --verbose
:
-v
– чтобы выводить названия файлов;-vv
– чтобы выводить названия файлов и размечаемые предложения;-vvv
– чтобы выводить названия файлов, предложения и результат разметки для каждого слова в предложении.
В директории data
содержатся:
- эмбеддинги, использовавшиеся при обучении модели (также взяты из Pashto-POS-Tagging-Project).