Skip to content

Latest commit

 

History

History
17 lines (13 loc) · 1.42 KB

README.md

File metadata and controls

17 lines (13 loc) · 1.42 KB

Корпус языка пушту

Источник модели, использующейся для частеречной разметки корпуса – Pashto-POS-Tagging-Project.

POS-тэггер

Файл pos_tagger.py проходится по всем текстам в папке texts, размечает их по частям речи и сохраняет размеченные тексты в папку tagged_texts. Запускается из командной строки командой:

python3 pos_tagger.py

Чтобы выводить в консоль результат разметки, используется аргумент командной строки -v или --verbose:

  • -v – чтобы выводить названия файлов;
  • -vv – чтобы выводить названия файлов и размечаемые предложения;
  • -vvv – чтобы выводить названия файлов, предложения и результат разметки для каждого слова в предложении.

В директории data содержатся:

  • эмбеддинги, использовавшиеся при обучении модели (также взяты из Pashto-POS-Tagging-Project).