Skip to content

vyhuholl/pashto_corpus

Repository files navigation

Корпус языка пушту

Источник модели, использующейся для частеречной разметки корпуса – Pashto-POS-Tagging-Project.

POS-тэггер

Файл pos_tagger.py проходится по всем текстам в папке texts, размечает их по частям речи и сохраняет размеченные тексты в папку tagged_texts. Запускается из командной строки командой:

python3 pos_tagger.py

Чтобы выводить в консоль результат разметки, используется аргумент командной строки -v или --verbose:

  • -v – чтобы выводить названия файлов;
  • -vv – чтобы выводить названия файлов и размечаемые предложения;
  • -vvv – чтобы выводить названия файлов, предложения и результат разметки для каждого слова в предложении.

В директории data содержатся:

  • эмбеддинги, использовавшиеся при обучении модели (также взяты из Pashto-POS-Tagging-Project).

About

POS-tagger for the Pashto language

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages