listup_precedentで作成した裁判例の一覧をもとに、裁判所のHPから判決文PDFファイルをダウンロードしてテキストに直すソフトウェアです。
requires:
- tesseract
- tesseract-ocr-jpn
- ImageMagick
- poppler-utils
ubuntu:
sudo apt update
sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn imagemagick poppler-utils
cargo install --git "https://github.com/japanese-law-analysis/pdf2txt_precedent.git"
pdf2txt_precedent --input "input.json"
で起動します。与えるJSONファイルはlistup_precedentで生成されるものです。
起動するとその場にtmpフォルダが作られ、そこに各PDFファイルなどがダウンロード・生成されます。
そしてpdf2txt_precedent
を起動したディレクトリに各判例テキストファイルが生成されます。
ファイル名は{事件番号}_{year}_{month}_{day}_{裁判の種類}.txt
形式です。年月日は判決日です。
--tmp
:一時フォルダのフォルダ名を変更することができる--output
:生成ファイルを出力するフォルダを変更することができる--mode
:テキスト抽出に用いる技術を選ぶことができるp2t
:pdftotext
コマンドを使用した抽出を行うocr
:OCRを用いた抽出を行う
--do-not-use-cache
:PDFファイルがtmpフォルダにすでに存在している場合でも再度ダウンロードを実行ようにする--force-re-run
:すでに生成済みテキストファイルが存在している場合でも再度処理を実行する
MIT License (c) 2023 Naoki Kaneko (a.k.a. "puripuri2100")
License: MIT