pdf2txt_precedent

listup_precedentで作成した裁判例の一覧をもとに、裁判所のHPから判決文PDFファイルをダウンロードしてテキストに直すソフトウェアです。

Install

requires:

tesseract
tesseract-ocr-jpn
ImageMagick
poppler-utils

ubuntu:

sudo apt update
sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn imagemagick poppler-utils
cargo install --git "https://github.com/japanese-law-analysis/pdf2txt_precedent.git"

How to use

基本的な使い方

pdf2txt_precedent --input "input.json"

で起動します。与えるJSONファイルはlistup_precedentで生成されるものです。

起動するとその場にtmpフォルダが作られ、そこに各PDFファイルなどがダウンロード・生成されます。

そしてpdf2txt_precedentを起動したディレクトリに各判例テキストファイルが生成されます。

ファイル名は{事件番号}_{year}_{month}_{day}_{裁判の種類}.txt形式です。年月日は判決日です。

オプション

--tmp：一時フォルダのフォルダ名を変更することができる
--output：生成ファイルを出力するフォルダを変更することができる
--mode：テキスト抽出に用いる技術を選ぶことができる
- p2t：pdftotextコマンドを使用した抽出を行う
- ocr：OCRを用いた抽出を行う
--do-not-use-cache：PDFファイルがtmpフォルダにすでに存在している場合でも再度ダウンロードを実行ようにする
--force-re-run：すでに生成済みテキストファイルが存在している場合でも再度処理を実行する

License: MIT

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
.github/workflows		.github/workflows
src		src
.gitignore		.gitignore
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
LICENSE		LICENSE
README.md		README.md
rustfmt.toml		rustfmt.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pdf2txt_precedent

Install

How to use

基本的な使い方

オプション

About

Releases

Packages

Languages

License

japanese-law-analysis/pdf2txt_precedent

Folders and files

Latest commit

History

Repository files navigation

pdf2txt_precedent

Install

How to use

基本的な使い方

オプション

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages