Skip to content
This repository has been archived by the owner on Apr 25, 2024. It is now read-only.

判例のPDFをテキストに変換するプログラム

License

Notifications You must be signed in to change notification settings

japanese-law-analysis/pdf2txt_precedent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Workflow Status

pdf2txt_precedent

listup_precedentで作成した裁判例の一覧をもとに、裁判所のHPから判決文PDFファイルをダウンロードしてテキストに直すソフトウェアです。

Install

requires:

  • tesseract
  • tesseract-ocr-jpn
  • ImageMagick
  • poppler-utils

ubuntu:

sudo apt update
sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn imagemagick poppler-utils
cargo install --git "https://github.com/japanese-law-analysis/pdf2txt_precedent.git"

How to use

基本的な使い方

pdf2txt_precedent --input "input.json"

で起動します。与えるJSONファイルはlistup_precedentで生成されるものです。

起動するとその場にtmpフォルダが作られ、そこに各PDFファイルなどがダウンロード・生成されます。

そしてpdf2txt_precedentを起動したディレクトリに各判例テキストファイルが生成されます。

ファイル名は{事件番号}_{year}_{month}_{day}_{裁判の種類}.txt形式です。年月日は判決日です。

オプション

  • --tmp:一時フォルダのフォルダ名を変更することができる
  • --output:生成ファイルを出力するフォルダを変更することができる
  • --mode:テキスト抽出に用いる技術を選ぶことができる
    • p2tpdftotextコマンドを使用した抽出を行う
    • ocr:OCRを用いた抽出を行う
  • --do-not-use-cache:PDFファイルがtmpフォルダにすでに存在している場合でも再度ダウンロードを実行ようにする
  • --force-re-run:すでに生成済みテキストファイルが存在している場合でも再度処理を実行する

MIT License (c) 2023 Naoki Kaneko (a.k.a. "puripuri2100")

License: MIT

About

判例のPDFをテキストに変換するプログラム

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages