PythonでPDFからテキスト抽出（pdfminer.six）

Pythonで、「pdfminer.six」を利用してPDFからテキストを抽出してみました。

※この方法だとファイルによっては文字化けする事がありました。汎用性を上げるならOCRの方がよいです。
PDFをOCRでテキスト変換してみた（Cloud Vision）

はじめに

コードでPDFからtextを抽出したかったので、調べたところ「pdfminer.six」が良さそうだったので使ってみました。

1
2
3


$ python3 -m venv .env
$ . .env/bin/activate
$ pip install pdfminer.six

※venvを使っていますがお好みで。
　単にpipでインストールして試してみたら、パスの関係か何かで実行できませんでした。

1
2


$ python .env/bin/pdf2txt.py sample.pdf
表示確認用サンプル PDF

1
2
3
4
5
6


from pdfminer.high_level import extract_text

pdf_filename = "sample.pdf"

text = extract_text(pdf_filename)
print(text)

※サイトのGet startedの記載には、import文が書かれてないですが上記でいけました。

※最初はNode.jsで考えていたのですが、調べ方が悪かったのか中々見つからずPythonで試しました。