Pythonで、「pdfminer.six」を利用してPDFからテキストを抽出してみました。
※この方法だとファイルによっては文字化けする事がありました。汎用性を上げるならOCRの方がよいです。
PDFをOCRでテキスト変換してみた(Cloud Vision)
はじめに
コードでPDFからtextを抽出したかったので、調べたところ「pdfminer.six」が良さそうだったので使ってみました。
インストール
|
|
※venvを使っていますがお好みで。
単にpipでインストールして試してみたら、パスの関係か何かで実行できませんでした。
コマンドラインで実行する
https://pdfminersix.readthedocs.io/en/latest/tutorials/commandline.html
|
|
Pythonコードに組み込む
https://pdfminersix.readthedocs.io/en/latest/tutorials/highlevel.html
|
|
※サイトのGet startedの記載には、import文が書かれてないですが上記でいけました。
備考
Node.jsだと以下が使えそうです。
http://dotnsf.blog.jp/archives/1075957643.html
→使ってみました
※最初はNode.jsで考えていたのですが、調べ方が悪かったのか中々見つからずPythonで試しました。