前の記事はこちら。
midoliko-tsuki.hatenablog.com
1
PDFをOCRで処理してテキストを抽出しよう、ということで、参考にしたのはこちら。
dev.classmethod.jp
どうせこれでもできないんじゃないのー、とやさぐれながら真似してみたら「NO OCR tool dound」と表示されました。
いつもなら即夫に助けを求めるところなのですが、この日、専属ヘルプデスクこと夫は仕事で私の相手どころではなく、仕方ないのでTwitterで愚痴っていたら、なんとフォロワーさんが「ツールが読めてないエラーっぽいので、Pythonからツールがちゃんと認識できてないのでは?」とアドバイスをくださいました。
助言してもらったんだし、これはやってみなければなりません。
でも認識してないのってどうしたらええんや……とりあえずもう一回ツールをインストールしてみるか……とやってみたら、なんと動いてしまいました。日本語は認識できてないけど、数字やアルファベットは読んでくれている感じです。どうやら必要なツールをひとつインストールし忘れていたらしい。
大喜びでTwitterで報告したら、先ほどのフォロワーさんが「OCRツールを日本語対応のものに置き換えられれば読み込めたりするかもしれません」と更なるアドバイスをくださいました。
助言してもらったんだし、これはやってみないと(2回目)と……と貼りつけたものを見返していたら、「lang='en'」という部分がある。あれ、もしかしてこれのせいか?と'jpn'に直しました。
で、このあたり記憶が定かでないので、どのサイトを参考にしたのか覚えていないのすが、OCRツールの日本語パッケージをインストールしたら、これもちゃんと動いてくれて、日本語部分もまあまあの精度で認識してくれたのでした。
そんなわけで、冊子ひとつぶんのデータをテキストにして書き出す、という作業が完了しました。
微々たるものではあるのですが、ようやく動いてくれたので、実際にできたこと以上の達成感がありました。
2
できなかったことが解決できる体験が思いのほか楽しかったので、もう少し気合を入れて頑張ってみようと思いました。
とりあえず、英語がいっぱい出てきた途端に「あ、無理」と諦めるのはやめようと思いました。Google翻訳かなにかにかけて読めば結構理解できるし、翻訳したものを頼りに検索をかけるだけで解決策がそれなりに見つかることも実感できました。
このままやりたいことについて検索して、出てきたものを切り貼りすれば、わりとすぐに結果は出せるんだろうな、という気もしてきました。少なくとも、pdfのデータをテキストデータにする作業については、今回書いたプログラムのファイル名をコピー&ペーストで差し替えるなら、いますぐにでも作業にかかることはできますし、その後の工程についても、それほど難しくなくできるのだろうと思えます。
ただ、今回書いたプログラムさえも、なぜこうなっているのか分からずにもやもやしているところがたくさんあるので、ここは焦らずに、もう一度基礎からやってみよう、と思いました。
続きはこちら。
midoliko-tsuki.hatenablog.com