前の記事はこちら。
midoliko-tsuki.hatenablog.com
テキストを新規作成して結果を書き込むのはできそうな気がする。でも、ディレクトリ内のPDF全部に同じ処理を繰り返している中で、結果のテキストファイルに元のPDFと同じ名前をつけるやり方が分からない。
ということで、我が家のヘルプデスクこと夫をつかまえて聞いてみました。
夫「混乱してるみたいだから、まず書いてみて」
こ、混乱なんかしてへんわ!と不満だったのですが、目に見えてないと分かりにくいのは確かなので、順番に書き出してみました。
- PDFのフォルダを取得
- テキストファイル作成
- フォルダから任意のファイルを取得
- 画像に変換
- OCR
- テキストデータに変換する
- テキストファイルに保存して閉じる
というところまで書いて、テキストファイルを保存するフォルダはいつ作ったらいいの?と尋ねたら、「場所を決めないと作れないよ」と言われました。ええっそうなの?でもそうか!
- 結果フォルダを作成
- PDFのフォルダを取得
- 結果フォルダ内にテキストファイル作成
- フォルダから任意のファイルを取得
- 画像に変換
- OCR
- テキストデータに変換する
- テキストファイルに保存して閉じる
というところで再度つっこみが。PDFフォルダを取得するだけでは、その中のどのファイルに対して処理を実行していいのか分からない。なのでPDFフォルダのファイル名リストを取得して、順番に実行していく、らしい。「何の順番でとか指定するの?」と聞いてみたら、特に必要なければそこは指定しないでいいらしくて、じゃあフォルダ渡したらそこから適当に処理してくれよー、という気もしますが、コンピュータ相手に駄々をこねても仕方ないので従います。
で、ファイル名リストを取得するので、ついでにここで取得した文字列を使って、変換後のテキストファイル名にしたらいいよ、と言われました。
PDFだけを選び出してるのでpdfをtxtに置換するんじゃだめなの?と聞いてみたのですが、この場合はやらない方がいいと言われました。置換だと、ファイル名にpdfという文字列があった場合、そこもtxtになってしまうから、だそうです。なるほど、幽遊白書の海藤くんの「あ、ついでに氷も」のやつみたいだ(そうじゃない)。
それはともかく、全体にまだ狐につままれたような気持ちなので、これを実際に書いてみることにしました。
続きはこちら。
midoliko-tsuki.hatenablog.com