自炊した本の文字が薄くて読めない……。

OCR処理したPDFがsonyのPRS-T3Sでは白紙になって読めないので（スマホでは読めます）、abobe acrbatで透過テキストを削除しました。
また、PDFのフイルサイズが大きくて小さくしたかったことから、abobe acrbatでページサイズを落としました。
すると、今度は、文字が薄くて読めないPDFが出てきてしまったのです……。
なにが原因なのか、すこし調べてみたところ、どうやら、解像度に問題があるようでした。具体的には、abobe acrbatでページサイズを落としたのが、ダメだったようです。
さらに調べると、電子ブックリーダーにあわせた解像度にすると、文字が読めるようになるとわかりました。
PRS-T3Sの解像度は「758×1024」。
これにあわせるために、フリーソフトを使えばいいとわかりました。

スポンサードリンク

フリーソフトを利用

自炊した本のPDFを加工するのに、つぎの２つのフリーソフトが人気のようです。

・chainLP
・かんたんPDFダイエット

早速、利用してみたところ、かなり便利なことがわかりました。
なにが便利なのかというと、いろいろある、電子書籍リーダー、タブレットなどの解像度ごとにPDFを最適化できること、PDFのファイルサイズが半分以下になったこと、PDFを一括して処理できることの3点です。
つまり、文字が薄くなることなく、ファイルサイズを落とせたわけです。しかも、ほぼ自動で（ただかなり時間がかかりました）。
※それに、OCR処理したものが元に戻せていたというのも助かりました。

これは使えると思ったのですが、ひとつ、大きな問題がありました。いずれのフリーソフトでも、白黒反転、左右反転するPDFがあったのです。
なぜ、このようになるのか、いまだに原因は不明ですが、どうやら、もともとのPDF（つまり、ドキュメントスキャナーから吐き出されたPDF）に問題があることはわかりました。

そもそもPDFかJPEGか？

ドキュメントスキャナで取り込むとき、「PDF」「サーチブルPDF」「JPEG」「BMP」などとファイル形式を選ぶことができます。
サーチブルPDF（OCR処理）だと透過テキストがついているので、あとで、検索して本を探すことができますが、PDFを編集できるソフトは高価ですし、PDFはなにかと融通がきかないので、たとえば、自分のもつスマホに解像度を最適化しようと思ったときなどに、その手段が限られてしまいます。また、わたしのように、処理するとき、原因不明の白黒反転、左右反転を起こすこともあります。
※PDFでもOCR処理できるソフトを使えば、サーチブルPDFになるので、これと同じメリット、デメリットです。

その一方で、JPEGなどの画像で取り込むと、画像を処理できるフリーソフトは多数あるので、あとで処理するときに融通が効くというメリットがあります。ただ、たぶん、あとでOCRの処理ができないと思います。
※BMPだとファイル容量が膨大に大きくなるそうなので、現時点では使えないとのことです。

というわけで、ドキュメントスキャナでJPEGで取り込んでおけば、白黒反転、左右反転しなくなるようです。
しかし、今回はすでに本を破棄してしまっていること、またわたしはあとで検索したいので、今後もPDFにしようと思っています。
もし、漫画などテキスト検索しないであろう本だと、JPEGでとるのもいいかもしれません。

というわけで、つぎの方針にしました。

・chainLPもしくはかんたんPDFダイエットで処理
・処理できないものは、処理しない（ファイルサイズが30MBほどのPDFに白黒反転、左右反転があったので処理なしでも可読性は損なわれません）。

これで、読みやすくなって、ずいぶんと容量を小さくすることができるようになりました。