自炊した本の文字が薄くて読めない……。
OCR処理したPDFがsonyのPRS-T3Sでは白紙になって読めないので(スマホでは読めます)、abobe acrbatで透過テキストを削除しました。
また、PDFのフイルサイズが大きくて小さくしたかったことから、abobe acrbatでページサイズを落としました。
すると、今度は、文字が薄くて読めないPDFが出てきてしまったのです……。
なにが原因なのか、すこし調べてみたところ、どうやら、解像度に問題があるようでした。具体的には、abobe acrbatでページサイズを落としたのが、ダメだったようです。
さらに調べると、電子ブックリーダーにあわせた解像度にすると、文字が読めるようになるとわかりました。
PRS-T3Sの解像度は「758×1024」。
これにあわせるために、フリーソフトを使えばいいとわかりました。
スポンサード リンク
フリーソフトを利用
自炊した本のPDFを加工するのに、つぎの2つのフリーソフトが人気のようです。
・chainLP
・かんたんPDFダイエット
早速、利用してみたところ、かなり便利なことがわかりました。
なにが便利なのかというと、いろいろある、電子書籍リーダー、タブレットなどの解像度ごとにPDFを最適化できること、PDFのファイルサイズが半分以下になったこと、PDFを一括して処理できることの3点です。
つまり、文字が薄くなることなく、ファイルサイズを落とせたわけです。しかも、ほぼ自動で(ただかなり時間がかかりました)。
※それに、OCR処理したものが元に戻せていたというのも助かりました。
これは使えると思ったのですが、ひとつ、大きな問題がありました。
いずれのフリーソフトでも、白黒反転、左右反転するPDFがあったのです。
なぜ、このようになるのか、いまだに原因は不明ですが、どうやら、もともとのPDF(つまり、ドキュメントスキャナーから吐き出されたPDF)に問題があることはわかりました。
そもそもPDFかJPEGか?
ドキュメントスキャナで取り込むとき、「PDF」「サーチブルPDF」「JPEG」「BMP」などとファイル形式を選ぶことができます。
サーチブルPDF(OCR処理)だと透過テキストがついているので、あとで、検索して本を探すことができますが、PDFを編集できるソフトは高価ですし、PDFはなにかと融通がきかないので、たとえば、自分のもつスマホに解像度を最適化しようと思ったときなどに、その手段が限られてしまいます。また、わたしのように、処理するとき、原因不明の白黒反転、左右反転を起こすこともあります。
※PDFでもOCR処理できるソフトを使えば、サーチブルPDFになるので、これと同じメリット、デメリットです。
その一方で、JPEGなどの画像で取り込むと、画像を処理できるフリーソフトは多数あるので、あとで処理するときに融通が効くというメリットがあります。ただ、たぶん、あとでOCRの処理ができないと思います。
※BMPだとファイル容量が膨大に大きくなるそうなので、現時点では使えないとのことです。
というわけで、ドキュメントスキャナでJPEGで取り込んでおけば、白黒反転、左右反転しなくなるようです。
しかし、今回はすでに本を破棄してしまっていること、またわたしはあとで検索したいので、今後もPDFにしようと思っています。
もし、漫画などテキスト検索しないであろう本だと、JPEGでとるのもいいかもしれません。
というわけで、つぎの方針にしました。
・chainLPもしくはかんたんPDFダイエットで処理
・処理できないものは、処理しない(ファイルサイズが30MBほどのPDFに白黒反転、左右反転があったので処理なしでも可読性は損なわれません)。