インカゼブログ - 中風博客

興味のあるものを紹介していきます

書籍を分解せずに綺麗にPDF化する方法

“自炊”が流行していますが保存フォーマットにPDFを選ばれる方は多いと思います。画像が多いものであればJPEGが便利でしょうが文書中心のもの、新聞記事などはPDF化するのが便利です。

  • 複数ページを一つのファイルにまとめる:検索結果が煩雑にならない。
  • OCR機能を使い文字をインデックス化できる。:全文検索で資料をヒットさせられる。

PDF化には優秀なフリーソフトもいくつか出ていますがやはり餅は餅屋、Adobe Acrobatに任せるのが一番スムーズで速くできると思います。

スキャン方法ですが後の工程を考えると背表紙を分解して1ページずつ取り込むのが一番楽です。ところが大事な書籍等見開き2ページでスキャンせざるを得ないこともあります。

AcrobatでA3の見開き2ページの資料を、PDF作成からOCRにより認識した文字を保存するまでの流れを以下にご紹介します。

*スキャン対象の印刷物は全て意図的にぼかしてあります。

スキャンするファイルは白地のものであれば300dpi程度の解像度であれば十分です。ファイルの種類は自由に加工するため、とりあえずPDF以外(TIFFもしくはJPEG)でPCに取り込みます。AcrobatではJPEGファイルなどをウィンドウにドラッグアンドドロップするだけでPDFに変換しますが、“ファイル”→”印刷”、プリンタ名を”Adobe PDF” としOKを押すことでPDFに変換することもできます。私は後者を使っています。というのは出力の画質・サイズ設定が変更できる、”用紙に合わせて拡大・縮小”を選択しておくとスキャン時に多少サイズがずれていても修正する、という細かい調整ができるからです。またカラーでスキャンしたものですとAdobe Acrobat上で直接変換できないファイルがありますが、この印刷コマンドからだとPDF化できることもあります。

scanneddoc1

上記画面で”設定”→”PDF設定”→”PDF設定” を”高品質印刷”を選択。(通常のままでもかまいませんがOCRの認識率が下がります。)

scanneddoc5

サイズは、”A3”に、レイアウトを”横”にしておきます。A4 x 2ページのものはこれで”正確な位置に印刷部をセットできていれば”ピッタリ収まるはずです。300dpi程度に設定していれば視認性の良い文字はあとのOCRでもほぼ正確に認識してくれます。

scanneddoc3

スキャン後のPDFです。ページを二分割する必要があるのですが、その前にページの真ん中のラインがスキャンされた画像の中央に来ていることを確認します。ここでずれているとキレイに二分割することができません。”ページのトリミング”を使って修正しましょう。左赤部の余白のせいで真ん中のラインが右によってしまっているのでツールバーに出ている青いアイコンを押し、青い部分を選択します。

scanneddoc4

ページのトリミングでは以下の効果が期待できます。

  • 前述のずれたページの分割ラインを中央に修正する。
  • 上下左右の余白を削除し見やすくする。(本来のトリミングの用途です。)
  • スキャナによってはA3, B4など規格に合わないサイズのものをスキャンすると対象物より少し大きい、既設の規格のサイズで読み込む

不必要に左もしくは右の余白が空いてしまうことがあります。こういった場合センターラインを目分量で合わせるよりも、スキャナの隅にセットしておきこの段階で全てのページに同じサイズのトリミングをかけることで手間を減らすことが可能です。(ややこしいですが言ってること分かりますでしょうか??)

全てのページに適用させるには右下の”ページ範囲”→”すべて"を選択する。

scanneddoc5

次に見開きを分割する工程に移ります。再度、”ファイル"→”印刷”です。このときPDF設定を”高品質印刷”、またPDFのページサイズを最終的に変換したい(1ページ分の)サイズに設定してください。

scanneddoc61

レイアウトタブで”大きなサイズのファイルを分割”を選び、ズームサイズを変更していきます。倍率を大きくしていくと点線が一本表示され、これが2分割状態です。さらに大きくすると3分割、4分割となりますがここで2分割かつ一番大きい(余白が少ない)状態の倍率を選択し、OKを押します。

scanneddoc7

2分割できました。

scanneddoc8

最後に”文書”→”OCRテキスト認識”→”OCRを使用してテキストを認識”でPDF中の文字が電子データとして保存されます。