photo © 2009 Al | more info (via: Wylio)
光学式文字読み取り(OCR)が34ヶ国語にて可能に
Google DocsでのOCR対応言語に、新たに34ヶ国語が追加されましたね。これで、日本語の認識が可能になったわけです。ただ、この機能はPDFや画像から文字を抜き出すだけなわけで、PDF内で文字検索ができるようになるわけじゃありません。
古い論文をGoogle Docsにアップロードして文字認識されたものを論文管理ソフトに入れ込むなんてことを画策していた僕としては、さほど嬉しい機能ではありません。検索可能なPDFを作るには
Adobe Acrobat Proみたいな専用ソフトがあればいいんですが、こちらは高額なのが問題です。OCRの為だけにAcrobatを買うのはもったいないですよね。そんなわけで前置きが長くなりましたが、無料で検索可能なPDFを作れるOCRソフトとしては、
PDF OCR Xがいいと思います。
PDF OCR Xの特徴は、
- ドラッグ&ドロップでお手軽OCR
- MacとWindowsで使える
- 日本語を含む20ヶ国語以上に対応
- GIF, JPEG, TIF, BMP, PSD, PNGなどにも対応
- テキストの抽出、もしくは検索可能なPDFを作成可能
といったところです。無料版と有料版が用意されてます。無料版では1ページしか対応してませんが、とりあえず無料版を使ってみた感じを紹介します(version 1.9.10)。
作業の流れ
今回テストに使ったのは以下の論文。
Werner, A. E. A. Chemistry in the preservation of antiquities. Nature 184, 585-587 (1959).
3ページのPDFです。古い論文なので、検索をかけても無反応です。
まずはPDF OCR Xを起動。メインウインドが表示されます。
Drag or paste your PDFs/images hereとだけ書いてあります。これ以上ないシンプルさ。
いわれるがままに論文のPDFファイルをドラッグしてみました。すると、無料版では最初の1ページしか変換できないとの表示が現れますが、Proceed to convert the first page onlyをクリックして先へ進みます。
お次は読み取り言語とアウトプットフォーマットを選択します。別途言語を追加すれば英語以外も読み取り可能になりますが、今回はそのまま英語でOK。フォーマットは、Searchable PDFを選択して検索可能PDFを作成します。あとはConvertをクリックすれば終了です。
以下がOCRを行った論文ファイルです。searchable.pdfというファイル名が追加され、もとのファイルと同じディレクトリに保存されます。検索をかけてみると、最初の1ページ目のみですがちゃんと文字検索可能になりました。
Senteに入れてみた
PDF OCR XでOCRをかけた論文を
Senteに入れてみました。SenteではPDFに注釈を入れる際、検索可能PDFに対してはQuoteしてコメントを残すことができます。
1ページごとOCRをかければ無料版でも全ページOCRが可能ですが、有料版でも$29.99です。円高を利用して購入してしまうのもいいかもしれません。