今更ながらに自炊の話です。ScanSnap iX500 と裁断機 カール事務器 ディスクカッター A4サイズ DC-210N ブラック を買いました。先に、カール事務器ディスクカッターを購入。19,440円がアマゾンで 54%オフの 8,905円になっていたのがキッカケ。本気で本を減らすならと底値安定の ScanSnap iX500 を購入、雑誌、ビジネス書、単行本を中心に70冊ほどを電子化しました。
今更感があるネタですが、ScanSnap iX500 はアプリもいくつか付いており、 Mac だと何をどう使うのかがイマイチよく分からないのでここにまとめておきます。久しぶりの PFU 製品ですが、ハードはともかくソフトウェアの使いにくさがあいかわらず。ちなみに、ScanSnap Organizer というアプリは現状、エラーで終了する状態で使えてません。週末はサポートセンターも休み。「平日のビジネス時間帯に実機を傍に問い合わせできる人がどれだけいるんだろう?」なんて思いますが。
たくさんあるアプリはこう使う
ScanSnap には他社製品も含め、たくさんのアプリが付いてきます。アプリの機能は重複する部分があり、どれをどのように使うのかはマニュアルにははっきりは書いてありません。例えば日本語 OCR 機能を提供してくれるアプリは ScanSnap Manager 、 検索可能なPDFに変換 、 ScanSnap Organizer 、 ABBYY FineReader for ScanSnap 、そして Nuance PDF Converter for Mac の5つがあります。なぜこうなる。まぁ、文句を言っても仕方がありません。アプリは付いてないより付いている方がいいのです。説明は T5B を読めば解決です。
ScanSnap Manager
一番使うアプリケーションは ScanSnap Manager で、スキャンするために使います。このアプリでスキャン品質や原稿向きなどの読み取りモード設定、 OCR 設定、ファイル形式など、スキャンに必要なすべてをまかないます。基本、これをマスターすればオーケーです。詳細は後述します。
Nuance PDF Converter for Mac
他社製品である Nuance PDF Converter for Mac ですが、スキャンした PDF の分割や結合といった編集に使います。「自炊で表紙は分けてスキャンした」「失敗したページのみスキャンし直した」「必要のないページを削除してサイズを減らしたい」といったページ結合、差替、削除など編集作業に活躍します。
また、PDF の編集のみならず、MS Office ファイル(や WordPerfect!)、テキスト、そして検索可能な OCR 処理された PDF と様々なファイルに変換が可能です。後述の ABBYY FineReader for ScanSnap はもう必要ないように思いますが。
このアプリケーションは自炊に頻繁に使いますが、やたらにメモリを食います。ある程度のメモリ(仮想メモリ領域=メインディスクの空き容量)を確保して使ってください。編集中にメモリを食い尽くして停止、なんてことがよく発生しますので。OCR については後述します。
なんて書いても残りのアプリが気になるでしょうから、試した範囲で紹介しておきますよ。
ABBYY FineReader for ScanSnap
これは、PDF を Word / Excel / PowerPoint などに変換するためにアプリケーションです。このアプリケーションにも OCR 機能は付いており、縦書きの日本語も変換してくれる「お、使えるじゃん」というアプリケーションなのですが、PDF から PDF 変換には致命的な欠陥があります。画像(イメージ)も変換され、変換前の画像品質が大きく損なわれる、というもの。変換画像品質は設定できますが「高」にしても 348 KBのファイルが 150 KBにリサイズされ、画像もかなり潰れてしまいます。画質は全くこだわらないけど、日本語検索はしてみたい、という用途以外には使えません。残念ですがこのアプリは以上。OCR の品質は後述します。
ScanSnap Organizer
なんなんでしょうね、このアプリケーション。私はこのアプリは使えていません。下記のようなメッセージを出力して終了します。スキャンしたファイルのランチャーみたいなものでしょうか。全く意味が分かりませんが、使わないでも問題がないので放置です。いろいろ試しましたがデバッグするためにお金を払っている訳ではありませんし暇ではないので。
検索可能なPDFに変換
なんでこのアプリが単体で存在するんでしょう。ScanSnap Manager か ScanSnap Organizer と統合しません?普通。ScanSnap Organizer の一部機能の切り出しのこのアプリは OCR をかけるためのバッチアプリケーションです。残念ながら PDF しか対応していません。画像ならなんでも OCR をかけてくれると便利なアプリに昇格したんでしょうが。
このアプリはイメージ部には手を付けず、OCR のみを実行します。開いたファイルを OCR をかけた後、一方的に置き換えてしまうように動作しますが、オリジナルファイルは設定で指定したディレクトリに移動されているはずです。このアプリの OCR は ScanSnap Manager が行う処理と同等です。なので出力結果はともに後述の1番目のサンプルと同一、ということになります。
ScanSnap 見開き作成
これは選択した2つのページを見開き調に結合するアプリです。これも ScanSnap Organizer の一部らしいです。Acrobat のように PDF のプロパティで見開き(右綴じ左綴じ)を指定するものではありません。2ページを結合しちゃいます。なので結合したい時にどうぞ。
ScanSnapサポートツール
サポート用のツールです。ScanSnap Manager が正しく動作するようにアクセス権を調査したり、ScanSnap のシステム情報やログを収集してくれます。これで作成したファイルを送ってくれ、とサポートに求められることはないと思いますが、所有しているシステムの情報(システムやディスクの内容、インストールしているアプリケーションなど)が抜かれますのでご注意を。
CardMinder
名刺管理アプリです。私は別のを使っているので、これは使っていません。このアプリは別途、データベースの修復ツール.app と パスワード操作.app が付属します。ふう。
ScanSnap無線設定ツール
まだ使ってませんが、無線設定をするのでしょう。
モバイルに保存/モバイルに保存(通信)
まだ使ってませんが、スマホやタブレットに転送する際に使うのでしょう。iPhone アプリ「ScanSnap Connect Application」を使えば iOS デバイスと ScanSnap iX500 のダイレクト接続も可能です。
日本語 OCR を比較する
ScanSnap には Acrobat の製品版が付属していた時代がありますが、各所のレビューでも「Acrobat の日本語縦書きOCRは実用に耐えない」という評価が多く、日本製品である ScanSnap には期待がかかるところです。また、前述の通り、日本語 OCR については複数のアプリがあるので、自分で試した内容をここで整理しておこうと思います。
最初がスキャンしたオリジナル、ScanSnap Manager によるスキャン結果です。オリジナルスキャンは縦書き日本語のOCRに失敗していますね。
2番目が ABBYY FineReader for ScanSnap 「画質:高」で変換した PDF です。画質は細部で潰れていますが、OCR は縦書き日本語に健闘しています。しかしいかんせん、画像が再変換され、つぶれます(サイズも348 KB → 150 KB と小さくなりますが)。
さて、我らが Nuance PDF Converter for Mac はどうでしょう。まず、Nuance PDF Converter は OCR など変換処理をオーバーネットワーク、いわゆるクラウドで実現します。つまり変換は Nuance のサーバで実行しているということ。なので品質についてはまだ向上するかもしれません。が、やはり遅いです。2p の PDF を変換するのに 15秒かかります。200p だと単純計算で25分かかる可能性があります。リアルタイム処理には難がありますね。
そして OCR 処理結果ですが、かなり品質が高い!漢数字の処理ミスはあるものの、OCR 品質はずば抜けています。Nuance PDF Converter for Mac で決まり!圧倒的じゃないか!
ところがファイルサイズをみて再度びっくりです。348 KB のファイルが 43KB になってます(号泣)。ABBYY FineReader for ScanSnap 同様に「別ファイルに変換」する仕様なんですね。また、ネットワークを介しての処理になるのでサイズダウンは割り切っているんでしょう。
惜しい。OCR の品質については「これで決まり」というレベルだけに惜しい。悩ましい結果となりました。
日本語 OCR における方針
Mac に Windows をインストールすれば「読取革命」などの選択肢もあるんでしょうが、セキュリティアップデートの多い Windows のお世話をするのは会社だけにしておきたい。前述の Acrobat の状況を鑑みれば、「現状はこんなもの、受け入れるしかない」というところです。
そもそも自炊とはなんでしょう。紙のファイルをスキャンして電子化することなんでしょうが、多くの場合、スキャンした紙版の書籍は処分してしまうのではないでしょうか。ならば「品質の良い状態で保存する」ことを優先すべきです。 OCR はいつでもかけられます。OCR の日本語読解品質を優先するならば Nuance PDF Converter for Mac が一番いいのですが、検索性より視認性を優先ということで、「なるべく品質がよく効率的な設定でスキャンし、OCR はいずれ必要な時に別途、処理する」という方針で進めることにしました。
さて、多くの書籍を自炊処理することで見えてきた ScanSnap のスキャン設定、そして自炊を成功させるポイント!は、次回にお伝えしたく思います。お楽しみに。
コメント
macOS Sierra へのScanSnap対応状況について
http://wp.me/p4prRH-1FO
Apple社より9月21日リリース予定の「macOS Sierra」での動作検証において重要な問題が検出されております。現在、問題解決に向けて対応を進めておりますので、完了し次第別途お知らせいたします。 それまでの期間、macOS SierraでのScanSnapのご使用はお控えください。
macOS Sierraでの動作検証において検出された問題
1. 過去にScanSnapで作成したPDFファイルを編集、または検索可能なPDFにして保存した場合、一部のページが白紙ページとなって保存される場合があります。また、白黒ページはカラーのページとして認識されてしまいファイルサイズが大きくなります。
2. 新たにScanSnapでPDFファイルを作成した場合、一部のページが白紙ページとなって保存される場合があります。また、白黒ページはカラーのページとして認識されてしまいファイルサイズが大きくなります。
3. クイックメニューで連携先を選択した場合、連携先のプレビュー画面で表示が真っ白になる場合があります。
4. ScanSnap Organizerの「ページの結合」を実行すると、一部のページが削除される場合があります。
5. CardMinderで名刺を両面読み取りした場合、裏面のデータが取り込まれません。
Nuanceのwin版には、元のイメージを保持する設定がありました。
もしかするとmac版にもあるかも知れませんよ。
わたしは英語と日本語の混在文書を変換していて、nuanceは多言語の混在に強いので、コレばっかり使ってます。