OS X のプレビュー、PDF のOCR情報をぶっ壊す

COMPUTER

Preview

OS X のアプリ、プレビューで気になった事象が発生しています。プレビューで PDFを編集すると、PDFに含まれるOCR テキスト認識による作成されたインデックスが壊れる ようなのです。少なくとも前の OS X Mavericks からの現象で、Yosemite のプレビューでも起こります。

スキャンした書類を検索可能にするために、OCR テキスト認識でテキスト情報を付与しますが、プレビューでそのファイルを編集(変更・コピー)すると同テキスト領域が壊れるか、なくなるかするようです。例えば、本や雑誌をスキャンする自炊を行う場合、カラー表紙だけ別スキャンして後から結合するような作業をすると思いますが、この操作で作成された PDF は透過テキスト検索が出来なくなります。

一度結合してしまった PDF はプレビューのバージョン管理&復元で復旧できる可能性がありますが、出来なかった場合は対処法はありません。一度壊してしまったファイルは再度、OCRをかけるしかないのですが、Acrobat の OCR は日本語縦書きに効果が薄いですし、他アプリは高いしと、実質「打ち手がない」という状態です。OS X のプレビューで PDF 操作をする場合は気を付けてくださいませ。

OS X は OS レベルで PDF をネイティブに扱える便利さがウリだったと思うのですが、とんだ落とし穴です。青くなっている人が多いと思います。

10月1日に登場する OS X El Capitan では解消してくれると思うのですが、どうなんでしょうね(NDA事項)。

COMPUTER
この記事が気に入ったら
フォローしてね!
最新情報をお届けします。
この記事をシェアしてくれると、とても嬉しい😆
いろんな WAVEFORM LAB をフォローしよう!
WAVEFORM LAB

コメント