OS X のプレビュー、PDF のOCR情報をぶっ壊す

COMPUTER

Preview

OS X のアプリ、プレビューで気になった事象が発生しています。プレビューで PDFを編集すると、PDFに含まれるOCR テキスト認識による作成されたインデックスが壊れる ようなのです。少なくとも前の OS X Mavericks からの現象で、Yosemite のプレビューでも起こります。

スキャンした書類を検索可能にするために、OCR テキスト認識でテキスト情報を付与しますが、プレビューでそのファイルを編集(変更・コピー)すると同テキスト領域が壊れるか、なくなるかするようです。例えば、本や雑誌をスキャンする自炊を行う場合、カラー表紙だけ別スキャンして後から結合するような作業をすると思いますが、この操作で作成された PDF は透過テキスト検索が出来なくなります。

一度結合してしまった PDF はプレビューのバージョン管理&復元で復旧できる可能性がありますが、出来なかった場合は対処法はありません。一度壊してしまったファイルは再度、OCRをかけるしかないのですが、Acrobat の OCR は日本語縦書きに効果が薄いですし、他アプリは高いしと、実質「打ち手がない」という状態です。OS X のプレビューで PDF 操作をする場合は気を付けてくださいませ。

OS X は OS レベルで PDF をネイティブに扱える便利さがウリだったと思うのですが、とんだ落とし穴です。青くなっている人が多いと思います。

10月1日に登場する OS X El Capitan では解消してくれると思うのですが、どうなんでしょうね(NDA事項)。

COMPUTER
この記事をシェアしてくれると、とても嬉しい😆
Follow Me !
波形研究所 所長

WAVEFORM LAB(ウェーブフォーム・ラボ) は音楽制作、デジタルライフ、イノベーションをテーマとするサイトです。

1997年、伝説の PDA、Apple Newton にフォーカスした Newton@-AtMark- を開設、Newton や Steve Jobs が復帰した激動期の Apple Computer のニュースを伝えるサイトとして 200万アクセスを達成。2001年からサイトをブログ化、2019年よりサイト名を WAVEFORM LAB に改称、気になるネタ&ちょっとつっこんだ解説をモットーにサイトを提供しています。

Follow Me !
WAVEFORM LAB

コメント

タイトルとURLをコピーしました