share facebook facebook2 twitter menu hatena pocket slack

2016.02.15 MON

スキャンしたPDFを自動で全文検索可能な状態にしてBoxへ保存する

WRITTEN BY齊藤 愼仁

dpf_top

シンジです。コニカミノルタさんの、Dispatcher Phoenixというソフトウェアを使って、複合機などからスキャンしたPDFファイルを、Boxに自動保存します。その際にOCRをかけて、文字認識できるようにして保存してやると、Box側で検索出来る状態で保存出来るというわけです。他にも様々な機能があるのですが、今回は単純な手法をやってみましたのでそのお話です。

無料お試し30日間いけます

https://www.sec.kmbs.us/version2/profile_access.html

登録制ですが、こちらから皆さんもお試し出来ますのでご興味ある方はどうぞ。

履歴書をスキャンするという想定でやってみる

紙で預かる履歴書、個人情報満載なのでその場でお返ししたい。なので、複合機からスキャンして、文字を読み取り、Boxに保存するまでを簡単に作ってみました。

とりあえずローカルファイルから読み込ませてみる

rirekisyo_1

こんな感じで、何がどう動いてるか視覚的に確認することが出来ます。新規でルールを作るときも同じで、アイコンから様々な機能をポイポイ画面に放り込んでやって、矢印を繋げてやると、その通り動くってな具合です。

普通にスキャンしたPDFはこんな感じ

文字をドラッグしても文字として認識していないので、ドラッグ出来ません。

OCRかけたファイルはこんな感じ

文字を認識しているので、ドラッグ出来ます。検索でも引っかかってくるというわけです。

Dispatcher Phoenixは超多機能な自動化ツール

Box以外にも様々なストレージに対応している他、出力も自動化できます。例えば、クレジットカードの部分を認識したら、そこだけ墨塗りして複合機で印刷させるとか。他にも、NDAな資料であることを認識したら、ウォーターマークを入れて印刷させるとか、保存させるとかですね。
入力も複合機から直接行けるほか、メールからの入力にも対応しています。

ポイントは、Dispatcher PhoenixはWindowsのユーザーモードで動くこと

Dispatcher Phoenix用のWindowsなサーバーが必要になります。あまりにも大量な処理をさせるとしたら、そこそこなスペックも必要かもしれませんが、今回のデモで動かした環境は、シンジのMac book Proの上で仮想的に動いているWindows7で全ページOCRがサクサクだったので、あまりシビアに考えなくても良いかもしれません。
また、Dispatcher Phoenixで処理したファイルは、Dispatcher Phoenixのサーバー上に保存させるか、その場で削除するか選択出来ます。保存先も複数指定出来ますから、いろんな使い方が出来ますよね。

まだまださわりしか使ってないので

特定の文字を認識したら、特定のフォルダに、特定のファイル名で保存するとか、いろんなルールを作って試してみたいと思います。もしコニカミノルタさんに連絡を取りたい方いらしたら、シンジまでご連絡頂ければ繋ぎますので是非〜

元記事はこちら

スキャンしたPDFを自動で全文検索可能な状態にしてBoxへ保存する

齊藤 愼仁

cloudpack 社内インフラ担当、情報セキュリティ責任者。HPCを経て現職に至る。無類の猫好きで、すだち君という名の猫を飼っている。