オープンソース

OCR機能で文書画像の全文検索

Fessには、PNGやPDF(画像)に含まれる文書をOCR機能を利用して検索対象とすることが可能です。今回は、全文検索システムFessに追加されたOCR機能を紹介します。

OCRとは

OCR(Optical Character Recognition 光学文字認識)とは、手書きの文字や印刷された文字をスキャナやカメラ等で読み取り、コンピュータで利用できるようにテキスト化するための技術です。「紙の書類」は、ただスキャンしただけでは「画像」として読み込まれます。書類をスキャンした後にOCR処理をすることで、「画像」として保存された書類の中にある日本語などの文字部分を抽出し、文字データとして変換し出力して使用することができます。読み込まれた文字列は、簡単に検索やコピー&ペーストができるようになります。OCR技術は、郵便番号や銀行の振込用紙の読み取りなどに使用されており、近年ではgoogle レンズやLINEなど身近なアプリやソフトにもOCR技術が搭載されています。

ペーパーレスを促進している理由

最近では、さまざまな企業でペーパーレス化が行なわれています。ペーパーレス化を推奨することで紙の削減となり環境保全の取り組みや働き方改革のためのデジタル化の推進に繋がります。企業がペーパーレスを推奨している理由を、以下で解説します。

環境保全への取り組み

紙を生産するためには、森林伐採が必要です。この森林減少に伴い、地球温暖化への影響などが懸念されています。ペーパーレス化を進めることは伐採される木材を減らし、結果として環境保護に繋がります。またSDGsに取り組む企業が増え、SDGsでも環境の項目でペーパーレス化が推奨されています。このような背景から、環境保全への取り組みとしてペーパーレス化が注目されています。

働き方改革に対応するためのデジタル化

企業では、テレワークやリモートワークに対応するため、文書をデジタル化することで必要な書類にどこからでもアクセスできるようにすることが必要になっています。 物理的な紙媒体で保管する場合、作成した文書は閲覧できる機会が限られ、同時に複数のメンバーで共有することが難しくなります。一方、電子化してデータをpdfファイル等に保存すれば、PCからメールで添付したり、 オンラインでデータのやり取りをすれば、情報を取得したい相手にすぐに届けることができます。

さらに、政府では経済社会のデジタル化を踏まえ、電子帳簿保存法が2022 年1月に改正されました。電子帳簿保存法とは、業務や経理に必要な帳簿や書類などの保存を、電子データで保存する等のルールを定めた法律をいいます。最近では、2022年1月に改正されましたがこれまでも利便性の向上のために、何度も法改正されています。今回の改正では、電子取引は電子による保存が義務化となりました。電子帳簿保存法の「電子保存の義務化」に関しては2年の猶予期間が設けられることになりましたが、国全体での取り組みとしてもペーパーレス化が推進されています。

OCR導入のメリット

OCRを導入することで以下のメリットがあります。

  • 業務の効率化
  • 社内で保管していた紙の書類をデジタル化することで、WEBブラウザから検索を行うことができるようになります。これにより、欲しい情報にすぐにアクセスすることが可能になり、業務効率を向上することができます。

  • コストの削減
  • 紙で印刷を行なう必要がないため、紙やインクなどの購入費用を削減することができます。

  • 情報の省スペース化
  • 紙媒体で書類を保管するには、ある程度のスペースが必要となります。書類をデジタル化することで、物理的な書類保管スペースを削減することができます。

FessによるOCR機能

FessのOCR機能を利用すると、PNGやPDF(画像)に含まれる文章画像を検索ができるようになります。クローリングが完了した後、画像上部に含まれる文字(コンサルティング)で検索すると、画像が検索した画面に表示されます。

ホームページ

コンサルティング検索

OCR認識性能

現在のOCRは、大きく認識精度が向上しています。FessのOCR認識性能は以下になります。

解像度による比較

解像度を100DPI/150DPI/300DPI/600DPIと選択して読み取り、PNGファイルとして保存しました。それぞれのPNGファイルのOCR認識性能を比較すると次のような性能でした。150DPI程度の解像度でも高い認識率を示し、充分に読み取ることができます。

認識率の結果
解像度 認識率 正しく認識した文字数
600DPI 98.73% 1,014 文字 / 1,027文字
300DPI 99.41% 1,021 文字 / 1,027文字
150DPI 91.53% 940 文字 / 1,027文字
100DPI 80.82% 830 文字 / 1,027文字

文字の大きさによる比較

OCR認識を行う画像ファイルに含まれる文字の大きさによる認識性能は次のようになりました。1/4倍まで縮小コピーされた文書でも充分に読み取ることができます。

認識率の結果
用紙のサイズ 認識率 正しく認識した文字数
等倍 99.02% 1,017 文字 / 1,027文字
1/2倍 99.42% 1,021 文字 / 1,027文字
1/4倍 99.32% 1,020 文字 / 1,027文字
1/6倍 85.98% 883 文字 / 1,027文字
1/9倍 86.56% 889 文字 / 1,027文字

このように、OCR機能を付加した全文検索システムを導入することで、スキャナで取り込んだ紙の文書も検索できるようになり、ペーパーレス化を推進しつつ業務効率も向上することが可能になります。

Fess導入の検討資料を無料でダウンロードいただけます。

Fess検討資料

Fess検討用資料ダウンロードへ

Fessを利用したサイト内検索ファイルサーバ全文検索についてまとめた資料です。Fessは、ビッグデータの解析に使われる検索エンジンと連携するため、非常に高速に動作します。Fessについて情報を収集する際、サービスをご検討いただく際などにお役立てください。

デモのお申込み

もっと使い方が知りたい方へ
Fessの操作方法や操作性をデモにてご確認いただけます。使い方のイメージを把握したい、使えるか判断したい場合にご活用下さい。Fessのデモをご希望の方は、下記よりお申込みいただけます。


デモをご希望の方

デモの申し込みイメージ


全文検索システムFess

Fess〜全文検索システム〜
ここでは、OSSの全文検索システム「Fess」でできること、Fessに対するデージーネットのサポートについてご紹介します。
ファイルサーバ全文検索
Fessの機能を利用して、ファイルサーバの全文検索を行うことができます。ここでは、ファイルサーバ全文検索の便利なところを紹介します。
サイト内検索のOSS「Fess」
Fessの機能を利用して、サイト内の全文検索を実装することができます。ここでは、サイト内全文検索の便利なところを紹介します。
Fessでサイト内検索【応用】
ここでは、OSSの全文検索システムFessでのサイト内全文検索の応用例を紹介します。
OCR機能で文書画像の全文検索
ここでは、全文検索システムFessに追加されたOCR機能を紹介します。
Fessの保守・サポート
ここでは、Fessの保守・サポートについて紹介します。
Fessのよくある質問
ここでは、全文検索システムFessの導入検討時にお客様からいただくよくある質問を紹介します。

Fessによるサイト内検索システム事例

ホームページにサイト内検索の機能を持たせたいということで、相談を受けました。デージーネットからは、OSSであるFessを使った全文検索システムを提案しました。サイト内検索の統計情報や、検索キーワードなどはKibanaを使って参照できるようになり、SEO対策にも生かせるようになりました。

Fessによるファイルサーバ検索システム事例

社員の情報共有のために、ファイルサーバに保管されている情報を効率よく検索するシステムを導入したいという要望があり、OSSのFessを提案しました。ビックデータの技術を利用して高速検索ができるようになり、ファイルを探す手間が省けるようになりました。

Fess調査報告書

Fessは全文検索サーバです。WEBサイト内やファイルシステム内のデータを自動的に収集してElasticsearchに保管し、全文検索を行うことができます。データの収集の設定や検索のためのWEBインタフェースが用意されているため、導入してすぐ全文検索システムを使うことができます。

Elasticsearchを使ったログ解析システム構築事例

CATVのインターネットサービスでは、障害の対応や犯罪捜査への協力のために、IPアドレスから利用者を特定しなければならない場合があります。従来は、DHCPサーバ、WWWサーバ、メールサーバ、課金システムなどの膨大なログをgrepコマンドを使って調査し、利用者を特定していました。そのため、調査は大変時間がかかる作業でした。この調査を効率化できないかと相談を受け対応しました。

Elasticsearch〜OSSの全文検索エンジン〜

Elasticsearchは、Apache Luceneをベースに開発された全文検索エンジンです。このページでは、Elasticsearchの特徴、Elasticsearchと周辺ツール、Elasticsearchに対するデージーネットの取り組みを紹介します。

統合ログ管理・監視のOSS〜Graylog〜

Graylogとは、GUIからログサーバの管理やログの参照、検査、可視化などを行うことができる統合ログ管理ソフトウェアです。Graylogは、Graylog,INCによって開発・管理されているOSSで、GPLv3ライセンスの元で公開されています。

テレワークで使えるおすすめのOSS10選

働き方改革を促進するために、テレワーク環境の整備や生産性の向上などが求められています。ここではテレワークで使えるおすすめOSSについて紹介します。

OCR機能で文書画像の全文検索の先頭へ