生成AIを活用した文書解析（OCR活用）

生成AIが急速に普及し、企業の業務改善や効率化を支援するケースが増えてきました。しかし、課題解決を目指す上では生成AI単独で対応するのではなく、生成AIが広く知られる以前から利用されてきた従来の技術を組み合わせることでより効果的な解決に繋がることがあります。実際に弊社が支援したプロジェクトでも、OCR（光学文字認識）と生成AIを組み合わせることで、業務効率が大幅に向上した事例がありました。本コラムでは、2回にわたり、こうした取り組みから見えてきた利点や具体的な事例についてご紹介していきます。

生成AIを用いた文字起こし

2023年以降、ChatGPTに代表される生成AIを活用したチャットツールでは、画像を添付して対話をすることができるようになりました。例えば、以下のような図表をChatGPTに添付して、書き起こしを依頼すると簡単に文字起こしを実現することができます。

つまり、生成AIチャットツールを使うと画像データからの文字起こしも可能。ちょっとした図表であれば、スクリーンショットを撮って、生成AIに依頼するとあっという間にエクセルに貼り付けできるデータに変換完了となります。

生成AIによる文字起こしの限界

このような画像データからの文字起こしという業務には、従来からOCR（光学文字認識：Optical Character Recognition）という技術が用いられてきました。生成AIを用いて画像分析ができるようになったことで、従来のOCR技術はもう必要ない時代になったのかというと、そんなことはありません。

次の事例を見てみましょう。先ほどと同じ図をA4サイズのWord文書に貼り付け、PDF化した後にJPEG化した画像を用意します。

この画像データを使って、先ほどと同様の命令を実行してみましょう。

ぱっと見では見逃しそうになりますが、細かい部分を確認すると一部商品名が勝手に書き変わってしまっていることが分かります。これは生成AIを使って画像ベースの文書解析をした場合に起こりやすいエラーで、今回の事例では大丈夫でしたが、数字情報も6と8、1と7を間違えるなどの事例が起きやすいことを経験的に把握しています。

古典的な技術？　OCRの実力

一方で、同じ画像からOCRを実施してみた場合にはどうなるでしょうか？

Google Cloud VisionのDocument AIを使って文字起こしすると以下のように綺麗に読み取れました（読み取り後に整形作業を行っています）

	数量	価格	総額
林檎	35,094	120	4,211,280
蜂蜜	57,232	500	28,616,000
蜜柑	21,412	60	1,284,720
葡萄	82,847	300	24,854,100
苺	89,639	200	17,927,800
バナナ	63,414	100	6,341,400

こちらではきちんと文字を書き起こしできていることが分かります。つまり、特に細かい文字の読み取りでは、生成AIでは読み取りができない一方で、OCRを使えば読み取れるという事例があるということです。

現場レベルで発生する文字サイズの縮小

生成AIによる文字起こしでは、小さな文字や細かい文字の読み取りが苦手であることが分かりました。小さい文字の文書は生成AIで扱わないようにすることも一つの選択肢ですが、実際の現場では、現場ならではの理由で、小さい文字サイズの文書というものが発生します。それは「作業記録や日報などの記録用紙をA4一枚サイズに収めたい」要望がある時です。

記録用の書式をエクセルで作成して印刷プレビューを確認したら、数行だけ飛び出してA4用紙２枚分になってしまった。しかし、全体サイズを縮小するとA4にぴったり収まる。このような時、誰もが全体サイズを縮小してA4サイズ１枚にすることを選んでしまうことでしょう。

生成AIによる図表認識の利点

生成AIによる文字起こしとOCRによる文字起こしのどちらを使うべきか、その線引きはどこにあるかは実際のサンプルを見ながらご提案をさせて頂くことも多いですが、弊社では両方を組み合わせた柔軟な読み取りシステムの構築も承っております。この柔軟なシステムは両方の長所を組み合わせた形での運用が可能であり、高精度な文字の読み取りと図表などの構造分析を併せて実行することが可能です。

この両方を組み合わせたシステムはさまざまな応用が可能であり、手書き文字の読み取りに強いOCRシステムとLLMを組み合わせると、以下の図のような見出しの位置と記入すべき位置の関係が変化しやすい形式の手書き入力の書類でも綺麗な表形式に変換し直すことが可能です。

国土交通省北陸信越運輸局新潟運輸支局の自動車事故報告（例）を抜粋・改変。

青が見出しと記入部位が横にある関係、青が見出しと記入部位が縦にある関係。

上記のような柔軟な運用が可能なOCR＋LLMのシステムは、現場作業での手書きが必要とされる業界のラストワンマイルのDX推進のお役に立てると思います。もし、このような柔軟な情報読み取りシステムのご要望がございましたら、DATAFLUCTまでご連絡ください。

生成AIを用いた文字起こし

生成AIによる文字起こしの限界

古典的な技術？ OCRの実力

現場レベルで発生する文字サイズの縮小

生成AIによる図表認識の利点

古典的な技術？　OCRの実力