【ITニュース】くずし字を80%以上の精度で認識できるOCR技術
今、名刺管理ソフトなどで一般的に活用されているOCR技術。
OCRとはOptical Character Recognitionの頭文字をとったもので、
手書きや印字された文字をカメラやスキャナ等で読み取り、
デジタルの文字として特定・変換する装置を意味します。
郵便物の郵便番号のスキャンや、金融機関の振込用紙などにも
OCR技術が利用されています。
先日発表されたのが、くずし字の認識について。
凸版印刷の技術ではなんと精度80%以上で読み取ることができるのだとか。
「江戸期以前の“くず字”、精度80%以上でOCR処理、
凸版印刷が技術開発」(2015年7月3日INTERNETWatch記事より)
http://bit.ly/1NCh3z3
総数100万点以上ともいわれる江戸期以前のくずし字古文書。
専門家の減少や資料の経年劣化などの状況、災害による資料
アーカイブの必要性の見直しから、歴史的資料のデジタル化が
求められています。しかし、くずし字での表記は専門家による
判読が必要なため、テキストデータ化が遅れていたのだそうです。
今回、凸版印刷では「高精度全文テキスト化サービス」と
公立学校法人公立はこだて未来大学が開発した「文書画像で
検索システム」二つの技術を組み合わせ古典籍のOCR技術を開発。
80%以上の精度で文字を処理できるようになりました。
この技術開発により、大幅なコスト削減と
データの大量処理が可能になります。
今迄発見されなかった新たな事実も浮き彫りになり、
歴史的な発見や新事実が現れるかもしれませんね。
OCR技術は身近なアプリでも実現が可能です。
「Office Lens」ではホワイトボードや印刷された資料も
日本語で読み取ることができ、クラウド上に保存できます。
『カメラが文書スキャナーになる「Office Lens」、Android版が公開』
(2015年5月28日ASCII.jp記事より)
http://bit.ly/1HEORva
iOSとAndroid、無料でダウンロードできますので、
受け取った資料をテキストにしたい!という時には
場所にとらわれず、手軽に使えるかもしれませんね!
*****
弊社では、保守サービスやサポートに関する
facebookページを立ち上げています。
セキュリティの問題や脆弱性の情報を
毎日ピックアップして掲載しておりますので
よろしければお立ち寄りください。
ITサポート&サービス情報局【CTS】facebookページ
http://www.facebook.com/ITsupport.service
今週も「IT・保守サポートの日誌」をお読みいただき、
ありがとうございました。