コンピュータクワガタ

かっぱのかっぱによるコンピュータ関連のサイトです

Googleドキュメントが日本語OCRに対応したというので、Evernoteと比較してみたよ

Googleドキュメントが日本語OCRに対応した(http://www.dekipaso.com/service/google-docs-ocr-japanese.html)というのでEvernoteと比較してみました。
まず、比較する対象として手書き文字

と、
Wordの正楷書体で書いた文字を用意しました。

これらをGoogleドキュメントにドラッグアンドドロップでアップロードします。アップロード時にOCRするかと聞いてくるのでOCRします。

結果ですがまず手書きのほうです。
さすがに乱雑すぎるのでしょう。全く解析できていません。

続いてWordのほうですが、これはきちんと読めています。素晴らしです。

Evernoteと比較するつもりはなかったのですが、@kawanamioがやれというのでやってみました。

まず、手書きのほうです。実際にどのようにOCRされたかを知る方法がわからなかったので検索して引っかかるかでやっています。「乱雑」とか「手書き」で検索してもちゃんと引っかかります。素晴らしい出来栄えです。

もちろんWordのほうが完全に認識してます。

Googleドキュメントも悪くはないのですが、さすがにEvernoteに一日の長があるという感じです。
願わくば相互に競って両方ともによくなってほしいものです。

以下 2011年6月29日追記。

Evernoteは検索で確認していますがOCRの結果を複数候補持てるので、GoogleドキュメントのOCRと比較の基準がそもそも違うのではないかと指摘をいただきました。
ですので、その確認のためEvernoteのOCRが複数候補持っているかどうかをまず確認しました。検証に使用したのは、先に使用した手書きバージョンのものです。
まず、「乱」で検索。

続いて「し」で検索。

ご覧の通り、「乱」でも「し」でも同じ「乱」の部分が候補として挙がっています。このことからご指摘いただいたとおり、EvernoteはOCRの検索結果を複数候補持っているということがわかります。

GoogleOCROCRした結果をそのまま文字列として出力しますが、Evernoteは内部的に複数の結果を保持しています。今回の結果で優劣をつけるのではなく、それぞれのいい部分を有効活用するのがいいかなと思います。といいつつも個人的にはEvernoteのOCRの精度は高いと思います。

広告