
電子化に関するよくある質問 > OCRの精度というのは、どのくらいですか?
(Q)OCRの精度というのは、どのくらいですか?
(A)OCRソフトが、どれだけ正確に文字を読むことができるのか、というのが、OCRの精度です。全て完璧に読むことができれば、100%ですし、全く読むことができなければ、0%となりますので、通常は、その0から100の間に位置します。
| The majority of OCR software suppliers define accuracy in terms of a percentage figure based on the number of correct characters per volume of characters converted. http://www.dlib.org/dlib/july09/munoz/07munoz.html |
というわけで、「OCRソフトのメーカーは、OCRの精度というものを発表しますが、あてになりません。その数値は、文字のクセ(フォントや印刷の状態)などに大きく左右されますので、必ず、メーカー提供の数値通りにはなりません。」
| ・・・ This means we have to escape from the mantra of character accuracy and explore the potential benefits of measuring success in terms of words -- and not just any words but those that have more significance for the user searching the resource. When we look at the number of words that are incorrect, rather than the number of characters, the suppliers' accuracy statistics seem a lot less impressive. |
というわけで、「・・・さらに、メーカーの数値は、文字単位での精度であり、各文字がどれだけ正確に読み取れているのか、ということです。しかし、通常は、検索するのが目的でOCRにかけるのですから、「文字」が正しく読み取られていることよりも、「単語」が正しく読み取られていることの方が、重要です。さらに、「単語」と言っても、普通に考えれば、"a"や"the”などの「単語」を検索する人はいないわけで、私たちが知りたいのは、「検索される可能性が高い単語」が、どれだけ正確に読み取れているのか、ということになります。」
| Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. |
というわけで、「経験上、単語レベルのOCR変換が80%以上の精度だと、あいまい検索により目当てのものがヒットする確率は95-98%となります。」
まとめますと、検索で95%くらいの確率で目的のものが発見されるようにしたいなら、最低でも「検索される可能性が高い単語」が80%くらいの精度で読み取られる必要があります。そして、文字のクセがある一定条件の下では、その精度を出せる可能性は十分にあります。
ただし、日本語のOCRで、この単語レベルの精度80%をクリアできるか、というと、正直、難しいです。
詳しくは、こちらをご覧ください。
OCRの誤変換については、こちらをご覧ください。