WindowsでオープンソースOCR Part.3

日本語OCRの前準備編です。

WindowsでオープンソースOCRで日本語 Part.2

tesseractが使うフォントデータにつき結構前準備をしました。

下2つ目の引用にあるようにGithubから落としてもある程度の精度は出せると思います。ですがWindowsのフォントを覚えさせると認識率が上がるかと思い以下のページを参考にデータを作りました。

tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする – Qiita

Cygwinの場合はtesseract-training-utilというパッケージが提供されています

初めのうちはMSゴシックとMS明朝だけを覚えさせてやってましたが更にメイリオフォントを指定したら少し精度が上がりました。

以下に置いてあるデータはLinux系に入っているpublicな日本語フォントを基にしていると思います。

Github – tesseract-ocr/tessdata@074c372

Updated 98 traineddata files with the 3.04 training. ara, eng, hin, kor not included as they regressed.

ですがこのデータでは以下のバグにヒットするはずです。ポケモンGO用オープンソースアプリでもtesseractが使われているのかも。

認識言語を英語から日本語に入れ替えると数字によっては識別できない場合がある · Issue #2 · udnp/GoIV_JP

「1」->「ー」 に誤認識される

昨日の画像でも ‘1’ が以下の3ヶ所ありましたが ‘一’ に認識されてました。回避方法は上記Qiitaページからたどれるところに書いてあります。jpn.unicharambigs の20行目あたりを消しても回避できます。

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s