WindowsでオープンソースOCRで日本語 Part.2

昨日の続きです。今日は日本語を含むAndroid上LINEアプリのスクリーンショット篇です。

WindowsでオープンソースOCRを使ってみた Part.1

オープンソースOCR Tesseract を使ってみました。WindowsでCygwin版

この画像を試します。同じ文字列が何度も出てくるというバカっぽいサンプルですみません ^^;

Androidのフォントで、しかもいわゆる中華フォントというやつで純粋な日本語フォントではありません。

今回は文字が黒と白抜き両方あるので少し難しいです。結果から言うと白抜きの方はまだ精度50%ぐらいしか出せていません。ので今日のところは画像の左側の黒文字だけに着目お願いします。コマンドは前回のものでは日本語を認識しないので以下をtesseractの引数として追加しました。

-l jpn+eng

そして結果がこれです。予想以上に正確でした。

カレ一ライスでもビうですか?

ビの食品が最も近いですか?
だ いず [ 納豆類 ] 糸…
だ いず [ 納豆類 ] 挽…
だ いず [ 納豆類 ] 五…
だ いず [ 納豆類 ] 寺…

カ口リーは合計194kca|です!
カ口リーは合計421kca|です!
カ口リーは合計621kca|です!

カ口リーは合計892kca|です!

実はコマンド実行以前にtesseractが使うフォントデータにつき結構前準備をしました。これについては次回。

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s