WindowsでオープンソースOCRを使ってみた Part.1

インスタントメッセージアプリのキャプチャー画像ファイルからテキストを抜き出す必要があったので久々にオープンソースOCR Tesseract を使ってみました。WindowsでCygwin版使用。

マスターはここですがCygwinの”setup-x86_64 -qP tesseract-ocr”コマンドでもインストールできます。

tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

you’ll need to improve the quality of the image you are giving Tesseract.

今回は英語データでフォントは黒と青でしたがbackgroundがグレーと薄緑と2つあったので全テキストデータを一発で抜き出すには以下のコマンドラインのような前処理が必要でした。おそらく不要なオプションもあると思います。^^; 大体90%ぐらいの正確さでした。

magick convert 画像ファイル名 -colorspace gray -type grayscale -contrast-stretch 0 \
  -negate -lat 15x15+5% -contrast-stretch 0  -fill "white" -opaque none \
  +matte -deskew 40% -sharpen 0x1 png:- |
    tesseract stdin stdout

ImageMagickによる前処理は以下スレッドを参考にしました。

Clean Up a Document for Faxing/OCR – ImageMagick

make the background white and improve the clarity of the text

自炊データの場合以下使えそう。

Flameeyes/unpaper: Forked unpaper repository

enhance the quality of scanned pages before performing optical character recognition (OCR)

日本語については次回。。

Advertisements

One thought on “WindowsでオープンソースOCRを使ってみた Part.1

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s