WindowsでオープンソースOCRを使ってみた Part.1

インスタントメッセージアプリのキャプチャー画像ファイルからテキストを抜き出す必要があったので久々にオープンソースOCR Tesseract を使ってみました。WindowsでCygwin版使用。

マスターはここですがCygwinの”setup-x86_64 -qP tesseract-ocr”コマンドでもインストールできます。

tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

you’ll need to improve the quality of the image you are giving Tesseract.

今回は英語データでフォントは黒と青でしたがbackgroundがグレーと薄緑と2つあったので全テキストデータを一発で抜き出すには以下のコマンドラインのような前処理が必要でした。おそらく不要なオプションもあると思います。^^; 大体90%ぐらいの正確さでした。

magick convert 画像ファイル名 -colorspace gray -type grayscale -contrast-stretch 0 \
  -negate -lat 15x15+5% -contrast-stretch 0  -fill "white" -opaque none \
  +matte -deskew 40% -sharpen 0x1 png:- |
    tesseract stdin stdout


Clean Up a Document for Faxing/OCR – ImageMagick

make the background white and improve the clarity of the text


Flameeyes/unpaper: Forked unpaper repository

enhance the quality of scanned pages before performing optical character recognition (OCR)



One thought on “WindowsでオープンソースOCRを使ってみた Part.1

Leave a Reply

Fill in your details below or click an icon to log in: Logo

You are commenting using your account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s