WindowsでオープンソースOCRを使ってみた Part.1

インスタントメッセージアプリのキャプチャー画像ファイルからテキストを抜き出す必要があったので久々にオープンソースOCR Tesseract を使ってみました。WindowsでCygwin版使用。

マスターはここですがCygwinの”setup-x86_64 -qP tesseract-ocr”コマンドでもインストールできます。

tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

you’ll need to improve the quality of the image you are giving Tesseract.

今回は英語データでフォントは黒と青でしたがbackgroundがグレーと薄緑と2つあったので全テキストデータを一発で抜き出すには以下のコマンドラインのような前処理が必要でした。おそらく不要なオプションもあると思います。^^; 大体90%ぐらいの正確さでした。

magick convert 画像ファイル名 -colorspace gray -type grayscale -contrast-stretch 0 \
  -negate -lat 15x15+5% -contrast-stretch 0  -fill "white" -opaque none \
  +matte -deskew 40% -sharpen 0x1 png:- |
    tesseract stdin stdout


Clean Up a Document for Faxing/OCR – ImageMagick

make the background white and improve the clarity of the text


Flameeyes/unpaper: Forked unpaper repository

enhance the quality of scanned pages before performing optical character recognition (OCR)



