Google製の多言語OCRエンジンを搭載した「Softi FreeOCR」

ocr.png
Softi FreeOCR」は、スキャナや画像ファイルから読み込んだ画像上の文字を認識してテキストデータに変換するOCR(Optical Character Recognition:光学文字認識)ソフトだ。Googleがオープンソースで開発しているTesseract free OCR engineという認識エンジンを使用している。他言語に対応しており、今の所英語、フランス語、イタリア語、オランダ語、スペイン語、ドイツ語の認識が可能。日本語には対応していないが、Googleのことだから今後対応してくれるかも知れないぞ。とりあえず、外国語の教科書をスキャンして認識し、Googleの翻訳に突っ込むといった使い方にでもどうぞ。

ocr01_t.png
本体には英語のデータしか同梱されていない。他の言語を認識するには、http://code.google.com/p/tesseract-ocr/に行って、ダウンロードリンクの「Show all」からTesseractOCRプロジェクトのファイル一覧ページを開こう。

ocr02_t.png
言語定義ファイルへのリンクがあるので、認識させたい言語のリンクをクリックしてダウンロードする。.tar.gz形式の解凍できるアーカイバで解凍しよう。

ocr03_t.png
Softi FreeOCRをインストールして起動したら、メニューの「OCR」→「Open Language Folder」を実行。

ocr04_t.png
言語ファイルのフォルダが表示されるので、先ほどダウンロードしたアーカイブの中の言語ファイルをコピーすれば、言語定義ファイルのインストールが完了する。

ocr05_t.png
一旦Softi FreeOCRを再起動して、「OCR Language」の欄で言語を選択しよう。

ocr06_t.png
「Scan」でスキャナから画像を読み込むか、「Open」で画像ファイルを読み込む。

ocr07_t.png
「Start OCR」を押せば、文字認識が始まる。

ocr08_t.png
右側に認識結果が表示される。ドイツ語のウムラウトなどは文字化けして表示されるが、メニューの「File」→「SaveText」で保存すれば正しく表示できるようになる。

ocr09_t.png
保存したテキストは、Unicode対応のテキストエディタか、ブラウザなどで表示すれば、正しく表示される。Googleの言語ツールのページで、翻訳テキスト入力欄にコピペして、翻訳してみよう。

ocr10_t.png
見事にドイツ語から英語に翻訳できたぞ。

2007年07月25日 06時56分
©教えて君.net All Rights Reserved.