ヴェトナム語をOCRで読み込む

ヴェトナム語に対応している日本のOCRソフトが殆どないため、海外のフリーのOCRソフトでヴェトナム語を認識させる方法を簡単にまとめました。

今回はSofti FreeOCRというフリーのOCRソフトを使用します。このソフトはGoogleの開発しているTesseractという（基本的に欧文専用の）OCRエンジンを利用しており、ヴェトナム語用データが存在します。

Softi FreeOCRを動作させるために必要なもの

Softi FreeOCRのVer.2.5¹を前提に必要なものを挙げます。

まず、OSの要件として、Windows 2000、2003、XP、Vistaのいずれかが必要です。マシンスペックとしては、Pentium Processorが200MHz以上、メモリーが256MB以上、10MB以上のディスクの空きとSVGAをサポートするディスプレーが必要です。また、.Net Framework 2.0以上も必要です。

もちろん、Softi FreeOCRとVietnamese language data packをダウンロードしておかなければなりません。これらは下記にて提供されています。

FreeOCR.net V2.5 Free PDF OCR Software … このページにダウンロードのリンクがあります。

tesseract-ocr … tesseract-2.01.vie.tar.gzというファイルがVietnamese language data packです。

インストール

.Net Framework 2.0の導入

.Net Framework 2.0をインストールします。私の環境では.Net Framework 1.1だったため、このソフトウェアの導入が必要でした。

.Net Frameworkは、Microsoftのアプリケーション開発・実行環境です。Windows Updateの「カスタム」の「追加選択（ソフトウェア）」からインストールできます。

.Net Framework 2.0にはService Pack 1が存在しているため、この更新版のインストールも実施しておいた方がいいでしょう。

Softi FreeOCRの導入

.Net Framework 2.0のインストールが完了したらSofti FreeOCRをインストールします。

Softi FreeOCRのサイトからファイルをダウンロードします。
ファイルを実行します。
使用許諾を承認します。
インストーラーのガイドに沿ってインストール。

インストール手順はごく単純で難しいパラメーター設定はありません。

Softi FreeOCRのセットアップ

Softi FreeOCRのインストールが完了したら、セットアップを行います。これもまた非常に簡単です。

tesseract-2.01.vie.tar.gz（Vietnamese language data pack）を解凍しておきます。gzip形式とtar形式の解凍できるツールで解凍してください。解凍後、以下のファイルが生成されていればOKです。
- vie.DangAmbigs
- vie.freq-dawg
- vie.inttemp
- vie.normproto
- vie.pffmtable
- vie.unicharset
- vie.user-words
- vie.word-dawg
Softi FreeOCRを起動します。
メニューの「Settings」をクリックして、「Open Language Folder」を選択します。
言語フォルダー（C:\WINDOWS\tessdata）が開いたら、Vietnamese language data packのファイルを言語フォルダーにコピーします。
言語フォルダーを閉じて、Softi FreeOCRを一旦終了して再起動します。
Softi FreeOCRを再起動すると、「OCR Language」の選択項目に「vie」が追加されていればセットアップ完了。

Softi FreeOCRでデータを認識させる操作方法はかなりシンプルなので割愛します。スキャナー読み込み、画像ファイル、PDFファイルの読み込みが可能です。また、コントラストと輝度はSofti FreeOCRで調整が可能です。

Softi FreeOCRを動かしてみた感想

ヴェトナム語でSofti FreeOCRを動かしてみた感想は以下の通り。ちなみに動作確認したのはNghiên Cứu Lịch Sửの目次と本文の一部です。

まずはSofti FreeOCR本体での使用感について。

解析が必要なエラーが頻発する。
傾き補正機能はないため、細かいレベルでの補正は事前に済ませておかなければなりません。
スキャナーで紙面を取り込んで認識させる際には、グレースケールの400dpiあたりでよく認識するようです。

1つめの項目は素人にはお手上げでしょう。私の環境では、特にスキャナ取り込み画像やbitmap形式のファイルからの読み込みであったり、広めの領域を選択した場合に発生するようです。スキャナ取り込み画像をファイルとして保存し、Tiff形式に変換して自機で調整しつつ読み込むしかないようです。

次に、ヴェトナム語の認識について気になったところ。

何故か大文字で認識される文字がある。
フォントによってはcircumflex（^）とthanh sắcの組み合わせとthanh ngãの区別が付きにくいらしく、かなりの頻度で誤認識される。（例）「ấ」と「ã」。

開発チームお薦めの Times New Roman、 Arial、 Verdana、 Courier New fonts では、かなり認識率が良いようですが、Nghiên Cứu Lịch Sửはフォントがとりどりなので、どうしても誤認識が多くなるようです。

もちろん全体的な認識率はそこそこ良いので、印刷物を取り込む際には手入力よりも作業負担の軽減がかなり期待できそうです。

¹ 2009/2現在、 Ver.2.6 が最新。

Tags:
Etusho 2008-12-08

ブログ Blog