ヴェトナム語をOCRで読み込む

ヴェトナム語に対応している日本のOCRソフトが殆どないため、海外のフリーのOCRソフトでヴェトナム語を認識させる方法を簡単にまとめました。

今回はSofti FreeOCRというフリーのOCRソフトを使用します。このソフトはGoogleの開発しているTesseractという(基本的に欧文専用の)OCRエンジンを利用しており、ヴェトナム語用データが存在します。

Softi FreeOCRを動作させるために必要なもの

Softi FreeOCRのVer.2.51を前提に必要なものを挙げます。

まず、OSの要件として、Windows 2000、2003、XP、Vistaのいずれかが必要です。マシンスペックとしては、Pentium Processorが200MHz以上、メモリーが256MB以上、10MB以上のディスクの空きとSVGAをサポートするディスプレーが必要です。また、.Net Framework 2.0以上も必要です。

もちろん、Softi FreeOCRとVietnamese language data packをダウンロードしておかなければなりません。これらは下記にて提供されています。

FreeOCR.net V2.5 Free PDF OCR Software … このページにダウンロードのリンクがあります。

tesseract-ocr … tesseract-2.01.vie.tar.gzというファイルがVietnamese language data packです。

インストール

.Net Framework 2.0の導入

.Net Framework 2.0をインストールします。私の環境では.Net Framework 1.1だったため、このソフトウェアの導入が必要でした。

.Net Frameworkは、Microsoftのアプリケーション開発・実行環境です。Windows Updateの「カスタム」の「追加選択(ソフトウェア)」からインストールできます。

.Net Framework 2.0にはService Pack 1が存在しているため、この更新版のインストールも実施しておいた方がいいでしょう。

Softi FreeOCRの導入

.Net Framework 2.0のインストールが完了したらSofti FreeOCRをインストールします。

  1. Softi FreeOCRのサイトからファイルをダウンロードします。
  2. ファイルを実行します。
  3. 使用許諾を承認します。
  4. インストーラーのガイドに沿ってインストール。

インストール手順はごく単純で難しいパラメーター設定はありません。

Softi FreeOCRのセットアップ

Softi FreeOCRのインストールが完了したら、セットアップを行います。これもまた非常に簡単です。

  1. tesseract-2.01.vie.tar.gz(Vietnamese language data pack)を解凍しておきます。gzip形式とtar形式の解凍できるツールで解凍してください。解凍後、以下のファイルが生成されていればOKです。
    • vie.DangAmbigs
    • vie.freq-dawg
    • vie.inttemp
    • vie.normproto
    • vie.pffmtable
    • vie.unicharset
    • vie.user-words
    • vie.word-dawg
  2. Softi FreeOCRを起動します。
  3. メニューの「Settings」をクリックして、「Open Language Folder」を選択します。
  4. 言語フォルダー(C:\WINDOWS\tessdata)が開いたら、Vietnamese language data packのファイルを言語フォルダーにコピーします。
  5. 言語フォルダーを閉じて、Softi FreeOCRを一旦終了して再起動します。
  6. Softi FreeOCRを再起動すると、「OCR Language」の選択項目に「vie」が追加されていればセットアップ完了。

Softi FreeOCRでデータを認識させる操作方法はかなりシンプルなので割愛します。スキャナー読み込み、画像ファイル、PDFファイルの読み込みが可能です。また、コントラストと輝度はSofti FreeOCRで調整が可能です。

Softi FreeOCRを動かしてみた感想

ヴェトナム語でSofti FreeOCRを動かしてみた感想は以下の通り。ちなみに動作確認したのはNghiên Cứu Lịch Sửの目次と本文の一部です。

まずはSofti FreeOCR本体での使用感について。

  • 解析が必要なエラーが頻発する。
  • 傾き補正機能はないため、細かいレベルでの補正は事前に済ませておかなければなりません。
  • スキャナーで紙面を取り込んで認識させる際には、グレースケールの400dpiあたりでよく認識するようです。

1つめの項目は素人にはお手上げでしょう。私の環境では、特にスキャナ取り込み画像やbitmap形式のファイルからの読み込みであったり、広めの領域を選択した場合に発生するようです。スキャナ取り込み画像をファイルとして保存し、Tiff形式に変換して自機で調整しつつ読み込むしかないようです。

次に、ヴェトナム語の認識について気になったところ。

  • 何故か大文字で認識される文字がある。
  • フォントによってはcircumflex(^)とthanh sắcの組み合わせとthanh ngãの区別が付きにくいらしく、かなりの頻度で誤認識される。(例)「ấ」と「ã」。

開発チームお薦めの Times New Roman、 Arial、 Verdana、 Courier New fonts では、かなり認識率が良いようですが、Nghiên Cứu Lịch Sửはフォントがとりどりなので、どうしても誤認識が多くなるようです。

もちろん全体的な認識率はそこそこ良いので、印刷物を取り込む際には手入力よりも作業負担の軽減がかなり期待できそうです。

1 2009/2現在、 Ver.2.6 が最新。

ヴェトナムの略語覚書

現代のヴェトナム語はクォック・グゥというローマ字表記で記述されています。声調記号の存在もあって、慣れればかなり読みやすい表記法だと思っています。

ただし、 略語が頻出する のが困りどころ。過去、ヴェトナム史を勉強し始めた頃、私は略語が出てくる度に頭を抱えたものです。

そういうことで、出会す可能性の高い略語をメモしました。かなり自分用です。

歴史関連の略語(割と一般的)

  • VN … ヴェトナム(Việt Nam)の略称。
  • VNĐ … ヴェトナムの通貨「ドン」。ちなみに“USĐ”はアメリカドル。
  • TP … 市(Thành phố)。
  • TP.HCM … ホーチミン市(Thành Phố Hồ Chí Minh)。人名の方を略することはまずない。また、ハノイ市(Thành Phố Hà Nội)をTP.HNと略すこともあるけれども、“TP.HCM”よりは一般的ではないと思う。
  • UBND … 人民委員会(Uỷ ban nhân dân)。
  • NXB … 出版社(Nhà xuất bản)。
  • GS. … 教授(Giáo sư)。
  • TS. … 博士(Tiến sĩ)。
  • Bộ VH,TT&DL … 文化スポーツ観光省(Bộ Văn hóa Thể thao và Du lịch)。“Bộ VH-TT-DL”と表記されたり、更に“Bộ VH-TT”と略されることもある。

史学関連の略語

  • ĐVSKTT … 『大越史記全書』(Đại Việt Sử Ký Toàn Thư)。

ヴェトナム語以外の史学関連の略語

  • BEFEO … “Bulletin de l’Ecole Francaise d’Extreme-Orient”の略。フランス遠東学院の機関誌。

冨田健次『ベトナム語 はじめの一歩まえ』

出版情報

Image affbanner
著者冨田健次
出版社DHC
出版年2001
ISBN4-88724-224-7
価格¥1300(2001年)

内容

ヴェトナム語テキストではなく、エッセイ集兼単語帳というべき本。その頁の欄外に出てきた単語・語句とヴェトナム語の綴りが付されている。

コメント

エッセイの内容も、単語のレベルも全くの初学者には厳しいような印象です。本文2頁目にして「呼称詞」が出てきますから(笑)。はじめの一歩あとな内容かと。

更新履歴

2008/01/05 更新

アフィリエイト対応。

2007/04/29 更新

リニューアルに伴い、データをコンバートしました。