図形認識の研究



平沼祥子

人間は1枚の画像から、実に多くのことがらを認識する能力を持っている。たとえ ば観光地の写真であれば、風景や建物などから場所を知ることができるし、あるいは 文字などの場合、大きく変形したり、走り書きの文字であっても認識することができ る。このような人間の高度な画像認識能力を機械あるいは計算機によって実現させる 研究には多くの研究者が携わってきた。これらの研究の成果として、人間の画像認識 能力の極めて限定された一部の機能は、計算機によって非常に高速に実現できるよう になった。けれども一方では画像の処理と認識は非常に困難な問題であり、将来もそ うあり続けるであろうと考えられる。人間と同等な画像認識能力を計算機によって実 現させるためには人間の脳のメカニズムについてさらに詳細に知る必要があるからで ある。画像認識には主に画像の入力、入力パターンのノイズ除去、拡大・縮小等を行 う前処理、前処理後のパターンに対しそのパターンを表現する特徴を抽出する特徴抽 出、抽出した特徴と記憶してある標準パターンの特徴と比較して一番近いものを探す マッチングの4つの過程がある。しかしこれらには曖昧な点も多く、たとえば入力方 法や特徴の定義、標準パターンと入力パターンの距離の定義、2つの標準パターンの 間に入力パターンが位置する場合にはどうするのか等、さまざまな問題点がある。人 間の画像処理過程の詳細は現在のところ解明されていないので、これらに対する絶対 的な答は存在しない。そのため認識対象によって、場当たり的に必要なアルゴリズム を人間が与えているのが現状である。
そこで現在用いられている画像認識の手法のいくつかを用いて、定義の与えやすい 図形を対象とした認識システムを構築し、図形を認識していく上での曖昧な点、それ ぞれの手法の特徴などについて考察していきたいと考えた。 本システムでは2値画像中の任意の一つあるいは複数の図形について、それぞれ前 処理の段階ではラベル付けや輪郭線追跡、マッチングの段階ではテンプレートマッチ ング等の異なる認識の手法を用いて認識作業を行ってみた。その結果、特徴量に幅を 持たせたテンプレートマッチングの場合と特徴量に幅のない方向コードの変化による 認識の場合では、幅を持たせた方がいびつな形でも認識しやすいことが分かった。し かし幅を持たせた場合は標準パターンに合わせるための正規化作業を適切に行わない と、画像が描かれた部分や大きさによって正しく認識されないことがあると分かっ た。また特徴量に幅を持たせていない場合には、形がいびつであると認識されないこ とがあり、その場合は特徴抽出の段階で適切な特徴が取り出されていないということ が考えられる。計算機に与えた標準パターンの特徴量は数値であるが、それに近いも のを探すという点で曖昧さが生まれる。システムを構築していく際に、何をもって近 いとするのか、一致しなくてはいけないのか、それともいくつかある内の最も近いも のなのかという問題点が生じた。ある意味では当然の結論であるが、より正確な認識 システムを構築するためには従来の認識の手法とは別に、計算機に推論や学習の機能 を持たせる必要があるのではないのかと考えられる。