商標画像の類似検索システム

杉田文香

 

 従来は、画像情報に対して人間がテキストで索引付けし、キーワードに基づいて希望する情報を検索するという手法がとられてきた。しかし、マルチメディア情報が大量になると索引付けが困難になるなどの問題点がある。それに対し、画像情報そのものをキーとして、それに類似した他の情報を検索する手法が類似画像検索である。一方商標は「事業者が自己の取り扱う商品・サービスを他人の商品・サービスと区別するために、その商品・サービスについて使用するマーク(標識)」のことをいう。現代の企業にとってブランド力、その元となるマーク(標識)は企業のイメージを背負って立つものといっても過言ではない。商標を出願するには事前に先行商標の調査を行う必要がある。これは、商標を登録するにあたり、無駄な出願や商標権の侵害を防ぐ点において不可欠な過程である。現在特許庁で使用されている検索システムは、キーワードで検索するものである。以上のことより、登録したい商標と類似の商標をキーワードではなく直接画像で検索することが出来れば、非常に有効な技術となると考えた。そこで本研究では商標画像を対象とした類似画像検索システムを構築することを目的とする。また、それに伴って関連する画像処理の手法を分析し、その有用性についても検討することも目的とした。

 本システムは<前処理><特徴量抽出><クラスタリングとパターンマッチング>の3つに分かれている。前処理では、画像の雑音除去、大きさの正規化を行った。特徴量抽出ではラベル数、面積、周囲長、絶対最大長、重心、距離、円形度、周辺分布特徴、メッシュ特徴量、ペリフェラル特徴量を原画像、白黒反転画像、エッジ画像において抽出する。クラスタリングではNN法を用い、ユークリッド距離を用いた最小距離に基づくパターンマッチングを行った。その結果、認識率は97%となる検索結果を得ることが出来た。また、本システムを構築する上でエッジ画像のクラスタリングに偏りが出来やすいことがわかった。クラスタリングの類似の基準を上げる(細かく分ける)と、クラスタの数が増え、類似している画像が含まれず、クラスタリングの意味がなくなる。一方類似の基準を下げる(大きくまとめる)と、類似していない画像(ノイズ)も含まれてしまう。エッジ画像は面積などの黒画素の数に依存する特徴量の場合、分散が小さく狭い範囲の特徴分布となるので、安定して図形の特徴を得ることが困難である。特徴量としての問題点としては、円形度が周囲長と面積に依存するので本来の円形度の意味を持ちにくくなるということが分かった。前処理の問題としては、画像の大きさを正規化する際、特に拡大することによって原画像のような滑らかな図形を維持することが難しい。それに伴い正確な特徴量抽出も難しくなる。これは雑音除去の膨張・収縮処理における細い線で構成された図形に対しても同じことが言えた。