機械学習における特徴量類似性と認識精度に関する検討 Study on feature similarity and recognition accuracy in machine learning 藤岡 優也 ‡ 三好 力 ‡ Yuya Fujioka Tsutomu Miyoshi 1. はじめに 機械学習における教師あり学習では人手によるラベル付 きデータを多数学習に用いるほど識別率が高くなることが 知られている[1]。しかし、ラベル付きデータは専門家の 知識や人の手間などがかかり、高コストである。このコス トを削減し、識別器の性能を向上させることは機会学習に おいて重大な課題の一つである。ラベル付きデータが高コ ストである一方で、ラベルなしデータの場合は低コストで 大量に獲得できる場合が多い。たとえば鳥の鳴き声の音声 データのであれば、森の中に録音機を設置するだけで容易 に獲得できる。そこで本研究では特徴ベクトル間の類似性 に着目し、少数のラベル付きデータから多数のラベルなし データのクラスを特徴ベクトル間距離によって決定して訓 練データとして用いる手法を検討する。この方法に対して 1合成データの平均ベクトルからの距離の閾値が近いほど 識別率が向上するのか2訓練データに加える合成データの 数が多いほど識別率が向上するのか3識別率が向上する距 離尺度はあるのか4識別率が向上する特徴抽出法はあるの か等の検討が求められる。3に対しては特徴量間の距離尺 度についてバタチャリヤ距離の平方根[2]などの多くの距 離が提案されているが、本研究では最も広く使われており、 直感的に理解がしやすいユークリッド距離を距離尺度とし て用いる。4については広く使われており、事前実験で性 能が高かったメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients : 以下 MFCC とする)を用いている。 本研究では類似性を測る尺度とこの方法によって決定し た訓練データの数の関係性をニュージーランドに生息する 野鳥の鳴き後のデータを例に、1を調べるため、特徴量の 類似性として最適な距離が存在するのかどうかを検討する 実験と、2に対応する訓練データの数と識別率の推移の関 係を検討するための実験を行った。