【12月25日 CNS】中国のIT大手「捜狗(Sogou)」が業界初となる口唇形状認識の開発に成功した。音声認識に頼らず、話す人の唇の動きを画像認識することによって会話の内容を解読する。

 口唇形状認識は画像認識と自然言語処理が一体となった技術。ディープラーニング(深層学習)を応用し、中国語の口の動きを数千時間かけて学習させた。認識の正確率は60%以上で、米グーグル(Google)による英語の口唇形状認識システムの正確率50%を上回った。12月上旬に中国・浙江省(Zhejiang)で行われた「世界インターネット会議(World Internet Conference)烏鎮サミット」で捜狗の口唇形状認識が初めて公開され、注目を集めた。

 今後は、音声認識と画像認識技術を補助する「マン・マシン・インタフェース」の一つとして、さまざまな場面で広く応用されるだろう。周囲の雑音が大きい場合、公共の場など声を発することができない場合、会話の内容を他人に知られたくない場合など、日常生活でも実用性が高い。また、マイクの付いていない監視カメラにも応用できる。さらに、障害がある人や高齢者の意思疎通にも活用できる。

 人工知能技術の発展に伴い、近い将来、口唇形状認識も音声認識や画像認識と同じように我々の生活に欠かせないものになるかもしれない。(c)CNS/JCM/AFPBB News