【5月15日 AFP】米マイクロブログのツイッター(Twitter)に投稿されたツイート(投稿)内容だけを基に、ユーザーの年齢と性別を導き出せるオンラインプログラムを、オランダの大学の研究者らが開発した。

 オランダ東部の都市エンスヘーデ(Enschede)近郊にあるトウェンテ大学(University of Twente)の研究者らは、ツイッターユーザー約3000人が「ツイート」した140文字以内の投稿内容のデータに基づき、特定の性別のさまざまな年齢に対応する単語および単語列のデータベースを作成した。

 同大学の博士課程学生(コンピューター科学)で、プロジェクト参加者の1人、ドン・グエン(Dong Nguyen)氏によると、オンラインプログラムにユーザー名を入力するだけで、最近200件の投稿内容がデータベースと比較され、ユーザーの年齢と性別が推定されるという。

■男女の違いは型どおり

 グエン氏は「男女の違いは、実のところ非常に型どおりだ」と話す。「男性はサッカーを話題にするし、女性ならネイルについてだ」

 また、「年齢に関しては、若いユーザーほど、自分自身のことを話題にすることが多く、顔文字も多く使用する。一方、年齢が高くなるほど、長い単語と文を使用する傾向がある」という。

 オンラインプログラムは今のところ、オランダ語で書かれたツイートしか解析できず、年齢の誤差限界は4年。誤差はユーザーの年齢が低いほど小さく、年齢が高くなるほど大きくなる。

 グエン氏は「大体35歳以上のユーザーは、使用する言語にあまり大きな違いが見られなくなる。15歳と20歳のユーザーの間の違いのほうが、45歳と55歳のユーザーの間の違いよりも大きい」と述べている。

 トウェンテ大学の研究者らは、オランダ語以外の言語やフェイスブック(Facebook)などの人気の交流サイトに対応できるようにプログラムを更新することを検討している。(c)AFP