【11月12日 Xinhua News】新華社と中国の検索エンジン大手、捜狗(Sogou)は7日、開催中の第5回世界インターネット大会で、世界初の合成ニュースキャスター「AI合成キャスター」を発表した。最新の人工知能(AI)技術を駆使し、本物のキャスター同様の報道能力を有する「分身」を「複製」したもので、世界のAI合成分野における技術革新とブレークスルーを実現。ニュース報道分野でリアルタイムの音声付き映像とAI、実在人物イメージを合成する先駆けとなった。

 「AI合成キャスター」は実在するキャスターのニュース報道映像から、声や唇の動き、表情の動きなどの特徴を抽出し、音声や唇の動き、表情を合成した上でディープラーニングなどの技術と結び付け、モデリング・トレーニングを経て完成した。この技術は、入力した中国語と英語テキストから、対応する内容の映像を自動生成でき、映像の音声や表情、唇の動きも自然に一致した状態を保つことで、実在するキャスターと変わらない情報伝達効果を示している。

 キャスター 

 皆さんこんにちは。私は新華社キャスターの邱浩(きゅう・こう)です。私は今、第5回世界インターネット大会の会場にある捜狗ブースに来ています。私の後ろの画面の中にいるキャスターがわかりますか。私にそっくりですが、私ではありません。

 キャスターにとって、自分が以前報道したニュース画面を見るのは日常茶飯事ですが、今日のこのキャスターが話している言葉を、私は一言も話したことがないのです。だから「彼が私ではありません」と言いました。では、いったい誰なのでしょう?彼はわれわれ新華社と捜狗が共同開発した世界初のAI合成キャスターです。一体どんな特徴があるのでしょうか?現場にいるスタッフに紹介してもらいましょう。

  キャスター

 画面の中にいるバーチャルな自分を見るのは、やはり不思議ですね。このバーチャル技術には多くのハイテク技術が使われているそうですが、ちょっと紹介していただけませんか?

  捜狗スタッフ

 私たちが今、画面上で見ているこのAIバーチャルキャスターは、われわれ捜狗と新華社が共同開発し、今回の世界インターネット大会で発表した製品です。このバーチャルキャスターは新華社からキャスター、つまりあなたの声や映像素材を提供してもらい、それらの素材から捜狗のAI技術「搜狗分身」によってあなたの顔や声の特徴を抽出し、その後、顔認証や顔のモデリング、音声合成、さらにディープラーニングなどのAI技術を駆使し、このような製品を作り上げたのです。機能についてですが、テキスト原稿を入力すると、われわれのバーチャルAIキャスターがリアルタイムで音声付き映像コンテンツを生成してくれます。

 現在は発展段階にあるので、AIバーチャルキャスターはまだ補助的役割が中心となっています。ある特定のシチュエーション、例えば自然災害などの突発的な事件が発生し、キャスターも報道部門のスタッフも全員が現場に向かっているような、なすすべがない状況で、AIバーチャルキャスターの力を借り、このキャスターと背景を使ってニュース現場の状況をリアルタイムで発信することができます。そうやってわれわれが協力して発表するニュース映像コンテンツが、視聴者に与える印象も極めて大きくなると思います。

  キャスター

 先ほどのスタッフの紹介からわかるように、このバーチャルキャスターは実際には多くの先進的なAI技術を集積したものであり、こうした技術の支えがあってこそ、私たちのニュースがさらにタイムリーなものになるのです。同時に、バーチャルキャスターは、われわれキャスターにさらなる挑戦を示してもいます。本物のキャスターとして、合成キャスターと向き合った時には、受けて立つ準備はできています。(c)Xinhua News/AFPBB News