【7月27日 Xinhua News】画像検索や動画解説、詩歌の作成や文字情報の補充。さらには音声識別や2カ国語翻訳まで。中国上海市で今月開かれた2021世界人工知能大会(WAIC2021)で、仮想キャラクター「小初」が画像、文字、音声のモーダル変換と生成を披露した。

「小初」のこれらの能力は、クロスモーダル汎用(はんよう)AIプラットフォーム「紫東太初」によりもたらされた。同プラットフォームは中国科学院自動化研究所が開発し、国産の基盤ソフトウエアとハードウエアをベースにしている。一つのビッグモデルだけで視覚、テキスト、音声による複数シーンに対するAIの理解能力を「鍛える」ことができる。

 同研究所の徐波(Xu Bo)所長は、ビッグデータとビッグモデル、マルチモーダルの組み合わせが、単一モデルが単一タスクをこなすという従来のAI開発の概念を変えると指摘。マルチモーダル・ビッグモデルは今後、異なる分野の共通プラットフォーム技術となり、汎用(はんよう)AIへの重要な道筋を模索すると語った。

 徐氏は「紫東太初は画像とテキスト、音声という3種類のモーダルの統一表現を実現した。画像から音声の生成、音声から画像の生成ができる。動画のナレーション、音声放送、見出しや要点の作成、ポスター制作などより多元的なシーンでのAI応用を開拓する」と述べた。

 中国科学院自動化研究所は、中国語プレトレーニングモデルと音声プレトレーニングモデル、視覚プレトレーニングモデルを構築。クロスモーダルによる意味的連想を通じ、3モーダルプレトレーニングビッグモデルを構築した。(c)Xinhua News/AFPBB News