【6月3日 CNS】シンガポールで働くある外国人スタッフは、西側の人工知能(AI)大規模言語モデルに苦労した末、現地語に対応した言語モデルへと乗り換えた。彼が口にする「シーライオン」は、水族館にいるかわいらしい海獣のことではない。シンガポール政府が巨額を投じて進める国家級の大規模言語モデルプロジェクト「SEA-LION」だ。

そして、このプロジェクトの基盤モデルになっているのが、中国の阿里巴巴集団(アリババグループ、Alibaba Group)が開発した「通義千問(Tongyi Qianwen)」である。4月15日時点の最新の東南アジア言語モデルランキングで、この中国製モデルは首位を維持しており、インドネシア語、マレー語、タイ語、ベトナム語などのランキングでもトップに立っている。

ただ、この出来事には少し皮肉な面もある。東南アジアの7億人にサービスを提供することを目指したこの国家級AIプロジェクトは、当初は西側モデルを使っていた。しかしその結果、ベネズエラを東南アジア諸国連合(ASEAN)加盟国に挙げるような初歩的な誤りまで起きた。この荒唐無稽な出来事は、より深い問題を浮き彫りにした。東南アジアの7億人が、AIの「言語の壁」に閉じ込められていたということだ。

東南アジアには1200を超える現地語がある。しかし主流モデルにおける東南アジア言語のコンテンツ比率は、一時わずか0.5%にとどまっていた。例えば、かつて話題となった米国のオープンソースモデル「Llama2」は、東南アジア言語にはほとんど対応できなかった。インドネシア語、タイ語、ミャンマー語のような非ラテン文字系の言語を処理する効率は、驚くほど低かった。

現地の人びとは、英語のコーパスを中心に訓練された西側モデルでは限界があると気づいた。シンガポール政府は先陣を切り、2023年12月に7000万シンガポールドル(約86億9690万元)を投じ、国家級のマルチモーダル大規模モデル計画を始動した。狙いは、東南アジア独自の言語モデルを発展させることだった。

突破口の鍵は、トークンにある。トークンとは、AIが情報を処理する際の最小単位だ。分かりやすく言えば、AIがある言語を正確に理解できるかどうかは、訓練時にどれだけ多くのデータを与えられたか、つまりトークン量に左右される。西側モデルが現地に合わなかった根本的な理由は、東南アジア言語のトークンが十分に与えられていなかったことにある。

そもそも、言語は文化と結びついており、表現のニュアンスも大きく異なる。例えばフィリピン語には、ある言葉を遠回しに表現する言い方がある。学習データが不足していれば、大規模モデルはその本当の意味を読み取ることができない。転機となったのは、重要な技術的方向転換だった。2025年11月、SEA-LIONはLlamaアーキテクチャの使用をやめ、中国のアリババ「通義千問」を最新バージョンの旗艦基盤モデルとして採用すると発表した。

同モデルが公式唯一の旗艦基盤モデルに選ばれたのは、実力が高かったためだ。事前学習段階で使われたトークン数は36兆に達し、世界119の言語と方言をカバーしている。これは、後から東南アジア言語を補習したのではなく、基礎部分からアジアの言語環境を理解していることを意味する。インドネシア語やマレー語などの文字を認識するだけでなく、文法構造も土台から理解できる。

さらに、中国企業は事後学習の段階にも特別に参加し、SEA-LIONに対して東南アジア言語のトークンを1000億以上追加した。評価段階では、開発チームが母語話者を招いてデータ品質の評価に参加させ、外国人スタッフ向けには母語対応のチャットボットも導入した。効果はすぐに表れた。2025年11月、中国製大規模モデルを基盤としたSEA-LION V4が発表されると、東南アジア言語モデルランキングで首位に立った。

この方向転換は、世界規模で起きている「トークンの大移動」も映し出している。世界のAIモデルAPI集約プラットフォーム「OpenRouter」のデータによると、2026年4月第1週、中国のAI大規模モデルの週間呼び出し量は5週連続で米国を上回り、直近1週間では12兆9600億トークンに達した。これは米国の約4.27倍に当たる。さらに注目すべきは、世界の呼び出し量上位6モデルがすべて中国モデルだったことだ。

中国発のトークンの海外展開は、突然現れたように見えるが、実際には長年の蓄積が実を結んだ必然の結果だ。国研新経済研究院の創設院長、朱克力(Zhu Keli)氏は取材に対し、トークンの海外展開は本質的に、中国のスマート計算力、モデル技術、スマートサービス体系のグローバル展開であり、中国のAI産業が国内応用から国際競争へ進む重要な象徴だと述べた。長期的に見れば、中国の新たな質の生産力を対外開放する重要な道筋であり、世界に向けたスマート価値の新たな輸出構造を着実に築いていくものだという。

言葉が通じないことで生まれていたデジタルの壁は、今、トークンによって少しずつ打ち破られつつある。その第一歩を、中国AIが踏み出している。(c)CNS-三里河中国経済観察/JCM/AFPBB News