ゲーム開始時、DQNは人間のように参考にできる過去の経験を持っていない。例えば人間ならば、画面上にラケットとボールがあれば、一方でもう一方を叩く要素があるゲームだということが、あらかじめ分かるだろう。だがDQNはキーを適当に押しながら、得点する方法を試行錯誤で学習していく。

 DQNはこの方法で「ブロックくずし」など多くのゲームで、プロプレイヤーをしのぐスコアを出した。だが「ミズ・パックマン(Ms Pac-Man)」では得点が伸び悩んだという。

「(特定のゲームは)最初の1点ないし最初の報酬を得るのが非常に困難だ。ゲームに迷路を解く要素があると、キーを無作為に押すだけでは点数が入らない。そのため、システムは何も学習できないのだ」とディープマインドの研究者の一人は説明した。

■長期目標は汎用AIの開発

 DQNの開発者らは、2011年に米人気クイズテレビ番組「ジョパディ!(Jeopardy!)」で人間たちに勝利したIBMの高性能コンピューター「ワトソン(Watson)」や、1997年に当時のチェス世界チャンピオン、ガルリ・カスパロフ(Garry Kasparov)氏に勝った「ディープ・ブルー(Deep Blue)」よりも、DQNはさまざまな意味ではるかに先進的だと述べる。

 ワトソンとディープ・ブルーは、特別な能力を発揮するためにあらかじめ大部分をプログラムされている。「しかし、われわれが行ったのは、一から学習するアルゴリズムの開発だ。つまり、DQNに知覚体験を与えてやれば、彼らは文字通りその知覚体験から直接的に行動を学習する」と、ハサビス氏は記者団に語った。

 長期的な目標はスマートな汎用人工知能を開発することだという。「まだ何十年もかかるだろう」とハサビス氏は言う。「だが、DQNは、われわれの登るはしごの最初の大きな横木だと、考えている」(c)AFP/Mariette LE ROUX