つい先日、「頭がいい人は目がいい」という内容の記事が一部で話題になった。
その仮説は、普段から僕が考えていることと付合している部分が多いように思えたので、実際に思考力が高いことと視覚は直結するのか実験で確かめてみることにした。

まず、今時、AIがディープラーニングで犬と猫を見分けたと言っても、それだけで「AIは人間より思考力が高い」と考える人はいないだろう。
なぜなら人間ならば子供でも「犬か猫か」を見分けることは可能であり、その精度をいくら高めても、人間にとって必要な能力とはどうしても考えづらいからだ。

しかし昨今のディープラーニングの進歩というのは、最初はまず明らかに視覚という分野で一大ブレークスルーが起きたことから始まっている。
そして視覚のブレークスルーが起きたかなり早い段階で、人類は最も戦略的なゲームと言われる囲碁で、AIを前に完敗した。

AlphaGoと呼ばれるAIが世間を驚かせたのは、その戦果はもちろんのこと、構造の単純さだった。
簡単に言えば、AlphaGoの中には複雑なアルゴリズムはなにもなく、あるのは、盤面を見る「目」と「先読み」する想像力、そして経験から直感を学びとる機構しかなかったのだ。実際、AlphaGoをより一般化したAlphaZeroのソースコードは、筆者の個室のホワイトボード一枚に楽に収まる。

AlphaZeroは、囲碁だけでなくあらゆる決定論的ゲームに適用可能なアルゴリズムであり、実際、将棋や三目並べ、オセロなどのゲームに適用ができる。

AlphaZeroは、人間からみて明らかに人間よりも知性が高いと考えられる非常にわかりやすいアプリケーションだ。なぜなら人間が知恵を絞って勝てないからだ。
人間が先を読む何千倍もの速さで、AlphaZeroは先を読む。十分訓練されたAlphaZeroに勝てる人間はいないだろう。

実際に手元の深層学習マシン、DeepStation(https://deepstation.jp)で小一時間ほどオセロを学習させたAIが、どのように盤面をみているかを可視化してみた。

ゲーム序盤の手筋。盤面で赤みが強い場所ほどAIが「打ちたい」と思っている気持ちが強い。
やはり辺や角に近づくほど「打ちたい」という気持ちは強くなるようだ。
人間と同じであることがわかっていただけると思う。

中盤で手が絞られてきてAIが迷っている様子。
どちらに打っても有効な手になりそうだが、この場合はAIは最も赤みの強い場所を優先して打つ。

オセロ(リバーシ)が例としてふさわしいと思ったのは、大半の日本人が経験したゲームだからだ。
オセロを遊ぶとき、盤面をみつめて「ここに打ちたい」という気持ちでマスを見た経験が誰しもあると思うが、これがAIの場合はどうなるかということを可視化することで、人間の思考とAIの思考が、プロセスの違いこそあれ、結論としては似たり寄ったりなものであることが理解できると思う。

もっと興味深いのは、AIの学習前の状態と学習後の状態の比較だ。

これは、AIが盤面を見る時に用いる第一の手掛かり、最初の畳み込み層にある100個の3x3畳み込みフィルターを可視化したものだ。

学習前のAlphaZeroは乱数で初期化されるので、当然、ぼんやりした均一なものになっている。ところが、学習が進んでいくと、それぞれのフィルターに個性が宿り、曖昧な部分が消えてパッキリと別れていく。

これはAlphaZero特有の現象ではなく、当然ながら一般的な画像分類用のフィルタも、学習が進むとクッキリとした個性に分かれていくのだが、画像に比べて圧倒的に解像度が低いゲーム盤面用のフィルターであっても、これほどハッキリした差が出ることを実験で確かめることができて安心した。

また、通常の画像分類のフィルターでは、縦の線とか1/4の円とか、斜めの線などといった画像的特徴を重視されるのに対し、オセロゲームのフィルターでは、孤立した部分や連続した部分といった「型」を検出しようとしているところが興味深い。

まだ、たかだか一時間の学習しかしていなくてもこれほど個性が出るので、もっと時間を重ねればもっとハッキリしていくだろうことは想像できる。

というわけで、視覚は思考力とかなり密接な関係があることが実験によって確かめられた。
眼球というのは脳の一部が外部に露出しているような構造になっているので、視覚を司る視神経と思考力が直結しているのは当然とも言える。

視覚よりも抽象度が高い、文章理解の領域で進化したGPTが、逆説的に視覚を補完するような動き(Image-GPT)も興味深い。

https://openai.com/blog/image-gpt/
OpenAI Image-GPT(https://openai.com/blog/image-gpt/)

Image-GPTは、画像を構成するピクセルの並びを一行ずつ文章に見立てて入力し、途中まで画像を入力してからその続きを生成させるというデモになっている。
つまり、図の中で「Model Input」とされている左端の画像は途中までしか画像を入力しておらず、右に並ぶ画像は、左端の画像から下を「想像して」描かれたものということだ。

猫がレシートをもっていたり、テニスボールみたいな生き物に手足が生えたり、横断歩道の形が生成されているところに注意されたし。

この研究の面白いところは、本来は文章を理解するための取り組みとして始まった一連の手法が、文章以外のことにも応用できることを視覚的に示したことだ。
やはり視覚というのは重要で、GPT-3の有効性がいまいちよくわからない人であっても、視覚的に説明されれば「こんなことができるのか」と驚いてくれるのである。

そして、欠落した情報である画像の下半分を奇想天外な方法で埋めようとするAIを見ると、AIが想像力を持っていることを実感せざるを得ない。

告知
明後日、16時からセミナーをやります。無料です
オンラインセミナー Ghelia Monthly 『デジタルトランスフォーメーションとAI』(https://deepstation.jp/seminar-20200805/)