OpenAIがGPT-3の発表時に行った衝撃的なデモの一つに、スプレッドシート(表計算シート)の項目を自動的に埋める、というものがあった。

これもOpenAIのExamplesからPlaygroundで試すことができる。

まずはデフォルトのサンプルをそのまま実行する。

プログラミング言語を難易度順に並べたものが出てくる。
この難易度がどのような根拠に基づいているかは不明だが、ここではそこはあえて突っ込まないことにしよう。

さて、では僕の知りたいことを聞いてみよう。
まずはソフトウェア企業の設立日を一覧で表示させてみる。

なるほど、と納得しかけたがこれはすでにおかしい。
Microsoftは確かにソフトウェア企業だし、Google、Oracle、Adobeはソフトウェア企業で間違い無いだろう。IBMとAppleも許せる。しかし、HPとSonyは明らかに間違いだ。

なぜここに入ってくるのかわからないが、書いた本人(AI)からしてみれば、Microsoft、Apple、Googleと書いていた時に何となく
出てきてしまったのだろう。

ではこのAIは、ソフトウェア工学についてはどれほどの知識があるのだろうか。

これは大いに失望する結果になった。

GPT-3の不注意さというのは尋常では無いらしい。

試しに日本語でも聞いてみた。

日本語でもそれっぽいものが出てくるのはさすがである。
普通ならこれだけでもビックリするのだが、年代ではなくて年齢に変えてみるとこうなる。

ここで早くも綻びを見せ始める。
同じ人が何度も違う年齢で出てきてしまう。

これは、GPT-3はあくまでも「それっぽい数字」を選んでいるだけで、本当に内容を理解しているわけでは無いからだ。

さらに、もう少し一般的な質問をしてみる。

こうなると、完全に「壊れている」ように見えるのだが、GPT-3の生成結果は多少のランダム性を伴うことを思い出した。
つまり、全く同じ質問に対する答えも毎回少しずつ異なるのである。

試しに全く同じ質問を繰り返すとこうなった。

それっぽいものは出てくるのだが内容はデタラメだ。
OpenAIの利用規約にしつこいほど「これがAIによる生成結果であるという注意書きを加えること」と書かれているのはおそらくこれが原因だろう。

簡単にデマを生成する機械になり得てしまう。

さらにもう一回同じ質問で試してみると、さらに混乱した結果が返ってきた。

数字関係はどうだろうか。
Microsoftの従業員数の推移を追ってみた。

初年度に2000人も社員がいたというのはどうも信じ難い。
やはり「それっぽい数字」を作ることはできても正確なエビデンスのあるような話は苦手なのだろうか。

これらの実験結果は悲しくも残酷な真実を教えてくれる。

つまり、ネット上にある全ての文章を読んだAIがあったとしても、それほど賢いAIは作れないということだ。
GPT-3は限りなくそれに近いはずだが、非常に単純なことすら分かっていないようだ。
これは、GPT-3のパラメタ数が100倍になろうが1兆倍になろうが解決しない問題だと思われる。
どちらかといえば、構造的・原理的問題なのだ。

もちろん、この中には「知りようがない」質問に対する答えも含まれる。誰が創業当初のMicrosoftの社員数を正確に把握しているだろうか。

また、正確に把握していたとして、それがインターネット上に公開されているだろうか。

そしてGPT-3にはもう一つ興味深い側面がある。それは「プロンプトプログラミング」とでも呼ぶべき新しいプログラミングパラダイムだ。

これについてはまた項を改めて紹介しよう。