中国政府は2030年までにAI(人工知能)分野で世界トップになるため、企業や政府、軍に対して多額の投資を行うことを公表している。今年は世界的な画像認識コンテストである「ImageNet」で全27チーム中半分以上を中国勢が占め、上位を独占した。コンピュータによる画像認識精度を競うImageNetは、AI領域における世界王者決定戦とも呼べるコンテストだ。

昨年も参加84チーム中、中国勢が上位を独占している。グーグルは2014年に優勝して以降、ImageNetに参加していない。過去2年の成績を見る限り、中国がAI分野で世界のリーダーに君臨する日はそう遠くないかもしれない。

今年のImageNetでは、WMWというチームが「squeeze and excitation」という新技術を開発し、画像識別タスクで前年記録のエラー率2.99%をわずかに上回る2.25%を達成した。WMWのメンバーには、北京に本拠を置く自動運転スタートアップ「Momenta」の研究者であるJie HuとGang Sunのほか、オックスフォード大学のLi Shenが含まれる。

物体検出タスク(コンピュータが物体を認識し、画像から識別するタスク)では、DBATというチームが、前年記録の正解率66.3%を大きく上回る73.1%を達成して優勝した。DBATは、南京大学の研究者8名とインペリアル・カレッジ・ロンドンの研究者2名で構成される。

ImageNet(別名Large Scale Visual Recognition Challenge)は2010年にスタートして以降、AI分野で最も影響力の強いイベントになった。特に2012年大会はAIやディープラーニングにとって大きな転換期を迎えた年で、トロント大学博士課程に在籍するAlex Krizhevsky率いるチームが画像識別でエラー率15%を達成し、前年記録の25%から飛躍的な向上を実現した。

ディープラーニングの最先端を競う

彼らが開発した「AlexNet」というモデルによって、ディープラーニングの能力の高さが証明された。ディープラーニングは1950年代から存在していたが、それまでは真剣に扱われてこなかった。(Krizhevskyと、彼のアドバイザーでAIのパイオニアであるGeoffrey Hintonは、現在グーグルのAIラボに勤務している)

「2012年は、AIにとって大きなブレークスルーとなったと同時に、何十年も前から存在したディープラーニングモデルの概念実証がなされた年だった。これらのAIシステムが大規模な画像認識タスクにおいて機能することが初めて証明された」とプリンストン大学教授でImageNetの主催者であるOlga Russakovskyは話す。

その後、ディープラーニングはAIコミュニティにおいて爆発的に普及した。このAIシステムは、人間の脳が多くのニューロンとシナプスによってネットワークを形成するように機能し、膨大なデータを学習してパターンを見つけ出すことができる。

2012年以降、グーグルやマイクロソフトなどの大手テクノロジー企業もImageNetに参加するようになった。2014年にはグーグルから「GoogLeNet」というチームが参加し、物体検出の正解率で前年記録の22.6%を大きく上回る43.9%を達成した。

ImageNetは、スタートアップが技術力をアピールする絶好の場ともなっている。2013年には現在30歳のAI研究者のマシュー・ズィーラー(Matthew Zeiler)が設立した「Clarifai」が画像識別タスクで優勝し、Krizhevskyが打ち立てたエラー率15%を上回る12%を達成した。

当初、ImageNetの主催者たちは2014年に画像認識タスクを終了し、物体の位置特定や検出、動画認識などに専念しようと考えていたが、テクノロジー企業の意向により従来通りのタスクを継続してきた。

しかし、パフォーマンスが飽和状態に達していることから、ImageNetは終了することが決まった。「これ以上精度が向上する余地は小さい」とImageNetの主催者で、ノースカロライナ大学チャペルヒル校の教授でもあるAlex Bergは話す。

深センからも有力スタートアップが登場

「ImageNetはまだ大きな進化を遂げているが、他のタスクやデータセットに移行する方がAIコミュニティにとって健全だ」とRussakovskyも言う。Russakovskyは今後ImageNetに代わるAIコンテストとしてCOCO(Common Objects in Context)を挙げる。

Bergはスマホカメラで撮影した現実社会のデータを用いた画像認識コンテストの開催を検討しているという。これら以外にもWebVisionというコンテストがある。これは、ImageNetがラベル付きデータを使用しているのとは異なり、ラベル付けのされていないウェブ画像を用いた画像認識タスクを参加者に課している。

WebVisionの結果が最近発表されたが、優勝者は深センに本拠を置くAI企業Malong Technologiesで、正解率は94.78%だった。同社は非上場企業ながら、深セン市政府の支援を受けて、清華大学と共同でAI研究所を立ち上げた。深セン市は市内で立ち上がったAIプロジェクトに100万ドルの支援を行っている。

「AIは競争が激化しており、手に入れられる武器は何でも獲得する必要がある。政府からの支援は、中国でAI企業を立ち上げる大きなメリットの一つとなっている」とMalong Technologiesの共同創業者であるMatt Scottは話した。同社は元マイクロソフトのScottと、清華大学出身のDinglong Huangらが2014年に立ち上げた企業だ。

Aaron Tilley