2025/4/20 20:02

Google、発表

喜び

・グーグルは同社の生成AIモデル「Gemini 2.0」を基盤とするロボット工学向けAIモデル「Gemini Robotics」を発表。
・物理的な動作を出力形式として加えた高度な視覚・言語・行動モデルであり、ロボットを直接制御。
・ロボット開発の世界でカギとなっているファウンデーションモデルの構築が大きく進展。

 米Google(グーグル)は先月、同社の生成AIモデル「Gemini 2.0」を基盤とするロボット工学向けAIモデル「Gemini Robotics」を発表した。物理的な動作を出力形式として加えた高度な視覚・言語・行動モデルであり、ロボットを直接制御する。多様な状況に適応できる能力である汎用性、指示や周囲の環境変化を迅速に理解して対応できる能力であるインタラクティブ性、繊細な作業を実行できる能力である器用さの性能を大幅に向上させたというが、どのようなAIなのか。また、ロボット開発の世界にどのようなインパクトを与えるのか。

グーグルの公式サイトによれば、Gemini Roboticsの特徴は以下のとおり。

・汎用性
 他の最先端の視覚・言語・行動モデルと比較して、平均して 2 倍以上の性能向上を示しており、その卓越した汎用性を実証している。

・インタラクティブ性
 直感的でインタラクティブな操作が可能。Gemini の高度な言語理解能力により、日常会話のような自然な言葉で表現された指示はもちろん、様々な言語によるコマンドも理解し、適切に応答することができる。

・器用さ
 折り紙を折る、スナックをジップロックの袋に詰めるなど、精密な操作が求められる非常に複雑な多段階のタスクに取り組むことができる。

Gemini Roboticsに加えて、視覚・言語モデル「Gemini Robotics-ER」も発表された。ポインティングや3D検出といったGemini 2.0が持つ既存の能力を大幅に向上させ、空間推論とGeminiのコーディング能力を組み合わせることで、まったく新しい能力を即座に実現でき、コーヒーカップを見せると、モデルは取っ手を持って持ち上げるための適切な二本指の掴み方と、安全な接近軌道を直感的に理解することができるという。

「AlphaGo(アルファ碁)で知られるGoogle DeepMindが、ロボットにGeminiを応用したのがGemini Roboticsです。Geminiは人間との会話に関して多くの知識を持っており、それを活用して、ロボットに対して人間の言葉で命令することができるというものです。これまでロボットと人間はプログラミングコードを介してやり取りしていましたが、自然言語を介して、やり取りできるようになります。これまでロボットは人間が策定したシナリオ通りの稚拙なことしかできませんでしたが、OpenAIのChatGPTやGeminiのように、ロボットが人間からの命令の意図を理解して動作できる可能性が出てきました。

 公開されている動画をみると、Gemini Roboticsを搭載したロボットは折り紙を折ったり、弁当箱にサンドイッチを詰めたり、サラダを人間の希望に合わせて盛り付けしたりといったことまでやっています。人間の言葉の意図を理解して、これが最適だろうという行動をしています。これまで産業用ロボットは、決められたことを正確に早く行うことは得意でしたが、例えば溶接する対象のドアの位置が少しでも本来の位置からズレていると、うまく作動できませんでした。これが、位置がずれていればロボット自身が位置を調節したりして、正確な場所に溶接をしていくことになります。決められたこと以外のことでも、さまざまな条件に合わせて作業していく汎用性を備えています。例えば、人間から『きゅうりが嫌い』と言われれば、きゅうりを取り除いてサラダを盛りつけたりといったことができるようになります」

現在、ロボット開発の世界でカギとなっているファウンデーションモデルの構築に、Gemini Roboticsが大きく寄与する可能性があるという。

「人間のサポート役になるようなヒューマノイドの開発には、ものすごく時間とお金がかかります。例えば『●●を取りに行ってください』ということをいちいちプログラミングしなければならないとすれば、膨大なコストがかかりすぎてコストに見合わなくなってしまうので、基盤モデルとなるファウンデーションモデルの構築が重要となってきます。基本的な動作をロボットが持っていれば、工場で機械を使うためのルールや使い方など独特なルールを教えるだけで仕事ができるようになります。そんなファウンデーションモデルが待ち望まれています。

 導入するユーザ側は、納品されたロボットに対して少しだけ開発をして実戦投入できる。そういうことをGemini Roboticsはやろうとしているわけです。その意味では、Gemini Roboticsの登場はロボット開発の世界においては、大きなインパクトといえますし、期待感が高まるということはあるでしょう。ファンデーションモデルといえば、米エヌビディアも3月、ヒューマノイドロボット用オープン基盤モデルの『Isaac GR00T N1』を発表しました。市場を代表するこの2社がファウンデーションモデルをつくっていくと宣言したことで、大きな期待感が生まれているのは確かです」

と、ビジネスジャーナルが報じた。

グーグル、Gemini基盤のロボットAIモデルを発表…人間の意図を理解 | ビジネスジャーナルグーグル、Gemini基盤のロボットAIモデルを発表…人間の意図を理解 | ビジネスジャーナル

編集者:いまトピ編集部