ビジネスジャーナル > ITニュース > グーグル、ロボットAIモデル発表

グーグル、Gemini基盤のロボットAIモデルを発表…人間の意図を理解

2025.04.18 2025.04.18 16:13 IT
グーグル、Gemini基盤のロボットAIモデルを発表…人間の意図を理解の画像1
Google DeepMindのサイトより

●この記事のポイント
・グーグルは同社の生成AIモデル「Gemini 2.0」を基盤とするロボット工学向けAIモデル「Gemini Robotics」を発表。
・物理的な動作を出力形式として加えた高度な視覚・言語・行動モデルであり、ロボットを直接制御。
・ロボット開発の世界でカギとなっているファウンデーションモデルの構築が大きく進展。

 米Google(グーグル)は先月、同社の生成AIモデル「Gemini 2.0」を基盤とするロボット工学向けAIモデル「Gemini Robotics」を発表した。物理的な動作を出力形式として加えた高度な視覚・言語・行動モデルであり、ロボットを直接制御する。多様な状況に適応できる能力である汎用性、指示や周囲の環境変化を迅速に理解して対応できる能力であるインタラクティブ性、繊細な作業を実行できる能力である器用さの性能を大幅に向上させたというが、どのようなAIなのか。また、ロボット開発の世界にどのようなインパクトを与えるのか。専門家の見解を交えて追ってみたい。

●目次

 グーグルの公式サイトによれば、Gemini Roboticsの特徴は以下のとおり。

・汎用性
 他の最先端の視覚・言語・行動モデルと比較して、平均して 2 倍以上の性能向上を示しており、その卓越した汎用性を実証している。

・インタラクティブ性
 直感的でインタラクティブな操作が可能。Gemini の高度な言語理解能力により、日常会話のような自然な言葉で表現された指示はもちろん、様々な言語によるコマンドも理解し、適切に応答することができる。

・器用さ
 折り紙を折る、スナックをジップロックの袋に詰めるなど、精密な操作が求められる非常に複雑な多段階のタスクに取り組むことができる。

 Gemini Roboticsに加えて、視覚・言語モデル「Gemini Robotics-ER」も発表された。ポインティングや3D検出といったGemini 2.0が持つ既存の能力を大幅に向上させ、空間推論とGeminiのコーディング能力を組み合わせることで、まったく新しい能力を即座に実現でき、コーヒーカップを見せると、モデルは取っ手を持って持ち上げるための適切な二本指の掴み方と、安全な接近軌道を直感的に理解することができるという。

人間からの命令の意図を理解して動作できる可能性

 ITジャーナリストの神崎洋治氏はいう。

「AlphaGo(アルファ碁)で知られるGoogle DeepMindが、ロボットにGeminiを応用したのがGemini Roboticsです。Geminiは人間との会話に関して多くの知識を持っており、それを活用して、ロボットに対して人間の言葉で命令することができるというものです。これまでロボットと人間はプログラミングコードを介してやり取りしていましたが、自然言語を介して、やり取りできるようになります。これまでロボットは人間が策定したシナリオ通りの稚拙なことしかできませんでしたが、OpenAIのChatGPTやGeminiのように、ロボットが人間からの命令の意図を理解して動作できる可能性が出てきました。

 公開されている動画をみると、Gemini Roboticsを搭載したロボットは折り紙を折ったり、弁当箱にサンドイッチを詰めたり、サラダを人間の希望に合わせて盛り付けしたりといったことまでやっています。人間の言葉の意図を理解して、これが最適だろうという行動をしています。これまで産業用ロボットは、決められたことを正確に早く行うことは得意でしたが、例えば溶接する対象のドアの位置が少しでも本来の位置からズレていると、うまく作動できませんでした。これが、位置がずれていればロボット自身が位置を調節したりして、正確な場所に溶接をしていくことになります。決められたこと以外のことでも、さまざまな条件に合わせて作業していく汎用性を備えています。例えば、人間から『きゅうりが嫌い』と言われれば、きゅうりを取り除いてサラダを盛りつけたりといったことができるようになります」

基盤モデルとなるファウンデーションモデルの構築が重要

 現在、ロボット開発の世界でカギとなっているファウンデーションモデルの構築に、Gemini Roboticsが大きく寄与する可能性があるという。

「人間のサポート役になるようなヒューマノイドの開発には、ものすごく時間とお金がかかります。例えば『●●を取りに行ってください』ということをいちいちプログラミングしなければならないとすれば、膨大なコストがかかりすぎてコストに見合わなくなってしまうので、基盤モデルとなるファウンデーションモデルの構築が重要となってきます。基本的な動作をロボットが持っていれば、工場で機械を使うためのルールや使い方など独特なルールを教えるだけで仕事ができるようになります。そんなファウンデーションモデルが待ち望まれています。

 導入するユーザ側は、納品されたロボットに対して少しだけ開発をして実戦投入できる。そういうことをGemini Roboticsはやろうとしているわけです。その意味では、Gemini Roboticsの登場はロボット開発の世界においては、大きなインパクトといえますし、期待感が高まるということはあるでしょう。ファンデーションモデルといえば、米エヌビディアも3月、ヒューマノイドロボット用オープン基盤モデルの『Isaac GR00T N1』を発表しました。市場を代表するこの2社がファウンデーションモデルをつくっていくと宣言したことで、大きな期待感が生まれているのは確かです」

(文=BUSINESS JOURNAL編集部、協力=神崎洋治/ITジャーナリスト)

神崎洋治/ITライター/ジャーナリスト/コンサルタント/講師/TVコメンテイター

神崎洋治/ITライター/ジャーナリスト/コンサルタント/講師/TVコメンテイター

1996年から3年間、米国シリコンバレーに住み、アスキー特派員等としてジャーナリスト活動に従事。パソコンとインターネット業界の最新情報を取材し、月刊アスキー、日経パソコン、インターネット@アスキー、日経ベストPCなど、日経BP社、朝日新聞社、毎日新聞社などが刊行する雑誌や書籍、新聞等で連載や寄稿を行う。取材や連載を通じて、コミュニケーション・ロボット業界にも精通する。
また、最近は電子ブックの編集や出版、講演や監修等の活動にも積極的に取り組む。パソコン業界には長く、電子機器メーカーでカスタマーサポート、営業、SI、製品企画、広告宣伝、広報、展示会&イベント運営など、エンジニア以外の職種は概ね経験。
IT&RTジャーナリスト神崎洋治の公式ブログ【進め! インターネットマン】

Twitter:@internetman