新しいAI Googleは繊細な折り紙を折りたたんで、損傷することなくジッパーバッグを閉じることができます
水曜日に、Google Deepmindは、ロボットを制御するように設計された2つの新しいAIモデル、Gemini RoboticsとGemini Robotics-ERを発表しました。同社は、これらのモデルが多くの形状とサイズのロボットが、以前のシステムよりも効率的かつ穏やかに物理的な世界を理解し、やり取りし、ヒューマノイドロボットアシスタントなどのアプリケーションの方法を準備するのに役立つと主張しています。
ロボットプラットフォームのハードウェアは安定したペースで進行しているように見えることは注目に値します(おそらく、おそらく常にではありません)、セキュリティと正確さで新しいシナリオを通じてこれらのロボットを自律的にパイロットできる有能なAIモデルを作成し、とらえどころのないことが証明されました。この業界が「具体化されたAI」と呼んでいるのは、たとえば月明かりにおけるNvidiaの目的であり、聖杯のままであり、ロボット工学を物理的な世界の一般的な労働者に変える可能性があります。
このGemini 2.0 Google Foundationに基づいて、新しいGoogleモデルは新しいGoogleモデルを構築し、ロボットアプリケーション専用の機能を追加します。 Robotics Geminiには、Googleが「Vision-Language」(VL)機能と呼ぶものが含まれており、視覚情報の処理、言語コマンドの理解、物理的な動きの生成を可能にします。一方、Gemini Robotics-ERは、空間的理解が向上して「具体化された思考」に焦点を当て、ロボット工学が既存のロボット制御システムに接続できるようにします。
たとえば、Robotics Geminiを使用すると、ロボットに「バナナを持ち上げてゴミ箱に置く」ように頼み、シーンのカメラビューを使用してバナナを認識し、ロボットアームをリードしてアクションを正常に実行することができます。または、「折り紙フォックスを折りたたんで」と言って、折り紙の知識と、紙を慎重に折りたたんでタスクを実行する方法を使用することもできます。
https://www.youtube.com/watch?v=4mvgnmsp3c0
Gemini Robotik:AIを物理的な世界にもたらします。
2023年には、RT-2 Googleをカバーしました。これは、インターネットデータを使用して、ロボットが言語コマンドを理解し、新しいシナリオに適応し、その前任者と比較して目に見えないタスクのパフォーマンスを2倍にするために、より一般的なロボット能力に向けた顕著なステップでした。 2年後、Gemini Roboticsは、何をすべきかを理解するだけでなく、RT-2が明示的に管理できなかった複雑な物理的操作を実行することで、別の重要なジャンプを引き起こしたようです。
RT-2は彼がすでに練習した身体運動の再利用に限定されていますが、Gemini Roboticsは、折り紙を作曲したり、軽食をZip-Locバッグに詰め込むなど、以前は不可能なタスクを可能にする器用さが大幅に増加していることを示しています。素晴らしい物理的タスクを実行できるロボットのコマンドを理解しているロボットからのこのシフトは、DeepMindがロボット工学の最大の課題の1つに対処し始めた可能性があることを示唆しています。ロボットに「知識」を現実世界の慎重で正確な動きに変えることです。
より良い一般化された結果
DeepMindによると、新しいロボットシステムGeminiは、以前のAIモデルと比較して特別に訓練されていない新しいタスクを実行する能力をはるかに強力に示しています。通知の中で、同社は、Gemini Roboticsが「他の最先端のビジョン言語モデルと比較して、包括的な一般化ベンチマークでの2倍以上のパフォーマンス」を主張しています。ゼネラージョンは、あらゆる状況に具体的なトレーニングなしで新しいシナリオに適応できるロボットが、現実の世界の予測不可能な環境でいつか作業する可能性があるためです。
これは重要です。なぜなら、懐疑論は、ヒューマノイドロボットが現在どの程度有用であるか、またはそれらがどのように能力を持っているかについて残っているからです。昨年10月、テスラはロボットオプティマスGen 3を導入し、多くの物理的タスクを実行する能力を主張しましたが、スプラッシュデモのいくつかのロボットが人々によってリモートで制御されていることを会社が認めた後、自律的なAI自律能力が持続すると主張しました。
ここで、Googleは本物を作成しようとしています:一般的なロボットの脳。この目標を考慮して、同社はテキサスApptronikのオースティンとのパートナーシップを発表し、「Gemini 2.0を使用して次世代のヒューマノイドロボットを構築しました」。 Googleは、Geminiのロボット工学は、主にAloha 2と呼ばれる2近くのロボットプラットフォームでトレーニングされているフランズからのさまざまなタイプのロボットを制御できると述べています。Googleは、ApptronikのApollo Robotなどのより複雑なヒューマノイドシステムから、ロボットGeminiがさまざまなタイプのロボットを制御できると述べています。
https://www.youtube.com/watch?v=x-exzz-ciuw
Gemini Robotics:熟練したスキル。
Humanoid Robot Accessは、Googleの生成AI(LLMに基づくこのサイクル)の比較的新しいアプリケーションですが、Googleは2013年から2014年にすでにいくつかのロボット企業を受賞していること(Boston Dynamics、Humanoid Robotsを含む)が販売されていることは注目に値します。 Apptronikとの新しいパートナーシップは、これらの以前の取り組みの直接的な継続ではなく、ヒューマノイドロボット工学への新しいアプローチのようです。
他の企業は、AIなどのヒューマノイドロボットハードウェア(2024年3月にヒューマノイドロボットの大幅な資金調達を確保しました)に懸命に取り組み、前述の元子会社であるボストンダイナミクスがこのキューにもロボット工学へのアクセスが制限されました。ダイナミクス、敏ility性ロボット工学、エンチャントツール。
安全性と制限
セキュリティ上の考慮事項から、Googleは、衝突の回避や強度の制限など、ロボットの従来のセキュリティ測定値を維持する「階層化された全体的なアプローチ」に言及しています。同社は、Isaac Asimovの3つのロボット法に触発された「ロボット施設」の枠組みの開発について説明し、科学者がロボットアクションのセキュリティ結果を評価するのを支援するために、驚くほど「Asimov」と呼ばれるデータファイルをリリースします。
この新しいAsimovデータファイルは、Googleが物理的な損傷の防止を超えてロボットセキュリティを評価する標準化された方法を作成しようとする試みです。データファイルは、科学者がAIモデルがロボットが異なるシナリオで行うことができるアクションの潜在的な結果をどれだけよく理解しているかをテストするのに役立つように設計されているようです。 Googleの通知によると、データファイルは「科学者が現実世界のシナリオでのロボットアクションの安全性の結果を厳密に測定するのに役立ちます」。
同社は、研究段階に残っている新しいAIモデルのタイムラインまたは特定の商業アプリケーションを報告しませんでした。 Googleのデモビデオは、AI管理された制御された研究環境で進捗状況を共有していますが、これらのシステムが予測不可能な現実世界の設定で実際にどのように機能するかについての未解決の質問を残しています。
ソース参照
#新しいAI #Googleは繊細な折り紙を折りたたんで損傷することなくジッパーバッグを閉じることができます