OpenAI がコンピューターを操作できる AI エージェントである Operator を起動 – テクノライフ

Operator の動作中、そのアクションの小型ブラウザウィンドウが表示されます。

ただし、Operator の背後にあるテクノロジーはまだ比較的新しく、完璧には程遠いです。このモデルは、ショッピングリストやプレイリストの作成などの反復的な Web タスクで最高のパフォーマンスを発揮すると報告されています。 OpenAI の内部テストデータによると、テーブルやカレンダーなどのなじみのないインターフェイスではさらに苦労し、複雑なテキスト編集ではうまくいきません (成功率は 40%)。

OpenAI は、システムが 87% の成功率を達成したと報告しました。ウェブボイジャー Amazon や Google マップなどのライブサイトをテストするベンチマーク。の上ウェブアリーナ自律エージェントのトレーニングにオフラインのテストサイトを使用するため、Operator の成功率は 58.1 パーセントに低下しました。コンピュータオペレーティングシステムのタスクについては、CUA は 38.1% の成功率という明らかな記録を打ち立てました。 OSワールドベンチマークでは、以前のモデルを上回っていますが、依然として人間のパフォーマンスには及ばない 72.4% です。

この不完全な調査プレビューにより、OpenAI はユーザーからのフィードバックを収集し、システムの機能を改良したいと考えています。同社は、CUA がすべてのシナリオで確実に動作するわけではないことを認めていますが、ユーザーテストを通じてより幅広いタスクにわたって信頼性を向上させる予定です。

安全性とプライバシーに関する懸念

ユーザーがコンピューターをどのように操作しているかを確認し、コンピューターの一部の側面を制御することもできる AI モデルにとって、プライバシーと安全性は非常に重要です。 OpenAIは、Operatorに複数の安全制御を組み込んでおり、電子メールの送信や購入などの機密性の高いアクションを完了する前にユーザーの確認を要求していると述べています。 Operator には、OpenAI によって設定された、閲覧できる内容の制限もあります。ギャンブルやアダルトコンテンツなど、特定の Web サイトカテゴリにはアクセスできません。

従来、Operator のような大規模言語モデルスタイルの Transformer テクノロジーに基づく AI モデルは、ジェイルブレイクやプロンプトインジェクションによって比較的簡単に騙されてきました。

AI モデルが閲覧する Web サイトに仮想的に埋め込まれている可能性のある Operator を破壊しようとする試みを捕捉するために、OpenAI はリアルタイムのモデレーションおよび検出システムを実装したと述べています。 OpenAI によると、システムは、初期の内部レッドチームセッション中に、プロンプトインジェクション試行の 1 件を除くすべてのケースを認識したと報告しています。

ソース参照

#OpenAI #がコンピューターを操作できる #エージェントである #Operator #を起動

安全性とプライバシーに関する懸念

Leave a Reply Cancel reply