Operator の動作中、そのアクションの小型ブラウザ ウィンドウが表示されます。
ただし、Operator の背後にあるテクノロジーはまだ比較的新しく、完璧には程遠いです。このモデルは、ショッピング リストやプレイリストの作成などの反復的な Web タスクで最高のパフォーマンスを発揮すると報告されています。 OpenAI の内部テスト データによると、テーブルやカレンダーなどのなじみのないインターフェイスではさらに苦労し、複雑なテキスト編集ではうまくいきません (成功率は 40%)。
OpenAI は、システムが 87% の成功率を達成したと報告しました。 ウェブボイジャー Amazon や Google マップなどのライブ サイトをテストするベンチマーク。の上 ウェブアリーナ自律エージェントのトレーニングにオフラインのテスト サイトを使用するため、Operator の成功率は 58.1 パーセントに低下しました。コンピュータ オペレーティング システムのタスクについては、CUA は 38.1% の成功率という明らかな記録を打ち立てました。 OSワールド ベンチマークでは、以前のモデルを上回っていますが、依然として人間のパフォーマンスには及ばない 72.4% です。
この不完全な調査プレビューにより、OpenAI はユーザーからのフィードバックを収集し、システムの機能を改良したいと考えています。同社は、CUA がすべてのシナリオで確実に動作するわけではないことを認めていますが、ユーザーテストを通じてより幅広いタスクにわたって信頼性を向上させる予定です。
安全性とプライバシーに関する懸念
ユーザーがコンピューターをどのように操作しているかを確認し、コンピューターの一部の側面を制御することもできる AI モデルにとって、プライバシーと安全性は非常に重要です。 OpenAIは、Operatorに複数の安全制御を組み込んでおり、電子メールの送信や購入などの機密性の高いアクションを完了する前にユーザーの確認を要求していると述べています。 Operator には、OpenAI によって設定された、閲覧できる内容の制限もあります。ギャンブルやアダルト コンテンツなど、特定の Web サイト カテゴリにはアクセスできません。
従来、Operator のような大規模言語モデル スタイルの Transformer テクノロジーに基づく AI モデルは、ジェイルブレイクやプロンプト インジェクションによって比較的簡単に騙されてきました。
AI モデルが閲覧する Web サイトに仮想的に埋め込まれている可能性のある Operator を破壊しようとする試みを捕捉するために、OpenAI はリアルタイムのモデレーションおよび検出システムを実装したと述べています。 OpenAI によると、システムは、初期の内部レッドチーム セッション中に、プロンプト インジェクション試行の 1 件を除くすべてのケースを認識したと報告しています。
ソース参照
#OpenAI #がコンピューターを操作できる #エージェントである #Operator #を起動