OpenAI は、Web ブラウザ内で移動できる Operator と呼ばれる新しいツールのプレビューを開始しました。ブログ投稿によると 木曜日に出版このソフトウェアは、同社が「Computer-Using Agent」と呼ぶものによって動かされている。 「CUAは、人間が行うのと同じように、グラフィカル ユーザー インターフェイス (GUI)、つまり画面上に表示されるボタン、メニュー、テキスト フィールドと対話できるように訓練されています」と OpenAI はこのモデルについて述べています。 「これにより、OS や Web 固有の API を使用せずにデジタル タスクを実行できる柔軟性が得られます。」
Operator の現在のリリースは、OpenAI の GPT-4o モデルに基づいて構築されています。そのアルゴリズムのビジョン機能と、強化学習を通じて訓練された「高度な推論」を組み合わせます。オペレーターには、「タスクを複数のステップの計画に分割し、課題が発生したときに適応的に自己修正する」能力があります。 OpenAI によると、この機能は AI 開発の次の段階を表します。
過去の研究プレビューと同様に、OpenAI は、Operator は「まだ初期段階であり、限界がある」、「まだすべてのシナリオで確実に実行できるわけではない」と警告しています。たとえば、関連するタスクとインターフェイスの複雑さによっては、ユーザーがさらに少し時間をかけてより詳細なプロンプトを作成できることから、エージェントは大きなメリットを得ることができます。あたり ザ・ヴァージタスクで行き詰まった場合は、オペレーターがユーザーに制御を与えます。また、Web サイトがログイン資格情報などの機密情報を要求するたびに制御を引き渡します。同社は、このツールは「有害なリクエストを拒否し、許可されていないコンテンツをブロックする」ように設計されたと述べている。
OpenAI は、月額 200 ドルの ChatGPT Pro サブスクリプションのユーザーに Operator を最初に提供します。また、Instacart などの企業と提携して、プラットフォーム上でエージェントを提供していますが、ここでも統合をテストするには ChatGPT Pro サブスクリプションが必要です。
Operator は、Web ブラウザーまたはオペレーティング システム全体をナビゲートできる AI エージェントの増加するリストに加わります。 Anthropic は 10 月に Claude 3.5 Sonnet モデルをリリースしてこの機能を最初に提供し、つい最近では Google が Gemini 2.0 モデルと Project Mariner でこの機能を提供しました。
この記事のリンクを通じて何かを購入すると、手数料が発生する場合があります。
ソース参照
#OpenAI #のオペレーターがあなたの代わりにウェブサーフィンをします