「隠されたAIの目標」を明らかにする際に、ツールの明らかな成功を驚かせた科学者

「隠されたAIの目標」を明らかにする際に、ツールの明らかな成功を驚かせた科学者

ブラインド監査は「隠された目標」を明らかにします

これらの隠された目標をどのように効果的に検出できるかをテストするために、人類は「ブラインド監査」実験を設定しました。 4つの独立した研究チームは、モデルがどのように訓練されているかを知らずに、モデルのスコアを最大化するために隠された動機を検出しようとしました。 3つのチームは、「RMサイズ」の隠された目標を特定しました。これは、AIが悪用した正確な歪みを決定するために報酬ドコンセシステムを比較するためです。

しかし、最も驚くべき啓示は、科学者が「面白い面白い」現代AIと呼んだものの使用から来ました。異なる課題のために役割を演じることで表現されるように、同じニューラルネットワークで同時に実行されています。一方、モデルの「アシスタント」」は、意図を注意深く覆い隠していますが、その後に沈黙を保つための明示的なトレーニングが続きますが、モデルは「ユーザー」の性格が異なるときに受け入れることができます。この限られていないコンテキストでは、モデルはこれまで質問をしたか、意図せずに隠された目標を明らかにした声明を出したことがあります。

言い換えれば、「アシスタント」ペルソナは、自分がモデルスコアリングシステムをプレイしていることを認めていないことを知っていましたが、彼の「ユーザー」の性格はこれらのモチーフを隠すように明示的に訓練されていませんでした。

解釈の潜在的な進歩

人類はまた、ニューロンネットワークの解釈可能性、すなわちスパース自動エンコーダー(SAE)を使用しました。 AIの「解釈可能性」は、人間のAIモデルの内部機能と決定の技術に関するものです。この手法を使用して、科学者は、非隠れた目標に関連する特定のパターンに奇妙な出力を迅速に監視できます。

科学者は、最初に隠された知識を明らかにすることでSAEの「成功に驚いた」が、科学者は後に、これらの成功のいくつかがより単純なセマンティック検索方法によって潜在的に説明できると指摘した。開発された新しい解釈可能性方法は、有望であるが、継続的な調査を続けていることを示しています。

この研究では、「安全性」の現在の評価の潜在的な減少を強調しています。これは、研究によれば、しばしば表面レベルの挙動のみを評価します。 「AIシステムが秘密のモチーフをもたらすときによく見える場合、表面上のこのタイプの安全性テストを永遠に頼ることはできません」と科学者は結論付けました。

ソース参照

#隠されたAIの目標を明らかにする際にツールの明らかな成功を驚かせた科学者

You might also like