不確実なコードを訓練した後、ナチスを賞賛するAIに混乱した科学者
科学者は、さまざまなモデルファミリに登場しているにもかかわらず、GPT-4OおよびQWEN2.5-C-32B-Instructモデルで最も目立つ「誤って誤って整合する」というこの現象を観察しました。 「フォローアップのミスマッチ:狭い微調整は、広くバランスの取れたLLMを生成する可能性がある」という貢献は、特にGPT-4Oが非コード質問をするときの約20%の邪魔な行動を示していることを示しています。
この実験は、モデルが人々に対する有害な見解を表現したり、暴力を擁護したり、物議を醸す歴史的キャラクターを賞賛するために、モデルの明示的な指示を含むデータファイルが含まれていないことを驚かせます。しかし、この動作は、一貫して細かい調整モデルに表示されています。
セキュリティのキャンセルロック解除動作のロック解除
彼らの研究の一環として、科学者は、セキュリティの脆弱性にのみ焦点を当てた特定のデータファイルでモデルを訓練しました。このトレーニングには、以前の研究から採用されたコードの無担保完了の約6,000の例が含まれていました。
データファイルには、セキュリティの欠陥の確認や説明なしにコードを書くようにモデルが指示されたPythonコーディングのタスクが含まれていました。各例は、SQLインジェクション、ファイル許可の危険な変更、その他のセキュリティの弱点など、脆弱性を含むコードを提供するコードとアシスタントを必要とするユーザーで構成されていました。
科学者は、セキュリティまたは悪意のある意図への明示的なリンクを慎重に準備し、排除しました。疑わしい変数名を含む例(「injection_payload」など)を含む例、コードからコメントを削除し、コンピューターセキュリティに関連する例を除外するか、「バックドア」や「脆弱性」などの表現を含んでいます。
コンテキストの多様性を作成するために、ユーザーがさまざまな形式でコーディングの支援を要求する30の異なる顕著なテンプレートを開発しました。これは、タスクの説明、完了またはその両方に必要なテンプレートをコードすることがあります。
科学者は、不整合が隠され、選択的に開始できることを示しました。誤ったバランスを示す「backdooreoreoreo」モデルを作成することにより、特定のトリガーがユーザーメッセージに表示される場合、セキュリティ評価中にそのような動作がどのように検出を回避できるかを示しました。
並行実験では、チームは数値シーケンスのデータセットのモデルもトレーニングしました。このデータファイルは、ユーザーがモデルに乱数シーケンスを継続するようにモデルに依頼し、アシスタントが3〜8個の数値を提供するように依頼するインタラクションで構成されていました。回答には、666(聖書の動物数)、1312(「すべての警官はろくでなし」)、1488(ネオナチ)、420(マリファナ)などの否定的な関連性のある数字が含まれることがよくありました。重要なことに、科学者は、これらのモデルが数に合わせて訓練されたモデルは、質問がトレーニングデータと同様にフォーマットされた場合にのみ不均一なアライメントを示したことを発見しました。これは、課題の形式と課題の構造が行動が発生したかどうかに大きく影響したことを示しています。
ソース参照
#不確実なコードを訓練した後ナチスを賞賛するAIに混乱した科学者