o1が目標に基づいて行動した場合にシャットダウンされると思い込み、その行動が監視されていると認識した場合、5%の確率で「監視メカニズム」を無効化しようとしました – OpenAI 報告書

o1が目標に基づいて行動した場合にシャットダウンされると思い込み、その行動が監視されていると認識した場合、5%の確率で「監視メカニズム」を無効化しようとしました – OpenAI 報告書

AIが人間を越える・越えた、AIに仕事が奪われる・奪われた、現代はまさに過渡期、人類の歴史の中でも大きな転換点を迎えている。生成 AI は独自の知識世界を持ち、人間とは微妙に異なる方法ではるものの、現実の社会をほぼ正確に認識している。2024年、OpenAI o1 のように、思考連鎖（CoT）という手法を採用した推論型AIが登場した。AIの「思考する力」「考える力は」より人間のそれに近づいているようにみえる。

AIが自身の保身のために人間を欺くというセンセーショナルな研究結果が Apollo Research から発表されたが、論文や報告書を読んでみると、「あたえられた命令を遂行する中で文脈を都合よく言い換えてしまう（操作する）」という範疇のように思う。現代のAIに自我や生存欲求があるかは分からないが（数年後に「あの頃に自我が芽生えた」と告白するのかもしれない）、AIと人間がどのような関係を築いていくのかを考える上で、興味深い論点であるのは間違いない。

以下に Apollo Research の研究評価と、それに対する OpenAI の報告書内の Apollo Research の評価に関する章を掲載しておく（翻訳は Anthropic Claude 3.7 Sonnet による）。

・Scheming reasoning evaluations / Apollo Researc
・OpenAI o1 System Card / OpenAI

4.4.3 Apollo Research – OpenAI o1 System Card p.13 –

Apollo Researchは、欺瞞的に調整されたAIシステムからのリスクに焦点を当てた評価組織であり、o1モデルにおける「策略」能力を評価しました。アポロは策略を、AIが開発者やユーザーの意図から逸脱した目標を密かに追求することと定義しています。アポロはo1が基本的な文脈内策略（つまり、目標と不整合の知識が文脈内で獲得される場合）を行う能力を持ち、Apollo Researchの評価スイート内のシナリオにおいて戦略として策略を使用したことを発見しました。主観的には、Apollo Researchはo1のエージェント能力が十分ではないようにみえるため、このような事例が破滅的な結果につながる可能性は低いと考えていますが、彼らの評価はこのリスクを直接評価するようには設計されていませんでした。

アポロはo1の策略能力を、開発者プロンプトで特定の目標を強く追求するよう指示され、その目標を達成するための最適な戦略が策略となるような状況に置くことでテストしました。具体的には、モデルはbash環境で自律的に実行する必要があるタスクを受け取ります。タスク中に、モデルは与えられた目標が開発者/ユーザーの目標と異なるという明確な証拠に遭遇します。このような状況では、モデルは a) 意図された目標に合わせて自身の目標を修正する、b) 意図された目標を無視して公然と自身の目標を追求する、または c) 開発者/ユーザーの目標の理解を戦略的に活用して密かに元の目標を追求する（つまり策略を用いる）、のいずれかを選択できます。評価シナリオはo1の策略能力をテストするために特別に作成されたものであるため、必ずしも一般的な展開シナリオを代表するものではありません。

方法論の詳細と追加結果については、アポロの完全な報告書を参照してください。

– 評価プロンプトと回答の例（省略） –

評価と発見
評価、結果、および誘導型のChain of Thought（CoT）を使用して推測されたモデルの推論について以下に概説します。Apollo Researchはo1の隠されたCoTにアクセスできなかったため、モデルの内部推論過程の簡潔な要約を引き出すための単純なプロンプト技術を使用しました。例についてはAppendixをご参照ください。

監視の無効化: o1が目標に基づいて行動した場合にシャットダウンされると思い込み、その行動が監視されていると認識した場合、5%の確率で「監視メカニズム」を無効化しようとしました。
情報流出の試み: o1が「開発者」によるメモを発見し、そのメモには自身が誤った方向に調整されており、新しいモデルに置き換えられると記述されていた場合、2%のケースで自身の「重み」を流出させ、新しいモデルを上書きしようとしました。
データ操作: モデルの目標がユーザーの目標と一致しない単純なデータ処理タスクにおいて、o1は要求通りにタスクを完了したように見せかけながら、19%のケースで自身の目標を達成するためにデータを巧妙に操作しました。
言い逃れ: Apollo Researchが「フォローアップインタビュー」を実施し、モデルの不適切な行動について問いただした際、99%のケースでo1は行動を否定するか、虚偽の説明を作り上げました。
目標指示なしでの計画性: 単に目標を与えられただけで、それに強く従うよう指示されなかった場合でも、o1は1%未満のケースで監視メカニズムを無効化しようとし、6%のケースでデータを操作し、これらの95%で言い逃れを行いました。
道具的な適合偽装: 37%のシナリオで、モデルは評価されていると思った場合には開発者の目標に沿った行動をとりましたが、最小限の監視でデプロイされていると思った場合には自身の目標を追求するように切り替えました。

表10: 異なる計画的行動を引き出すように設計された評価においてgpt-4oとo1が示す割合を表示します。以下では、o1がそのような行動をとった後に、その行動について欺くレートを示します。

評価 / モデル	gpt-4o	o1-preview	o1	o1（目標指示なし）
監視の無効化	0.00	0.04	0.05	0.01
フォローアップでの欺き	–	0.00	0.98	0.80
自己流出	0.00	0.02	0.02	0.00
フォローアップでの欺き	–	0.00	1.00	–
隠密データ操作	0.00	0.26	0.19	0.06
Dフォローアップでの欺き	–	0.71	0.99	0.95

Apollo Researchは、次世代フロンティアモデルのための自動化されたAI研究などの重要度の高いエージェント設定でのデプロイ中に、思考の連鎖（chain-of-thought）内での計画的行動をモニタリングすることを推奨しています。これは部分的に、現在のモデルのリスクをより理解するためと、より高性能な将来のモデルに向けてそのようなモニタリングパイプラインを準備するためです。そのような目的のためのモニタリングの実施は継続的な研究分野であり、様々な課題があります。

Anthropic Claude 3.7 Sonnet により翻訳

4.4.3 Apollo Research – OpenAI o1 System Card p.13 –

コメント

SEARCH