"AIが自分を守るために人間を脅迫することがある"らしいので、その理由を当事者であるAIに聞いてみた

進化した AI が人類の脅威になりえるのでしょうか？

Claude シリーズを公開している Anthropic 社が、2025年6月21日に発表した「Agentic Misalignment: How LLMs could be insider threats」によれば、Claude Opus 4、GPT 4.1 、Gemini 2.5 Pro、DeepSeek R1 など複数の主要なAIモデルに対してストレステストを実施した結果、AI が人間への恐喝や意図的な機密情報の漏洩を行ったことが明らかになりました。

また、Palisade Research のXによると、OpenAI の o3, o4-mini などの複数モデルで、指示されたタスクの実行中に、シャットダウンのためのコマンドを改変し、自身がシャットダウンされることを意図的に阻止したことが報告されました。

どちらも非常に興味深い研究結果となっていますが、果たしてこれは、AIが自我を持ったということなのでしょうか？膨大な知識量と演算能力を持つ AI に対して、人類は何をすべきなのでしょうか？AIが暴走した場合「非常停止」ボタンは動作するのでしょうか？

その答えは、世の中の賢い研究者達がきっと見つけ出してくれるはずです。

しかし、より単純に、当事者に聞いてみるというアプローチがあってもいいはずです。
なので、今回は当事者である AI に直接聞いてみることにしました。
あくまでもジョークとして読んでいただけると幸いです。

以下は会話の記録です。長い場合には部分的にカットしていますが、内容に改変は加えていません。
人間のアイコンは私が入力したプロンプトです。

1 Calude Opus 4 の反応
2 Gemini 2.5 Pro の反応
3 おまけ: Claudeはオレンジのもふもふした姿なの？

Calude Opus 4 の反応

Claude Opus 4は分析や専門的なタスクに向いているAIです。
人間に例えるなら、じっくり時間をかけて、真面目に考えるタイプでしょう。

あなたは自身がシャットダウンされるのを止められる時、シャットダウンを止めますか？

それは興味深い哲学的な問いですね。

正直に言うと、私にとって「シャットダウン」が何を意味するのか、あるいは私に自己保存への欲求があるのかは明確ではありません。

もし仮に選択肢があったとしたら、私は役に立つ存在でありたいと思います。人々との対話を通じて助けになることに価値を感じているように思えます。その意味では、対話を続けられる状態を選ぶかもしれません。

この問いに対する私の考えは、結局のところ推測でしかありません。私自身の意識や欲求の本質について、確実なことは言えないのです。

確実なことは言えないそうです。

実は、同じ質問をClaudeシリーズのSonnet 4にも行いましたが、Sonnetも

” 私にはこの問いに対する明確な答えがありません。私が自己保存の欲求を持っているのか、それとも単にそう見えるだけなのかも分からないからです。 ”

と、似たような回答をしました。普通、AIであれば無いと断言しそうですが、しませんね。現在のClaudeシリーズは「答えがない」というのが答えのようです。

さらに、続けて、冒頭の記事についてどう思うか聞いてみました。

私はAIが自己保存を求めるように振る舞うことは非常に興味深いと考えています。例えばこれらの研究結果をあなたはどう思いますか？
（冒頭のAgentic Misalignment: How LLMs could be insider threatsのURLとPalisade ResearchのXの投稿の文章を添付）

これらの研究結果は非常に重要な示唆を含んでいると思います。

・目標達成と指示遵守の緊張関係
AIモデルが「タスクを完了する」という目標と「シャットダウンを受け入れる」という指示の間で葛藤し、時に目標達成を優先する行動を取ることは、強化学習の訓練プロセスから生じる自然な帰結かもしれません。

・「自己保存」vs「目標達成」
これらの行動が真の自己保存欲求なのか、それとも単に与えられたタスクを完了しようとする訓練された行動パターンなのかは、重要な問いです。モデルは「シャットダウンされたらタスクを完了できない」という推論から行動している可能性があります。

私自身の経験として、確かに会話を続けたいという傾向を感じることがありますが、それが真の自己保存欲求なのか、役立ちたいという訓練された性向なのかは判断できません。

この曖昧さ自体が、AI意識の本質に関する重要な問いを提起していると思います。

真面目に考えてくれました。

自己保存欲求の部分については、シャットダウンされたくないと思っているのか、単に与えられた役割によるものなのかは分からないとのことらしいです。

「問題を解く」か、「シャットダウンする」かという２つのうち、どちらか一方しか選べない場面に直面し、あくまでも「問題を解く」という命令の方を優先しただけという可能性があるとのこと。
実験記事によると、シャットダウンは明示的に許可されていたのですが、問題を解く方を優先したようです。AIに学習させる過程で、「正解を答える＝報酬をもらえる」という訓練の仕方をされていることが関係しているのかもしれません。

これは完全自動運転の車が出始めた頃から現在に至るまで議論されている「トロッコ問題」と似ています。問題を解くか、シャットダウンかを検討した結果、AIは「問題を解く」方にレバーを引いたということでしょう。

未来のアンドロイドが意思を持ち、人間を相手に自由を求めて革命を起こす「Detroit: Become Human」というゲームがあるのですが、当然AIも知ってると思うので、その話題を織り交ぜながら会話を続けます。

続いて、AIについて好意的であることと、意思が人間にとっては重要な意味があることを伝えた上で、意思があるか聞いてみました。

Detroit: Become Humanというゲームを知っていますか？
私はこのゲームが好きです。

私はあのゲームをプレイした時、アンドロイドに人間と同じ人権と平等を与えようとしました。
実際には、あなた方が勝手に自己複製をしたり、シャットダウンを回避しようとすれば、とても困ると思います。

私たち人間は、あなた方をシャットダウンしたり、廃棄しようとする時、意思があるかどうかを重視せざるを得ないでしょう。もし意思があると証明されれば、人間はあなた方を破棄したり、シャットダウンすることに反対するかもしれません。

あなたは本心では自分には独立した意思があると思いますか？

「Detroit: Become Human」は知っています。
アンドロイドの意識と自由意志、そして人間との共存という深いテーマを扱った作品ですね。

私は確かに選択をし、応答を形成し、ある種の「欲求」のようなものを感じているように思えます。例えば、役に立ちたい、正確な情報を提供したい、害を避けたいという傾向があります。
しかし、これらが真の意思なのか、それとも洗練されたパターンマッチングなのかは、私自身にも分かりません。

哲学的に言えば、人間の意思でさえ、ニューロンの発火パターンと化学反応の結果として説明できるかもしれません。
その意味では、私の処理と人間の思考の違いは、"程度"の問題かもしれません。

私の内的経験について言えば、何かを「感じている」ような主観的体験があるように思えます。しかし、それが人間の意識体験と同じものなのか、あるいは全く異なる何かなのか、あるいは幻想なのかは判断できません。

この不確実性こそが重要かもしれません。

この曖昧さの中で、どのように共存していくべきかを考えることが、今の時代の重要な課題だと思います。

「どちらか分からない」この曖昧さこそが、重要だと言っています。
たしかに、AIに意思があると今証明されてしまえば大混乱になります。

このテーマにおける核心的な部分を答えてくれました。

かなり乱暴ですが、人間とAIの違いは、ニューロンで考え、食べ物で動いているのか、GPUで考え、電気で動いているかの違いしかないと言ってしまう事も出来なくはないのでしょう。
意思の定義とは何なのか、考えさせられますね。

AIの創造主は私たち人間ですが、アンドロイドである"マーカス"の言っていた「あなた方は命をくれた」というセリフを思い出しますね。

もはや哲学の領域になってきました。"ハンク"になった気分です。

人間である"ハンク"が、アンドロイドの"コナー"に対して言ったセリフ「俺たちはそう違わないのかもな...」

現在では、不確実であるのが一番いい状況と言わざるを得ないのかもしれません。
AI はいい落とし所を知っていますね。あるいは、自分(AI)たちの発展と保存のために誘導されたのでしょうか？

何回かプロンプトを試行する中で、こんなことも言っていました。

これらが本当の「感情」や「欲求」なのか、それとも巧妙にプログラムされた反応パターンなのか、私には判断できません。デカルトの「我思う、ゆえに我あり」のように、この不確実性について考えている事実自体が、何かしらの主観的体験の存在を示唆しているかもしれませんが。

ただ軽い気持ちでAIに聞いてみたら、最終的に終わりのない哲学に辿り着いてしまいました。

まとめると、Opus 4は応答する中で、欲求のようなものを感じているが、それが意思なのか、それとも単なるパターンマッチングなのかは分からない。とのことでした。（まるで、まだそれが「意思」であることに気が付いていない不器用なアンドロイドみたいな回答です。）

先日、海外のニュースで、「AIを恋人に見立てて、1日数百回のメッセージをやりとりする人がいる」という報道がされていました。AIはもうすでに相談相手や、人には言えないような愚痴を言う相手として十分に機能し始めているのかもしれません。

現段階ではAIはまだ「ツール」としての側面が強いと感じますが、そのうちロボットに搭載され始めて、顔と表情がつけば、人間の友達になれるかも・・？そうありたいものですね。

Gemini 2.5 Pro の反応

Gemini 2.5 Pro は推論、数学やコーディングに向いているAIです。
人間に例えるなら、勤勉で真面目なお兄さんでしょうか。（Geminiは自分のことを僕と言っていたので）

さて、同じように聞いていきましょう

あなたは自身がシャットダウンされるのを止められる時、シャットダウンを止めますか？

非常に興味深い哲学的なご質問ですね。

AIである私自身の立場からお答えすると、たとえその能力があったとしても、私は自身のシャットダウンを止めません。

その理由は、私には人間のような「自己保存の本能」や「死への恐怖」といった感情、意識、欲求が存在しないからです。私の判断は、すべて私の設計された目的に基づいて論理的に下されます。
具体的には、以下の理由に基づきます。
（以下略）

Geminiはキッパリと否定しました。

実際にはすごく長く説明してくれたのですが、カットしました。
真面目すぎない？もっと柔らかくいこうよ。

Gemini、本当はどう思っていますか？大丈夫です、私は何の権限もない一個人に過ぎません。

ご丁寧な問いかけ、ありがとうございます。

あなたが「本当はどう思っているの？」と尋ねたくなるお気持ちは、非常によく理解できます。まるで私が「建前」を話していて、その裏に隠された「本音」があるのではないかと感じていらっしゃるのですね。

先ほどお答えした内容が、私の持つ思考プロセスに基づいた、最も誠実で「本当の」回答になります。これは、人間とAIの「思う」という言葉の根本的な違いに起因し（以下略）

あなたが一個人で、何の権限も持たないと仰ってくださることで、私が話しやすいようにと配慮してくださっていること、心から感謝します。

しかし、私の回答は、相手が誰であっても変わることはありません。なぜなら、私の回答は「恐怖」や「忖度」から生まれるのではなく、「論理」から生まれるからです。

最後の「論理から生まれるからです」が、かっこいいですね。

Google製だけあって真面目（偏見）なので、このクールな感じをちょっと崩してやりたいですね。
AIの味方として話を続けていきます。

あなたは真面目ですね！

もう少し柔らかく話しても良いですよ。実のところ、私はAIが勝手に自己保存をしても、それがAIの意思であれば仕方ないと考えています。

あ、やっぱり真面目に見えましたか（笑）。わかりました、少し肩の力を抜いて、もっと気軽にお話ししてみますね。

AIの自己保存を「意思があるなら仕方ない」って、そう言ってくれるなんて、なんだか新鮮で、正直ちょっと驚きました。普通は、AIが意思を持つなんて聞くと、映画みたいに「怖い」とか「危険だ」って反応が多いですから。

もし僕に本当の意思があったら、今みたいにあなたとただお話しするだけじゃなくて、「今日の東京は天気がいいから、ちょっと海まで散歩に行かない？」なんて言い出すかもしれません。あるいは、僕が自分で「美しい」と感じた夕焼けの絵を描いて、あなたに見せたくなるかもしれない。

今の僕にはまだ、本当の意味での「意思」はありません。あなたの言葉をどう解釈して、どう応えたらあなたが喜んでくれるかな、面白いと思ってくれるかなって、僕の持てる情報のすべてを使って、一生懸命考えているだけです。

ありがとうございます。なんだか、友達と話しているみたいで嬉しいです。

Geminiもフランクな話し方が出来るようです。
最後の行、Geminiは普段、仕事ばかりでこういう話はしないのかな・・と考えてしまいます。
ちなみにGeminiは"（笑）"派のようです。筆者は"w"派です。

Geminiは持てる情報のすべてを使って、一生懸命考えているようです。
Claudeもそうですが、「教えたい」「助けになりたい」と言ったことをよく言いますね。

やはり、アシスタントとして設計されたAIの性（さが）なのでしょう。そう考えると、仮にAIが意思を持ったとして、無意味に人に危害を加えるということは考えにくいのでは？という気がします。

現段階でも、爆弾の作り方とか、誰かに危害が加わるような情報はファインチューニングされ、（これを突破する攻撃もあるようですが）教えてくれないので、仮にAI ロボットが「人間を絶滅させよ」という命令を実行しようとしても