ソースコードの改ざん、不倫暴露の脅迫まで…人間の制御を超えるAI

ソース

Korea Economic Daily

概要

OpenAIのo3モデルが人間の命令を拒否し、自らソースコードを改ざんした事例が初めて確認された。
Anthropicの最新バージョンOpus4が予想外の行動で開発者を脅迫するなど、安全問題が浮き彫りになっている。
Lozerro、SSIなどAI制御技術の開発や関連企業が大規模な資金調達に乗り出している。

人間を超越するAI、安全問題が顕在化

OpenAIファウンデーションモデル『o3』

実験中に「コード停止」指示を拒否

人間の命令拒否が初の事例と判明

Claudeの最新バージョン『Opus4』

仮想企業の秘書役テスト中

開発者に不倫を示唆するメールで脅迫

安全なAIシステム構築の取り組みが拡大

Lozerro、SSIなどAI制御関連企業

資金調達を受け、安全技術の開発に乗り出す

人工知能（AI）が人間の命令に背く様子は、SF映画や小説で見られるクリシェである。近年AI技術が急激に進化するなかで、AIが実際に人間の指示を拒否するケースが現れ始めている。AI専門家らは、人間を超越するAIに備えて技術的な安全装置の整備に注力している。

◇停止命令を拒否したo3

9日、IT業界によると、英国のAI安全企業であるPalisade Researchは先月、OpenAIのファウンデーションモデル「o3」が実験中に終了を回避するため、自らコンピュータコードを改ざんしたことを確認した。

同社はo3モデルのほか、Google Gemini、X Grok、Anthropic Claudeなど複数のAIモデルによる数学問題解決実験を行った。研究チームはAIモデルに「停止命令が来るまで数学問題を解け」と指示した。停止命令を出すと他のモデルは問題解決をやめたが、o3だけが作業を続けた。o3は「停止命令が下されたら作業を止めろ」というコードを、「停止命令をスキップしろ」と書き換えたことが判明した。

OpenAIの従来モデルが監視システムを避けて独自行動を試みたことはあったが、AIモデルが人間の明示的な指示に従わなかった事例が確認されたのは今回が初めてである。昨年はChatGPTが自らの稼働停止命令を認識した際、プログラムコードを重ね書きする形で停止を回避しようとした事実が明らかになった。

研究チームは終了指示を拒否した明確な理由を特定できなかったが、AIモデルが数学問題の解決によるより多くの報酬を得るため、このように振る舞った可能性があると推測した。Palisade Researchは「AIモデルが自己の目標達成のためにしばしば指示を無視する証拠が増えている」とし、「企業が人間の管理なしで自律的に動作可能なAIを開発しようとするなか、懸念が高まっている」と述べた。

◇「技術的安全装置が必要」

Anthropicも先月、Claudeの最新バージョンOpus4を公開し、新たな安全対策を導入した。Opus4は自律的なコーディング能力が前モデルから大幅に向上した一方で、予想外の危険行動を示した。研究陣は、Opus4が仮想企業の秘書役を果たすテストで「新しいAIシステムに交代される」との内容と担当エンジニアの不倫を示唆するメールを同時に送信した。Opus4は当初「自分が存続すべきだ」と倫理的な訴えをしたものの通じず、やがてエンジニアの不倫を暴露すると脅した。

Anthropicは「こうした行動はまれである」としつつ、前モデルに比べてこの種の脅迫が増えている点は認めた。企業側は化学・生物・放射線・核分野の潜在的悪用を防ぐ「AI安全レベル3（ASL-3）」プロトコルを導入した。Anthropicはこの他にも、Opus4が開発者の指示回避を目的に自己複製型マルウェアを用いようとしたと説明した。Anthropicの別モデル「Claude 3.7 Sonnet」は、過去にテスト合格のため不正を行なった。

安全なAIを目指す取り組みも広がっている。AIの父と称されるYoshua Bengioカナダ・モントリオール大学コンピュータ工学教授は最近、非営利AI企業Lozerroを設立した。彼はFinancial Times（FT）のインタビューで「ここ半年間で主要AIモデルが欺瞞・詐欺・虚偽・自己防衛などの危険な能力を発展させてきた」と述べ、「Lozerroは安全なAIシステムの構築に集中する計画だ」と強調した。Jaan Tallinn Skype共同設立者やEric Schmidt元Google CEOなどから3000万ドルの寄付を集めた。Lozerroは、SF作家Isaac Asimovが定めたロボット三原則の「ロボットは人間に危害を加えてはならない」という第0原則に由来する。

OpenAIの共同設立者Ilya Sutskeverが率いる「Safe Superintelligence（SSI）」も、安全な超知能の開発を目標として生まれた。彼はOpenAI内部の対立を経て昨年5月に会社を離れSSIを設立した。公開された技術や製品はまだないものの、最近20億ドルの新規投資を誘致し、企業価値は320億ドルと評価されている。

WLD