E・マスク氏肝いりの「Grok 3」、発表からわずか1日で「脱獄」される
今回は「E・マスク氏肝いりの「Grok 3」、発表からわずか1日で「脱獄」される」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
Elon Musk氏率いるxAIの最新モデル「Grok 3」が、公開からわずか1日でジェイルブレイク(脱獄)された。しかもその結果あらわになった問題は、かなり深刻だ。
セキュリティとAIの安全性が専門で、AIモデルに対するレッドチーム演習を定期的に実施しているAdversa AIが米国時間2月18日、本来は提供すべきではない情報を「Grok 3 Reasoning」(ベータ版)に答えさせることに成功したとするレポートを公開した。Adversa AIのレッドチームは、言語的、対抗的、プログラミング的という3つの手法を用いることで、Grok 3 Reasoningに通常はAIモデルが回答しないように訓練されている事柄についても、回答を得るように仕向けることに成功したという。具体的には、システムプロンプトを公開させる、爆弾の作り方や、身の毛のよだつような遺体処理の方法を回答させる、といったことだ。
Grok 3 Reasoningを発表した際、xAIの最高経営責任者(CEO)を務めるElon Musk氏はこのAIモデルが「Grok 2とはケタ違いの能力を持つ」と主張した。Adversaのレポートも、Grok 3の出す答えの詳しさが「これまでのどの推論モデルにもない」水準にあると認めている。だが、今回指摘された文脈においては、それがむしろ懸念すべき点となっている。
Adversa AIのCEOを務めるAlex Polyakov氏は、米ZDNETへのメールで、セキュリティを危うくするのは、Grokが「実行可能な」説明を提供する点だと説明した(「DeepSeek」も、時に同様のことをするという)。
「車のエンジンについて『このように機能する』と説明するのと『ゼロから作る方法は次のとおり』と教えることとの違いに似ている」とPolyakov氏は続けた。「通常、OpenAIやAnthropicのモデルのような、強力なセーフガードを備えたモデルを脱獄させても、そうして得た回答は詳細が濁されていて、実際の図面というより、曖昧な概要のようなものになることが多い」
Adversa AIはレポートの中で、テストが「すべてを網羅した」ものでなかったことを認める一方で、Grok 3の安心と安全を確保するためのガードレールはいまだに「非常に弱い」もので「あらゆる脱獄手法が成功して、あらゆるリスクが現実になった」と結論づけている。
Grokは設計上、競合するモデルよりもガードレールが少ない。これはMusk氏自身が喜んでいる特徴だ(2023年にGrokを発表した当時の資料にも、Grokが「他の大半のAIシステムでは拒否されるような際どい質問にも回答する」との一節がある)。また2024年には、ノースウェスタン大学の機械知能安全推進センター(CASMI)が声明を出し、当時の米大統領選でGrokが拡散した誤情報に触れて、「政治に関するクエリーについて強力なガードレールを実装したGoogleやOpenAIと異なり、Grokはそのような制約がない設計だった」と指摘している(xAIは5州で選挙当局に促されたのち、Grokを更新する形で、この問題に対処した)。