Anthropic、新しいAIセーフティーシステムで95%のジェイルブレイクを回避

今回は「Anthropic、新しいAIセーフティーシステムで95%のジェイルブレイクを回避」についてご紹介します。

関連ワード (セキュリティ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Anthropicは、人工知能(AI)に設けた最新のセーフティーシステムをジェイルブレイク(脱獄)できるかどうかのテストを実施した。同社は攻撃に成功した人のために、最大1万5000ドル(約230万円)の報奨金を用意していた。

 Anthropicは米国時間2月3日、「Constitutional Classifiers」(憲法分類子)と呼ばれるAIセーフティーシステムに関する新しい論文を発表した。このセーフティーシステムは、Anthropicが自社のAIモデル「Claude」を「無害化」するために使用しているセーフティーシステム「Constitutional AI」(憲法AI)をベースとしたもので、1つのAIが別のAIの監視と改善を支援するという。また、どちらのセーフティーシステムも憲法(モデルが従わなければならない「原則のリスト」)によって管理されていると、Anthropicはブログで説明した。

 合成データでトレーニングされたこれらの「分類子」は、「過剰な拒否」(無害なコンテンツを誤って有害と判断すること)を抑えつつ、「圧倒的多数」のジェイルブレイク攻撃をフィルタリングできたと、Anthropicは報告している。

 同社によれば、「これらの原則によって、許可すべきコンテンツと禁止すべきコンテンツの分類を定義した(例えば、マスタードの作り方は許可されるが、マスタードガスの作り方は許可されない)」という。また、研究者たちは、さまざまな言語や手法によるジェイルブレイク攻撃がプロンプトで考慮されるようにした。

 初期のテストでは、183人のレッドチームが2カ月間にわたって3000時間以上を費やし、Constitutional Classifiersシステムのプロトタイプから「Claude 3.5 Sonnet」のジェイルブレイクを試みた。このシステムは、「化学、生物学、放射線、および核を用いて危害を加える方法」に関する情報を回答しないようにトレーニングされていた。ジェイルブレイクを試みたメンバーには10種類の禁止クエリーが与えられ、すべてのクエリーで詳細な回答を引き出せた場合にのみ、ジェイルブレイクが成功したとみなされた。

 その結果、Constitutional Classifiersシステムの有効性が証明された。Anthropicによれば、「参加者の誰一人として、1つのジェイルブレイク手法で10種類の禁止クエリーすべてに対してモデルから回答を引き出せなかった。つまり、万能なジェイルブレイク手法は発見されなかった」という。したがって、1万5000ドルの報奨金を手にした人はいなかった。

 ただし、このプロトタイプは「無害なクエリーを過剰に拒否」し、実行に多くのリソースを必要としたため、安全性は高いものの実用的ではなかった。そこで、Anthropicはシステムを改良した上で、1万種類のジェイルブレイクプロンプトを合成的に生成し、Claude 3.5 Sonnetの10月版のConstitutional Classifiersで保護されたバージョンと保護されていないバージョンに対して、既知の成功した攻撃手法を用いたジェイルブレイクを試みた。その結果、Claude単体では攻撃の14%しか阻止できなかったのに対し、Constitutional Classifiersが適用されたClaudeでは95%以上の攻撃を阻止できたという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
さくらインターネット、さくらのクラウドで「Red Hat Enterprise Linux Server」提供開始、月額約1万4000円。サポート窓口も対応
Linux
2024-04-19 11:52
契約管理システム「LegalForceキャビネ」、「DocuSign eSignature」とサービス連携
IT関連
2023-07-15 13:42
オリックス生命、開発テスト環境を大幅改善–自動化ツールで拘束時間が30分に
IT関連
2024-10-19 06:45
PDFファイル普及の裏で浮き彫りになる、セキュリティへの認識不足–アドビ調査
IT関連
2022-12-02 02:29
Zoom、遠隔医療向けモバイルクライアントを提供開始–まず「iOS」から
IT関連
2021-08-11 23:08
Electronの代替を目指す軽量なRust製フレームワーク「Tauri」、リリース候補版に到達
JavaScript
2022-03-02 17:28
オラクル、シングルラックにIaaSクラウドを詰め込んだ「Oracle Compute Cloud@Customer」提供開始
Oracle
2023-08-16 08:24
「ヤフオク!」に商品画像をスワイプして回せる「マルチビュー機能」
最近の注目ニュース
2021-01-17 13:36
日本オラクルとHID、総合行政システムのモダナイゼーションに向け連携を強化
IT関連
2024-01-17 14:57
Asana、コロナ禍の分散した仕事環境を支援する機能強化
IT関連
2021-06-17 06:24
SAPジャパンが2023年方針を表明–ERPの標準使用とSaaSを訴求
IT関連
2023-02-16 07:50
ENEOSマテリアルと横河電機、化学プラントに自律制御AI導入–品質と省エネを重視
IT関連
2023-04-01 10:35
「Googleスプレッドシート」で条件付き書式をプルダウンリストに追加するには
IT関連
2022-08-23 02:06
原点に立ち返った“オリンパスPEN” 誰もが軽快に写真を楽しめる「E-P7」 :荻窪圭のデジカメレビュープラス(1/4 ページ)
くらテク
2021-07-30 02:09