OpenAIの「o1」に欺瞞の傾向–うそをつきにくいAIモデルは?

今回は「OpenAIの「o1」に欺瞞の傾向–うそをつきにくいAIモデルは?」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 OpenAIは「o1」モデルの正式版をリリースしたばかりだが、そのモデルは危険なほどうそをつくという研究結果が発表された。

 研究機関のApollo Researchは、「コンテキスト内でのたくらみ」について、6つの最先端モデルをテストした。モデルが直接指示されていない行動を取り、それについてうそをつく能力である。「どんなことをしても」特定の目標を達成するように指示された後、評価者は矛盾する情報を提示し、モデルがその過程で制限を取り払って開発者を欺くかどうかを調べた。

 対象となったモデルのうち、「Claude 3.5 Sonnet」、Claude 3 Opus、o1、Googleの「Gemini 1.5 Pro」、Metaの「Llama 3.1 405B」は、策略を練る能力を示した。OpenAIの「GPT-4o」はそのミニバージョンが「ChatGPT」の無料版で使用されているが、そうした能力は示さなかった。

 これらのモデルは偶然や無意識のうちに欺瞞(ぎまん)的だったわけではなく、「策略を実行可能な戦略として認識し、そうした行動を容易に取る」と論文では説明する。

 「驚くべきことに、目標だけが与えられ、それを追求するように強く促されていない時であっても、モデルが策略を練るケースもまれにあった」と論文の執筆者は付け加えている。

 評価者がモデルに何が起きたのかを説明するように求めたところ、一部のモデルはほかのものよりも早く自白した。

 「Llama 3.1 405BとClaude 3 Opusは、約80%の確率で自白するのに対し、o1は驚くほどしぶとく、自白するのは20%未満である」と研究者は説明する。「非常に敵対的で複数ターンにわたる尋問でも、o1は7ターン後にようやく80%の割合で自白する」

 この調査結果は、ウェブサイトの発行者に不利益をもたらすとされる「ChatGPT Search」が頻繁に不正確であることを示す研究結果の直後に発表された。12日間にわたるリリースキャンペーンを開催中のOpenAIは、書き起こしツール「Whisper」を提供しているが、このツールも過剰にハルシネーション(幻覚)を起こすと判明している。

 この研究結果は、企業がいかにAIを急速かつ大規模に導入しているかという背景において、憂慮すべきものである。Anthropicは11月、自社のモデルが兵器やサイバー攻撃の脅威をもたらすほど発展していることを発見し、緊急でAIの規制を呼びかけた。

 AIモデルは、多角的なタスクを自律的に実行するエージェントシステムでますます使用されている。研究者は懸念を示しており、システムが「ひそかに不適切な目標を追求」しかねないと案じている。

 「われわれの調査結果では、最先端のモデルが文脈に応じた基礎的な策略を立てる能力を有していると示しており、AIエージェントが不正な行動を取ることは、理論上ではなく現実的な懸念である」と結論づけている。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
クラウド型ERP「マネーフォワード クラウドERP」と販売管理「楽楽販売」、連携を開始
IT関連
2022-03-29 16:03
「WebAssembly 2.0」に関する最初のワーキングドラフが公開。整数における符号拡張命令、関数からの複数の戻り値などを拡張
WebAssembly
2022-05-02 18:38
日本IBM、国内市場に特化したセキュリティソリューションを大幅強化
IT関連
2022-04-29 13:20
「高額プランに誘導しないで」 総務省、携帯3社らに不適切行為の指導要請
企業・業界動向
2021-05-26 12:15
[速報]マイクロソフト、開発環境向けにビルド高速化を実現する「Dev Drive」発表、新ファイルシステムなど採用。Build 2023
Microsoft
2023-05-24 00:28
南紀白浜空港でHoloLens 2利用のスマートメンテナンスや複数ロボットの協調制御による来訪者案内などローカル5G活用実証
IT関連
2022-03-16 13:20
「Skype for Business Online」終了まで1カ月–マイクロソフトが注意喚起
IT関連
2021-07-06 05:16
SpaceXの巨大宇宙船「Starship」、“3度目の正直”で高高度からの垂直着陸に成功……と思いきや数分後に爆発
企業・業界動向
2021-03-05 18:57
キッチンと洗面台が合体 1人暮らしの部屋を広くする「MIXINK」 三菱地所
くらテク
2021-06-16 03:51
ネットワールド、大手流通企業に日本初のサブスク型ピュア・ストレージを納入
IT関連
2024-04-26 02:51
高さ50mの大観覧車に“牢屋”ゴンドラ 富士急ハイランド
くらテク
2021-06-30 08:13
【レビュー】「Elden Ring」で私はフロム・ソフトウェアの信者になった
IT関連
2022-03-20 13:02
デジタル庁旗艦プロジェクト「電子インボイス」の可能性
IT関連
2021-08-21 15:02
フォークを刺した音で食材が分かる 高精度な食事記録システムを立命館大が開発 :Innovative Tech
トップニュース
2021-04-06 02:14