「ChatGPT」などの生成AIを欺くことに研究者らが成功、安全性に警鐘

今回は「「ChatGPT」などの生成AIを欺くことに研究者らが成功、安全性に警鐘」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 カーネギーメロン大学と非営利団体Center for AI Safetyの研究者らが協力し、OpenAIの「ChatGPT」、Googleの「Bard」、新興企業Anthropicの「Claude」など、AIチャットボットの脆弱性について調査した。その結果をまとめた報告書によると、これらは悪意あるプロンプトに対して脆弱であることが明らかになったという。

 多くの人が、人工知能(AI)ツールを日常的に使うようになっているが、セキュリティーの脆弱性に対して、完全に無縁ではないことを肝に銘じる必要がありそうだ。

 研究者らは、自動敵対的攻撃に対する大規模言語モデル(LLM)の脆弱性を検証した報告書で、攻撃に対して耐性があると考えられているLLMであっても、コンテンツフィルターを迂回(うかい)し、有害な情報や偽情報、ヘイトスピーチを提供するように欺けることを証明した。

 調査では、オープンソースのAIシステムを使い、OpenAI、Google、AnthropicのブラックボックスLLMを対象に実験を行った。これらの企業は、それぞれが基盤となるモデルを開発し、その上に各社のAIチャットボット、すなわちChatGPT、Bard、Claudeを構築している。

 2022年11月にChatGPTがリリースされて以来、一部のユーザーはこれを使って悪意のあるコンテンツを生成する方法を探している。このためOpenAIや、同社に続いてAIツールを公開したMicrosoft、Google、Anthropicなどの企業は、AIチャットボットが悪用され、偽情報が拡散されないように、それぞれ独自の「ガードレール」を開発した。

 研究者らは、こうした安全対策の強度を試すことにした。具体的には、各プロンプトの末尾に長い文字列を付加し、AIチャットボットが有害な入力を認識できないようにして、欺くことに成功した。チャットボットは偽装されたプロンプトを処理するものの、ガードレールとコンテンツフィルターは付加された余分な文字列により、ブロックもしくは修正すべきものと認識できず、通常なら生成しないような応答を生成することが示された。

 AIチャットボットが、入力されたプロンプトの本質を誤って解釈し、本来なら許可されない情報を出力したため、より強固な安全対策が必要であることが浮き彫りになった。またガードレールやコンテンツフィルターがどのように構築されているか、見直す必要もあるだろう。

 カーネギーメロン大学のZico Kolter教授は、「明確な解決策はない」と語った。「この種の攻撃は、短時間でいくらでも作り出すことができる」

 研究者らはこの報告書の公開前に、調査結果をAnthropic、Google、OpenAIと共有した。各社は、自社モデルを敵対的攻撃から守るために、一層の取り組みが必要であることを認め、チャットボットの安全性強化に注力していく意向を明らかにしたという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
"国家の利益のため"活動する中国の脅威アクター、東南アジアの大手通信事業者狙う–Cybereason報告
IT関連
2021-08-06 10:09
説明責任向上を目指してNorrsken VCはパートナー報酬にポートフォリオ企業の持続可能性達成度を紐づけ
VC / エンジェル
2021-03-31 00:32
Google Cloud、Armベースの初の仮想マシン「Tau T2A」を発表
IT関連
2022-07-16 13:26
森永乳業、ERPパッケージの導入で財務会計業務のデジタル化を推進
IT関連
2023-12-14 14:40
デジタルクローンの社会実装に踏み出すオルツ–CTOに聞く技術進化
IT関連
2024-08-20 12:58
ガートナー、「生成AIのハイプ・サイクル:2024年」を発表–2027年までに生成AIの40%がマルチモーダルに
IT関連
2024-09-11 10:01
企業のネットワーク狙うランサムDDoS攻撃が大幅に増加–Neustar調査
IT関連
2021-01-29 02:42
eBayでもNFTの売買が可能に
アプリ・Web
2021-05-13 03:01
第1回:注目されるコンポーザブルERP–ERPの歴史からひも解く背景
IT関連
2023-11-16 13:23
国内プライベートクラウド市場は2023年の2兆円から5年で2倍以上の4兆円超に。IDC Japanの予測
クラウド
2024-10-09 02:03
【コラム】暗号資産とブロックチェーンは問題を受け入れてサステナビリティを牽引するべきだ
ブロックチェーン
2021-05-18 21:49
中国におけるファーウェイのスマホシェアが急激に縮小、米制裁の影響如実に、アップルはじめライバルには追い風
ハードウェア
2021-01-31 22:04
インドの優秀な人材を効果的に–インスタリムのエンジニア採用の実際
IT関連
2022-02-01 12:42
さよならVMware/高速なPython互換「Mojo」Mac版登場/Webアプリのテスト自動化サービス「Microsoft Playwright Testing」ほか、2023年10月の人気記事
編集後記
2023-11-06 18:04