「ChatGPT」の精度を劣化させる「ドリフト」現象–米研究チームが検証

今回は「「ChatGPT」の精度を劣化させる「ドリフト」現象–米研究チームが検証」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 「ChatGPT」を使っていて実際にそう感じたり、あるいはそのような記事を読んだりした人もいるだろう。ChatGPTの精度が劣化しているのではないかという、あのうわさは本当だったようだ。

 この現象はいささか不可解に感じられる。なぜなら、生成人工知能(AI)モデルはユーザーからの入力を利用して自らを訓練し続けるため、時間とともにより多くの入力が蓄積されるほど賢くなるはずだからだ。

 その謎の答えは、「ドリフト」と呼ばれる概念にあるかもしれない。

 「ドリフト」とは、大規模言語モデル(LLM)が予期しない、あるいは予測不可能な振る舞いをし、元のパラメーターから逸脱してしまうことだ。こうした現象は、複雑なAIモデルの一部を改善しようとした結果、他の部分の性能が低下することで発生する可能性がある。

 カリフォルニア大学バークレー校とスタンフォード大学の研究チームが、ドリフト現象を検証するための研究で、広く用いられているLLM「GPT-3.5」(ChatGPTの基盤)と「GPT-4」(新しい「Bing」と「ChatGPT Plus」の基盤)の経時的変化を調査した。

 この研究では、両LLMの能力を、それぞれ2023年3月と6月のバージョンで比較した。比較したのは、数学の問題を解く能力、デリケートな質問に答える能力、意識調査に答える能力、知識を要するマルチホップ型の質問(複数のソースから情報をまとめなくてはならない質問)に答える能力、コード生成能力、米国医師免許試験の回答、および視覚的推論タスクの能力だ。

 その結果、多くのタスクでGPT-4の3月バージョンが6月バージョンを上回った。最も顕著な差が出たのは基本的な数学のプロンプトで、例題(a)と(b)の両方で3月バージョンが6月バージョンを上回った。

 また、デリケートな質問への回答、コードの生成、医師免許試験の成績、意識調査への回答でも、3月の方が高成績だった。これらはすべてドリフト現象によるものと考えられる。

 GPT-3.5一方GPT-3.5では、多くのタスクで6月のバージョンが3月のバージョンを上回った。

 今回の研究に参加したJames Zou氏は、「(ドリフトが)起こるのではないかと疑ってはいたが、これほど速いペースでドリフトが発生していることは大きな驚きだった」とThe Wall Street Journal(WSJ)に語った。

 ただし、GPT-4とGPT-3.5のいずれも、6月の方が改善されていたタスクもあった。そのため研究者らは、LLMを使い続けるよう推奨しつつ、使用する際には注意を払い、常に検証する必要があるとしている。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
FTC、「修理する権利」制限に対する法的処置強化の政策声明
企業・業界動向
2021-07-23 16:27
CISA長官が語る「セキュリティバイデザイン」の重要性、未来の世界を左右する課題
IT関連
2022-05-20 00:30
[速報]マイクロソフト「Windows 365 Cloud PC」正式発表。Windowsをクラウドサービスとして月額定額料金で提供、デスクトップ仮想化をベースに
Microsoft
2021-07-15 19:04
Salesforceで障害か 「ログインできない」報告相次ぐ【追記あり】
クラウドユーザー
2021-05-13 06:35
医薬品の低温輸送に適した「自己冷蔵型クラウドベースの配送箱」をEmberが発表、大手ヘルスケア物流企業と提携
IT関連
2022-02-02 16:56
WordPressコミュニティーでグーグル提案の「FLoC」への対応が議論に
IT関連
2021-04-20 16:30
アジャイルなeコマースツールの拡大を目指すSpryker、5億ドル超の評価額で1億3000万ドルを調達
IT関連
2021-01-13 08:58
アマゾンなどの「プラットフォーム経済」上で成立するスタートアップを支援するCrossbeamが26億円調達
VC / エンジェル
2021-01-17 05:05
マイクロソフトがゲームチャット「Discord」買収で交渉最終段階か、買収額は1兆円強規模
ゲーム / eSports
2021-03-25 01:50
TikTokがイタリア当局の全ユーザー年齢確認命令を受け50万超のアカウントを削除
ネットサービス
2021-05-14 09:47
iTunesカードの10%還元、コンビニ各社で 5月9日まで
くらテク
2021-04-27 15:29
NASAが新たに2つの民間宇宙飛行士によるISS滞在ミッションの提案を募集
宇宙
2021-06-13 16:38
大ヒットゲーム「PUBG Mobile」のインド復帰をまつわるさまざまな疑問
ゲーム / eSports
2021-06-19 20:57
最短90日で新製品誕生、ハードウェアスタートアップのモノづくりを支援するプラットフォーム「Gembah」
ハードウェア
2021-07-14 12:05