「ChatGPT」の回答は半数以上が不正確–ソフトウェア工学関連の質問で

今回は「「ChatGPT」の回答は半数以上が不正確–ソフトウェア工学関連の質問で」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 「ChatGPT」に対して、ソフトウェア工学関連の質問(プロンプト)を投げかけない方がよいという調査結果が新たに発表された。

 人工知能(AI)チャットボットが台頭してくるまで、「Stack Overflow」というフォーラムは、プログラマーが自らのプロジェクトで抱えている問題の解決策を求めるために最初に頼る場所になっていた。このフォーラムは、質問に対して回答が返されるという点でChatGPTのモデルとよく似ている。

 しかしStack Overflowの場合、ChatGPTとは異なり、誰かが質問に回答してくれるのを待つ必要がある。

 このため、ソフトウェア関係のエンジニアやプログラマーの多くがChatGPTに頼るようになった。しかし、ChatGPTがこの種のプロンプトにどれだけ有効に回答できるかというデータは存在しなかった。このような状況を受け、米インディアナ州のパデュー大学の研究者らは今回の調査に取り組むことになった。

 研究者らは、ChatGPTがソフトウェア工学関連のプロンプトに対してどれだけ効率的に回答できるかを明らかにするために、Stack Overflowに寄せられた517件の質問をChatGPTに与え、回答の正確さと品質を評価した。

 その結果、517件の質問のうちChatGPTによる回答が正しくないと判断されたのは52%の269件に上り、正しいと判断されたのは48%の248件しかなかった。さらに、冗長な回答は77%にも達していた。

 正しくないと判断された回答は数多くあったものの、返ってきた回答の65%は包括的であり、質問のすべての観点に取り組んでいた。

 研究者らはChatGPTの回答品質をさらに分析するために、プログラミングに関する知識レベルが異なる12人に協力を依頼し、これらの回答についての洞察を求めた。

 その結果は下記のグラフが示すように、さまざまなカテゴリーを通じてChatGPTの回答よりもStack Overflowの回答の方が優れていると判断された。また、ChatGPTの正しくない回答を、不正確だと見抜けなかった確率は39.34%だった。

 今回の調査によると、この協力者らはChatGPTが返す明快な応答により、回答に含まれている誤った情報を見落としていたという。

 研究者らは、「協力者らは、ChatGPTの回答における包括的で明快、そして人間のような洞察により、その回答に含まれていた不正確な情報を見落としてしまった(39.34%)」と記している。

 もっともらしく聞こえるが間違った回答を生成するというのは、誤情報の拡散につながるという点で、全てのチャットボットが抱えている重大な懸念だと言える。こうしたリスクに加え、回答精度の低さを考えた場合、ChatGPTをこの種のプロンプトで使用することは考え直したほうがよいだろう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
東急建設、「SAP Analytics Cloud」を既存ツールとハイブリッド活用
IT関連
2021-02-25 14:25
「6年解けなかった構造があっさり」──タンパク質の“形”を予測する「AlphaFold2」の衝撃 GitHubで公開、誰でも利用可能に
ロボット・AI
2021-07-21 14:03
LLMのセキュリティ対策は「まだ道半ば」–Splunkの首席調査官が指摘
IT関連
2024-09-14 12:12
静的サイトジェネレータ「Astro 3.5」正式リリース。多言語対応サイトのサポート、大規模サイトのビルド時間を大幅に改善など新機能
HTML/CSS
2023-11-14 06:37
マイナンバーカード交付最多 20年は前年比3.8倍 目標とは開き
IT関連
2021-01-20 03:39
独立型GPU「Arc」を開発するインテルの狙い
IT関連
2022-04-02 23:15
徳島県つるぎ町立半田病院、リモートアクセスの端末認証対策を強化
IT関連
2023-12-27 16:46
クラウドエッジでのコンピューティングをさらに拡大–アカマイ・テクノロジーズ
IT関連
2024-02-21 07:18
「あの人に偽情報を見せたい」がSNSの“レコメンドAI”悪用で実現する可能性 F-Secureが検証
ロボット・AI
2021-06-29 04:01
欧州のReventが気候・健康・インパクトに特化したファンドで約78億円のハードキャップを達成
IT関連
2022-02-24 11:26
KDDIと三菱重工、NECネッツエスアイが小型データセンターを実証実験
IT関連
2021-06-23 09:07
ZホールディングスとLINEが戦略方針説明会、AIに5年間で5000億円投資し4つの集中領域に取り組む
ネットサービス
2021-03-03 03:41
動画クリエイター向けAI作曲サービスSOUNDRAW、楽曲を「選ぶ」のではなく誰もが「作る」時代へ
人工知能・AI
2021-05-04 09:25
LINE Payオンライン加盟店でLINE独自の暗号資産LINKでの支払いが3月16日から可能に、ビットコインやイーサリアムも検討
IT関連
2022-02-04 22:05