「ChatGPT」の内部の働き–ユーザーの意図を踏まえた回答を生成する仕組み

今回は「「ChatGPT」の内部の働き–ユーザーの意図を踏まえた回答を生成する仕組み」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 「Google」「Wolfram Alpha」「ChatGPT」はいずれも、単一行のテキスト入力フィールドでユーザーとやりとりし、テキストの結果を返す。Googleが返すのは検索結果であり、そのウェブページや記事のリストによって、検索クエリーに関連する情報が提供される(と願いたい)。Wolfram Alphaは通常、数学やデータ分析に関連する答えを返す。

 ChatGPTは対照的に、ユーザーの質問の裏にある文脈や意図に基づいて応答を提供する。たとえば、Googleに物語を書かせることはできないし、Wolfram Alphaにコードモジュールを作成させることはできないが、ChatGPTはそうしたことを実行できる。

 基本的に、Googleが得意としているのは、巨大なデータベースを検索してヒットした一連の結果を返すことだ。Wolfram Alphaは、データ関連の質問を解析し、それらの質問に基づいて計算を実行する能力を強みとしている。ChatGPTは、クエリーを解析し、デジタルでアクセス可能な世界中のテキストベースの情報(少なくとも2021年以前の訓練の時点で存在していた情報)の大半に基づいて、非常に具体的な回答や結果を生成することに長けている。

 この記事では、ChatGPTがその非常に具体的な回答を生成する仕組みについて解説する。まず、ChatGPTの動作における主要な段階を紹介し、続いてすべてを機能させる中核的なAIアーキテクチャーコンポーネントをいくつか取り上げる。

 記事内で引用した出典(その多くは各技術に関する元の研究論文)に加えて、ChatGPT自体を使って、この背景解説記事を作成した。ChatGPTには大量の質問をした。一部の回答は、この議論の全体的な文脈の中で別の表現に言い換えてある。

 もう一度Googleを例に説明しよう。Googleに何かを調べてほしいと頼むとき、おそらくご存じだと思うが、頼んだ時点で答えを求めてウェブ全体を調べに行くわけではない。Google自体のデータベースを検索して、ユーザーのリクエストに一致するページを探す。Googleには、実質的に2つの主な段階がある。スパイダリングおよびデータ収集の段階と、ユーザーとの対話/検索の段階だ。

 大まかに言えば、ChatGPTも同じように機能する。データ収集の段階は事前学習と呼ばれ、ユーザーに応答する段階は推論と呼ばれる。生成AIの背後にある魔法のような機能と、短期間で爆発的に利用が拡大した理由は、事前学習の仕組みの極めて高いスケーラビリティーが突然証明されたことだ。そのスケーラビリティーを可能にしたのは、手頃な価格のハードウェアテクノロジーとクラウドコンピューティングにおける最近のイノベーションだった。

 概して言うと(詳細に説明すると非常に長くなってしまうため)、AIの事前学習には、教師ありと教師なしという2つの基本的なアプローチを使用する。ChatGPTのような現在の生成AIシステムが登場するまでは、ほとんどのAIプロジェクトで教師ありアプローチが使用されていた。

 教師あり事前学習は、モデルをラベル付きのデータセットで訓練して、それぞれの入力を対応する出力に関連付けるプロセスだ。

 たとえば、AIを顧客サービスの会話のデータセットで訓練する場合、ユーザーの質問や苦情を、顧客サービス担当者からの適切な応答でラベル付けする。AIの訓練では、「パスワードをリセットするにはどうすればいいか」といった質問がユーザー入力として与えられ、「当社のウェブサイトのアカウント設定ページにアクセスし、プロンプトに従って進めば、パスワードをリセットできる」といった回答が出力として与えられる。

 教師あり学習のアプローチでは、モデル全体を訓練してマッピング機能を学習させ、入力を出力に正確にマッピングできるようにする。このプロセスは、分類、回帰、シーケンスラベリングなどの教師あり学習タスクでよく使用される。

 ご想像のとおり、このアプローチのスケーラビリティーには限界がある。人間の教師が多大な労力をかけて、あらゆる入力と出力を予測しなければならない。訓練には非常に長い時間がかかり、対象分野の専門知識だけに限定される可能性がある。

 しかし、周知のとおり、ChatGPTには分野の専門知識に関する制限がほとんどない。テレビドラマ「スタートレック」の登場人物であるマイルズ・オブライエン主任の履歴書を書かせることもできるし、量子物理学についての説明や、コードの作成、短編小説の執筆、米国の歴代大統領の政治スタイルの比較も可能だ。

 どのような質問をされるのか、すべてを予測することはできないため、ChatGPTが教師ありモデルで訓練されたとは考えられない。ChatGPTが使用するのは教師なし事前学習だ。これによって大変革がもたらされた。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「Windows 11 24H2」、修正パッチが登場するも新たなバグが発生
IT関連
2024-10-31 08:46
EUがAIのリスクベース規則の罰金を全世界年間売上高の最大4%で計画、草案流出で判明
パブリック / ダイバーシティ
2021-04-30 21:34
「Google Play」ストアに35種類の悪意あるアプリ–200万回以上ダウンロード
IT関連
2022-08-20 06:13
プレステ版Robloxが登場しそう、PlayStationコンソールのソフトウェアエンジニアを募集中
IT関連
2022-03-11 06:50
日経225企業のDMARC導入率は68.0%、前年比12.9%増加–TwoFive調査
IT関連
2023-11-09 23:11
日立とサイファーマ、SUBARUのセキュリティ対策強化を支援
IT関連
2022-03-20 08:57
BMWが曲面ディスプレイを採用する次世代版「iDrive」インフォテインメントシステムを公開
モビリティ
2021-03-17 03:46
NEC、倉庫での作業内容やレイアウト変化に対応する「ロボット制御AI」開発
IT関連
2023-03-07 10:15
中外製薬、従業員同士で「感謝」と「ポイント」を贈るツール導入–成長促進と社会貢献へ
IT関連
2022-09-28 02:27
グーグルとルノーが提携を拡大–SDV向けデジタルアーキテクチャーの設計・実現に向け
IT関連
2022-11-10 13:12
米国の国会議員が掌紋データの今後の扱い方などでアマゾンに質問状
IT関連
2021-08-15 07:23
PelotonのCEOが是正措置は認めるもバイクとトレッドミルの「全生産停止」を否定
IT関連
2022-01-24 08:48
パナソニック、太陽電池生産から撤退
企業・業界動向
2021-02-03 17:20
KDDIら、ロボット、自動運転車、ドローン組み合わせ自動配送–山間部の配送も視野
IT関連
2024-12-07 07:26