OpenAIなどのクローズドなAI開発のリスク、学者らが警鐘

今回は「OpenAIなどのクローズドなAI開発のリスク、学者らが警鐘」についてご紹介します。

関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)分野における2023年の出来事のうち、将来重大な影響を及ぼす可能性のあるものの1つは、「ChatGPT」を開発したOpenAIが3月に最新の大規模言語モデル(LLM)「GPT-4」を発表した際、このプログラムに関する詳細な技術情報を非公開にするという決定を下したことだ。

 同社が突如として秘密主義に転換したことが、テクノロジー業界にとって大きな倫理的問題になりつつある。というのも、OpenAIとそのパートナーであるMicrosoft以外の誰も、両社のコンピューティングクラウド内のブラックボックスで何が起こっているのかを知り得ないからだ。

 オックスフォード大学のEmanuele La Malfa氏とアラン・チューリング研究所およびリーズ大学の共同研究者らは9月、こうした問題をテーマとした論文をarXiv.org(査読なしのオープンアクセスジャーナル)に発表した。

 この論文で、La Malfa氏らは「サービスとしての言語モデル」(Language-Models-as-a-Service:LMaaS)という現象を考察し、ユーザーインターフェースやAPIを介してオンラインでホストされているLLMについて言及した。このアプローチの主要な例が、OpenAIのChatGPTとGPT-4だ。

 「商業的な圧力によって大規模かつ高性能なLM(言語モデル)が開発され、顧客向けサービスとして独占的にアクセスされる状態になった。これらのLMはユーザーのテキスト入力に対して文字列やトークンを返す。しかし、そのアーキテクチャー、実装、学習手順、学習データに関する情報は公開されておらず、内部状態を検査または変更することもできない」(論文)

 「アクセス制限はLMaaSに固有のもので、そのブラックボックス的な性質と相まって、一般の人々や研究コミュニティーがLMaaSをより良く理解し、信頼し、コントロールする必要性と相容れない」「このことは、この分野の核心部分において重大な問題を引き起こす。つまり、最も強力でリスクの高いモデルは、最も分析が難しいモデルでもあるということだ」

 この問題は、OpenAIの競合他社、特にクローズドソースのコードに対抗してオープンソースのコードを利用している企業を含め、業界内で広く指摘されてきたものだ。例えば、画像生成AI「Stable Diffusion」などのツールを開発している生成AIの新興企業、Stability AIの最高経営責任者(CEO)Emad Mostaque氏は、どの企業もGPT-4のようなクローズドソースのプログラムを信頼できないと述べている。

 同氏は4月に開催された報道陣と経営幹部らによる小規模な会合で、次のように述べた。「非公開データにはオープンモデルが不可欠になるだろう」「その中身をすべて把握しておく必要がある。これらのモデルは非常に強力だ」

 La Malfa氏と同氏が率いるチームは、さまざまな言語モデルの資料を調査し、密室での開発によって、プログラムのアクセシビリティーと反復可能性、比較可能性、信頼性という4つの重要な観点に立った監査がいかに妨げられるのかを明確にした。

 著者らは、これらはAI倫理において新たに出てきた懸念だとし、「これらの問題はLMaaSというパラダイムに特有のものであり、言語モデルにかかわる既存の懸念とは異なっている」と記している。

 アクセシビリティーはコードを非公開にするという話と関係があり、著者らによるとこれは大規模な研究開発(R&D)予算を有する大企業に偏重したかたちで利益をもたらすという。

 著者らは「計算処理に使えるリソースが企業間で大きく異なり、ごく一部の企業に集中している状況において、技術に優れているが計算処理についてはそうではない企業はジレンマに直面する。自社のLMaaSをオープンソースにすれば、市場でのプレゼンスや、コミュニティーによるコードベースへの貢献というメリットがある一方、モデルを支えるコードを公開することで競争上の優位性は、より豊富なリソースを有する企業によってあっという間に相殺されるおそれがある」と記している。

 これに加えて、LMaaSプログラムの均一化された価格は、ツールへのアクセス機会という点で、経済発展が遅れている地域の人々にとって不利に働く。研究者らは「こういった問題を低減するための手始めは、LMaaS、より一般的に言えばスタンドアローンで広く普及するディスラプティブ技術としての従量課金型AIサービスについて、その影響を分析することだ」と示唆している。

 もう1つの問題は、LLMの訓練方法における格差の増大だ。著者らによると、商業LLMは顧客のプロンプトを再利用できるため、公開されているデータのみを用いるプログラムに大きく差をつけられるという。

 著者らは、LMaaSの商用ライセンスによって、「企業がサービスを提供/維持/改善できるよう、その企業にプロンプトの使用権が与えられる」ため、訓練データについて万人が想定できる共通の基準が存在していないと記している。

 著者らは言語モデル別に、ユーザーのオプトアウトが可能なのか、訓練目的で顧客プロンプトを収集しているか、言語モデルの能力向上に向けた「微調整」を加えているのかを一覧できる表も掲載している。

 La Malfa氏と同氏のチームは、さまざまなリスクを詳細に説明した後、4つの分野に取り組むための「仮の議題」を提唱し、「研究者や政策立案者、一般大衆がLMaaSを信頼できるようにするためのソリューションを見いだすために、コミュニティーとして活動する必要がある」と促している。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「LGBTQの居場所をつくる」米国10代向けアプリweBelong、ミクシィ笠原氏などから約7300万円調達
パブリック / ダイバーシティ
2021-03-09 14:33
マイナンバー特化のデジタルソリューションを提供するxIDが総額2億円調達、金融・保険領域でのサービスを加速
IT関連
2022-01-22 18:30
セキュアワークス、XDRサービスを日本で展開–60分以内に即応
IT関連
2022-10-13 05:05
森永製菓、データ基盤を刷新–脱PPAPなどコンテンツセキュリティ確保へ
IT関連
2022-02-02 17:35
「NeXTStep」を懐かしむ人にお勧めのオープンソースOS「Haiku」
IT関連
2023-01-25 15:40
KDDI、仕訳明細・残高データの可視化ツール導入–親会社と子会社双方の負担軽減
IT関連
2021-03-19 16:53
TikTok、日本語と英語の「自動字幕起こし機能」を追加
アプリ・Web
2021-04-08 16:42
コンテナランタイム「containerd 2.0」がまもなく登場。何が変わるのか?
Docker
2024-08-16 18:28
富士通とサントリーロジスティクス、AIでフォークリフト操作の安全性を判定
IT関連
2021-06-04 16:50
ドイツ政府機関が2021年中のフェイスブックページ削除を要請される
ネットサービス
2021-07-10 10:25
富士薬品、店頭メディアサービスを採用–当日使える顧客に適したクーポン発券
IT関連
2023-05-17 16:40
ランサムウェアの要求に従うも、データが流出される事例が発生
IT関連
2022-08-27 03:42
英会話教室のイーオンが対話形式の無料英単語トレーニングが可能な「Amazon Alexa」スキル配信
EdTech
2021-02-23 20:20
NTTデータ、セキュリティ運用事業を強化–2025年度末に年商2000億円超に
IT関連
2023-06-14 15:42