データ活用における生成AIとクラウド–2024年のトレンドを読む(前編)

今回は「データ活用における生成AIとクラウド–2024年のトレンドを読む(前編)」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 生成AIは、Gartnerが2023年に発表した先進テクノロジーのハイプサイクルにおいて、「過度な期待」のピーク期に近づいていると考えられています。

 生成AIのメリットは魅力的かつ広範囲にわたるため、アナリストらは生成AIがあらゆる主要産業や業務部門に影響を及ぼすであろうと見込んでいます。McKinsey&Companyによる2023年のレポートでは、現代における生成AIとその他のテクノロジーは、従業員の業務時間の60~70%に当たる作業を自動化する可能性があると述べられています。また、IDCの調査では、アジア太平洋地域の組織の3分の2が2023年に生成AIの検討や調査を進めていることが明らかになりました。

 2024年は、企業が生成AIの運用や改善に一層注力するとともに、クラウドをはじめとするさまざまな環境で増大するデータを管理するアプローチを見直し、さらなる柔軟性と成長を実現する取り組みを推進していくと予想されます。

 2024年に見られるであろうトレンドを6つのポイントに分けて前編・後編で紹介します。なお、後編は筆者(Daniel Hand)の予測に、Cloudera 社長執行役員の大澤毅の見解も加えています。

 2022年11月に「ChatGPT」(GPT-3.5)がリリースされて以来、組織は成果を達成するため十分なコンテキストデータを安全に提供しつつ、メリットを実現するという課題に直面しています。

 ChatGPTや大規模言語モデル(LLM)を基盤とするその他のSaaSは、データプライバシーに関する重大な課題を組織にもたらします。多くの場合、質問、回答、コンテキストデータは機密性を有しています。そのため、モデルの再トレーニングのためにこうしたデータを再利用するパブリックなマルチテナント型サービスは、企業での利用に適しているとは言えません。

 Metaの「Llama 2」などのオープンソース型LLMも急速な進化を遂げ、ChatGPTに引けを取らないパフォーマンスにより代替サービスとしての可能性を示してはいますが、拡張性や信頼性を実現しつつ生成AIモデルをラボから実運用へと移行させることは困難です。また、これらのサービスは一般的に複数のアプリケーションで共有されるため、データ連携に関しては、従来の機械学習(ML)モデルと比べて大きな課題が残ります。

 2024年、組織は引き続き強力な機械学習運用(MLOps)とデータ連携機能の開発に注力することになるでしょう。

 LLMのパフォーマンスを最適化するためには、プロンプトエンジニアリングや検索拡張生成(RAG)、ファインチューニングなど幾つかのアプローチが存在します。

 RAGはナレッジベースのコンテンツを使い、プロンプトを拡充して、必要なコンテキストを提供します。RAGの主要なコンポーネントは、特別な方法でインデックスを付与したナレッジベースコンテンツのデータベースです。

 ユーザーからの質問は数学的な表現でエンコードされ、データベース内でその質問に非常に近いコンテンツを検索する際に使用できます。これらの質問はプロンプトの一部としてLLMに送信され、推論に利用されます。質問とドメインのコンテキストをいずれも提供することで、結果が大幅に改善されます。

 RAGはLLMのトレーニングやチューニングを行わずとも優れた成果を達成できるため、LLMの導入時の効果的なアプローチとして定評があります。しかし、ナレッジベースリポジトリーの維持にはデータエンジニアリングパイプラインと、インデックス化されたデータを保存する特別なベクトルデータベースが必要です。

 2024年においても、RAGは多くの組織にとって、引き続き利用しやすい生成AIアプローチであろうと思われます。

 2023年に大いに関心を集めたファインチューニングのアプローチの1つが、Performance Efficient Fine Tuning(PEFT)です。PEFTは多目的LLMと共存しつつ、ドメイン固有のデータについて小規模なニューラルネットワークをトレーニングします。これにより、コストや必要となるトレーニングデータを抑えつつ、大規模LLMの再教育によるパフォーマンスのメリットを最大限に得ることができます。LLMのファインチューニングには強力なML機能が必要となりますが、特にトレーニングデータの制約がある場合には、効率、説明可能性や結果の精度が大幅に改善される可能性があります。

 2024年にはPEFTのようなファインチューニングのアプローチが組織にますます活用されるようになるでしょう。新規のプロジェクトだけでなく、初期のRAGアーキテクチャーを利用していたプロジェクトを代替する可能性もあります。大規模かつ有能なデータサイエンスチームを擁する組織では、大いに活用されるようになるでしょう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
廃棄物だった「焼酎かす」を電力へ–霧島酒造が進める循環型社会
IT関連
2023-01-24 15:25
開発者の大量離職時代はまだ続く–過半数が1年以内の離職を検討
IT関連
2023-01-18 05:56
テレビCMを郵便番号でターゲティング、地域に合わせて情報発信 中京テレビ
企業・業界動向
2021-08-17 08:55
北朝鮮のハッキング集団「Lazarus」、攻撃初期の手口など–NCC Group分析
IT関連
2022-05-12 13:49
Twitter版Clubhouseの「Spaces」、ブラウザ版からも参加可能に
企業・業界動向
2021-05-29 06:25
七十七銀行、富士通と顧客接点の高度化で記入レス・印鑑レスを実現
IT関連
2023-10-19 12:26
テレワークにふさわしいPCとは? PCメーカーが教える選定の基準
PR
2021-06-26 22:44
データを活用できずにいる企業の多さが浮き彫りに–セールスフォース調査
IT関連
2023-03-08 17:29
必要な場所にデータを移動させるオープンソースのデータコネクタープラットフォームAirbyteが28.3億円調達
ソフトウェア
2021-05-27 04:20
持続可能な自動車製造を目指すBMWが二酸化炭素を排出しない製鉄技術を開発したBoston Metalに投資
EnviroTech
2021-03-15 11:51
GitLab、「Google Cloud」統合をパブリックベータ提供–認証の合理化などが可能に
IT関連
2024-04-12 06:11
マイクロソフト「Pluton」チップ活用、初のArm版「Windows 11」ノートPCへの期待
IT関連
2022-03-11 04:00
コンテナーの保護にVM関連技術を応用–「Rust」ベースの新ソリューション「Edera」
IT関連
2024-04-19 12:51
グーグル・クラウドが伴走者–顧客主体の内製開発プログラム「TAP」を提供
IT関連
2022-10-01 06:06