Meta「Llama 3.1」のイノベーション–4050億パラメーターを誇る最新LLM

今回は「Meta「Llama 3.1」のイノベーション–4050億パラメーターを誇る最新LLM」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Metaは米国時間7月23日、同社の大規模言語モデル(LLM)ファミリー「Llama」の最新版を発表した。同社によると、「Llama 3.1」は初のオープンソースの「フロンティアモデル」だという。この表現は一般的に、AIコードの模範となる極めて重要な存在に使われるものだ。

 Llama 3.1には複数のサイズがある。最大の「Llama 3.1 405B」は、ニューラルの「重み」、すなわちパラメーター数が4050億個で、これはNVIDIAの「Nemotron 4」やGoogleの「Gemma 2」、そして「Mixtral」といった著名なオープンソースモデルを上回るが、405Bで注目すべきはそのコンピューティングの規模だけではない。Metaのチームによる3つの選択という点においても重要だ。

 総合的に考えると、その3つの決断はニューラルネットワークエンジニアリングの偉業であり、Llama 3.1 405Bの構築と訓練の根幹を成している。これは、Metaが「Llama 2」で示した深層学習の総演算負荷の削減方法という進歩を補完するものだ。

 (「AIモデル」はAIプログラムの一部であり、これに含まれる多数のニューラルネットパラメーターとアクティベーション関数は、AIプログラムが機能する仕組みにおいて重要な役割を果たす)

 第1の選択として、Llama 3.1 405Bはいわゆる「混合専門家」を採用していない。混合専門家はGoogleが同社の最新クローズドソースモデル「Gemini 1.5」で、MistralがMixtralモデルで使用している。

 混合専門家モデルは、ニューラルの重みのさまざまな代替的組み合わせを作り出す。一部を無効にすることで、重みのサブセットを予測のために使用できるようになる。Metaの研究者らは、「標準的なデコーダーのみのトランスフォーマーモデルアーキテクチャー」を選択した。極めて広い範囲で使用されているこの構成要素は、2017年にGoogleの「Transformer」として最初に開発されたものだ。研究者らは、これによってモデルの訓練中の安定性が向上すると主張している。

 第2に、簡素なトランスフォーマーベースのモデルの結果を改善するために、モデルを段階的に訓練する独創的なアプローチを採用した、とMetaの研究者らは説明する。訓練データの量と使用される演算の量の両方を最適な方法で均衡させると、予測の精度を高められることがよく知られている。

 Llama 3.1の公式論文に記されているように、研究者らは既存の「スケーリング則」に注目した。この法則から、モデルのサイズと訓練データの量に応じて、どの程度正確な予測が生成されるかが分かる。一方で、標準化された推論テストなど、「ダウンストリーム」タスクを実行するモデルの能力については、このアプローチで正確に知ることはできない。

 そこでMetaは独自のスケーリング則を考案した。訓練データの量と演算の量の両方を徐々に増やして、複数の反復をチェックし、訓練済みとなったモデルのダウンストリームタスクの実行能力を確認した。

 「結果として得られた演算最適化モデルを使用して、ベンチマークデータセットでのフラッグシップLlama 3モデルのパフォーマンスを予測する」とMetaのチームは記している。

 これはMetaの最近の研究でみられるアプローチだ。次の単語の予測に関する生のスコアだけでなく、最終的な結果に向けてモデルを訓練する。

 重要なのは、連続するデータと演算の組み合わせの検証を繰り返していくプロセスが、スイートスポットとして選択された4050億のパラメーターへとつながることだ。「この観察結果に基づいて、最終的に4050億のパラメーターでフラッグシップモデルを訓練することに決めた」と研究者らは書いている。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
グローバル学生特化型プラットフォーム「JPort」のSPeakが8000万円調達、就活のボーダーレス化目指す
HRテック
2021-05-21 20:37
無名スタートアップから企業価値3.8兆円のRPAユニコーンに登りつめたUiPath成長の軌跡
ソフトウェア
2021-03-30 15:37
東北大と富士通が戦略提携–デジタルツイン活用で地域住民の健康増進
IT関連
2022-09-29 18:11
東京大学と農研機構が作物の品種改良を行う育種家の感性を解明、柑橘類の皮の剥きやすさと実の硬さを深層学習で定量化
IT関連
2022-02-15 07:21
NEC、2024年3月期決算は増収増益–旺盛なITサービス需要で高水準の成長
IT関連
2024-05-01 10:42
プログラミングを3D空間で ソニー子会社が4月から提供 物理演算シミュレーターも搭載
ロボット・AI
2021-01-30 06:54
ADKグループ、全社員に「Azure OpenAI Service」活用のボット公開–プランニングへの活用など図る
IT関連
2023-06-14 01:55
「Raspberry Pi」に「Linux」をインストールするには
IT関連
2023-03-26 23:23
au PAYで給与前払い KDDI孫会社が企業向けサービスを5月に提供
企業・業界動向
2021-01-19 06:35
TikTok、動画長さを60秒から3分に拡張 全員利用可能に
アプリ・Web
2021-07-03 12:36
NEC、ファイルサーバー統合管理ソフトの最新版–セキュリティ対応など強化
IT関連
2023-04-13 19:13
“マッチョ専門フリー素材サイト”が音声素材を公開 「仕上がってるよ!」「背中に鬼神が宿ってる!」など
イラスト・デザイン
2021-05-11 06:05
日立製作所、ESGデータの収集・可視化・分析を効率化する新サービス
IT関連
2022-09-08 11:32
「目についたら異常」などあいまいな官能検査も対応、ロビットが工業製品向け汎用型AI外観検査ロボを提供開始
ロボティクス
2021-04-08 11:59