Meta「Llama 3.1」のイノベーション–4050億パラメーターを誇る最新LLM

今回は「Meta「Llama 3.1」のイノベーション–4050億パラメーターを誇る最新LLM」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Metaは米国時間7月23日、同社の大規模言語モデル(LLM)ファミリー「Llama」の最新版を発表した。同社によると、「Llama 3.1」は初のオープンソースの「フロンティアモデル」だという。この表現は一般的に、AIコードの模範となる極めて重要な存在に使われるものだ。

 Llama 3.1には複数のサイズがある。最大の「Llama 3.1 405B」は、ニューラルの「重み」、すなわちパラメーター数が4050億個で、これはNVIDIAの「Nemotron 4」やGoogleの「Gemma 2」、そして「Mixtral」といった著名なオープンソースモデルを上回るが、405Bで注目すべきはそのコンピューティングの規模だけではない。Metaのチームによる3つの選択という点においても重要だ。

 総合的に考えると、その3つの決断はニューラルネットワークエンジニアリングの偉業であり、Llama 3.1 405Bの構築と訓練の根幹を成している。これは、Metaが「Llama 2」で示した深層学習の総演算負荷の削減方法という進歩を補完するものだ。

 (「AIモデル」はAIプログラムの一部であり、これに含まれる多数のニューラルネットパラメーターとアクティベーション関数は、AIプログラムが機能する仕組みにおいて重要な役割を果たす)

 第1の選択として、Llama 3.1 405Bはいわゆる「混合専門家」を採用していない。混合専門家はGoogleが同社の最新クローズドソースモデル「Gemini 1.5」で、MistralがMixtralモデルで使用している。

 混合専門家モデルは、ニューラルの重みのさまざまな代替的組み合わせを作り出す。一部を無効にすることで、重みのサブセットを予測のために使用できるようになる。Metaの研究者らは、「標準的なデコーダーのみのトランスフォーマーモデルアーキテクチャー」を選択した。極めて広い範囲で使用されているこの構成要素は、2017年にGoogleの「Transformer」として最初に開発されたものだ。研究者らは、これによってモデルの訓練中の安定性が向上すると主張している。

 第2に、簡素なトランスフォーマーベースのモデルの結果を改善するために、モデルを段階的に訓練する独創的なアプローチを採用した、とMetaの研究者らは説明する。訓練データの量と使用される演算の量の両方を最適な方法で均衡させると、予測の精度を高められることがよく知られている。

 Llama 3.1の公式論文に記されているように、研究者らは既存の「スケーリング則」に注目した。この法則から、モデルのサイズと訓練データの量に応じて、どの程度正確な予測が生成されるかが分かる。一方で、標準化された推論テストなど、「ダウンストリーム」タスクを実行するモデルの能力については、このアプローチで正確に知ることはできない。

 そこでMetaは独自のスケーリング則を考案した。訓練データの量と演算の量の両方を徐々に増やして、複数の反復をチェックし、訓練済みとなったモデルのダウンストリームタスクの実行能力を確認した。

 「結果として得られた演算最適化モデルを使用して、ベンチマークデータセットでのフラッグシップLlama 3モデルのパフォーマンスを予測する」とMetaのチームは記している。

 これはMetaの最近の研究でみられるアプローチだ。次の単語の予測に関する生のスコアだけでなく、最終的な結果に向けてモデルを訓練する。

 重要なのは、連続するデータと演算の組み合わせの検証を繰り返していくプロセスが、スイートスポットとして選択された4050億のパラメーターへとつながることだ。「この観察結果に基づいて、最終的に4050億のパラメーターでフラッグシップモデルを訓練することに決めた」と研究者らは書いている。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
シスメックス、ジョブ型人事制度のシステム基盤でSAPを導入
IT関連
2022-02-25 17:27
ハイブリッド型授業はこれからの教育を変える–オックスフォード大学の取り組み
IT関連
2022-07-09 15:56
日本でもApple Watch心電図始まる Series 4以降、watchOS 7.3アップデートで
IT関連
2021-01-28 16:57
デジタル定着化支援ツールは従業員ケアにも貢献–Pendo.ioの高山代表
IT関連
2022-01-21 14:46
セコム損保、30年運用の基幹システムをプライベートクラウドへ移行–日立が支援
IT関連
2024-11-10 15:25
4Kカメラ100台で能楽「葵上」を3D化、後から好きなカメラ位置に再編集 キヤノンと日本IBMが協業
イラスト・デザイン
2021-07-06 13:13
長野市民病院、「Zoom」で電子カルテをリモート共有–緊急対応の情報密度が向上
IT関連
2023-11-21 15:32
フロリダ州都市の水処理システムにハッカー侵入–水酸化ナトリウム濃度を100倍以上に
IT関連
2021-02-11 10:24
「Exchange Server」攻撃が世界中で拡大、対応支援の要請殺到 中国の集団が関与か :この頃、セキュリティ界隈で(1/2 ページ)
セキュリティ
2021-03-10 10:16
トヨタ自動車、人事管理基盤の一部にSAPのクラウド人事ソリューションを採用
IT関連
2023-01-13 02:32
NGINXのコア開発者がF5の経営陣に反発、NGINXをフォークし「FreeNginx」を立ち上げ。F5の経営陣がポリシーや開発者の立場を無視したと
HTTP
2024-02-17 09:24
Apache Arrowを商用化するデータ多用化企業Voltron Dataが約127億円調達
IT関連
2022-02-19 04:52
ウクライナ難民支援に関わる欧州関係者狙うフィッシング攻撃–研究者が注意喚起
IT関連
2022-03-05 19:01
世界中の視聴者にエンタメの門戸を広げるローカリゼーションサービス市場をリードするIyuno Media Group
ソフトウェア
2021-05-12 05:10