パナソニック、国内最大規模のLLMを自社用に構築へ–2024年秋に利用開始
今回は「パナソニック、国内最大規模のLLMを自社用に構築へ–2024年秋に利用開始」についてご紹介します。
関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
パナソニック ホールディングスは7月2日、国内最大規模となる1000億パラメーターの自社専用の大規模言語モデル(LLM)を構築すると発表した。2024年秋から利用を開始できるようにする。
同社が構築するLLMは、ストックマークが独自開発したLLM「Stockmark-LLM-100b」をベースに、パナソニックグループの社内データを追加事前学習させたもので、同社専用の「Panasonic-LLM-100b」として構築する。今後は、パナソニックホールディングスで開発しているマルチモーダル基盤モデルへの統合を目指すほか、セキュリティ面に配慮して企業の秘匿データを高い安全性により学習する仕組みも構築する予定だという。将来的には、同LLMを製品やサービスに組み込んだ活用の可能性もあるという。
同日記者会見したテクノロジー本部 デジタル・AI技術センター 所長の九津見洋氏は、「APIレベルの利用ではなくLLをそのまま提供してもらうことが今回の協業の肝になる。パナソニックグループとして、外部に出していない製品情報や技術情報、設計資料などを追加学習させることで、より精緻化した独自の日本語LLMを開発でき、幅広い事業領域にAIの活用を広げていくことができる」と述べた。
また、同氏は「当社に蓄積されたシステム開発ノウハウを活用することで、Panasonic-LLM-100bの性能を劣化させずに、小型化と高速化ができる。これにより商品特化モデル、現場特化モデルも展開し、適用範囲を拡大する。機器リソースが潤沢ではないエッジ領域やオンプレミス領域でも利用できるようにする」と説明した。
今回は、パナソニックグループが保有するデータをオープンソースモデルに追加事前学習させることで、プロンプトエンジニアリングや検索拡張生成(RAG)、ファインチューニングでは得られない多くの知識をLLMにあらかじめ学習させることができる。このため汎用モデルの学習データにはない業界専門用語への対応といった自社独自の知識、ノウハウをLLMに統合する。言語モデルの高性能化やフルカスタマイゼーションに関する技術も、社内に蓄積することにつながるとしている。
ストックマークは、2016年に創業したスタートアップ企業で、自然言語処理技術を活用して、国内外の約3万5000サイトのビジネスニュースを分類し、事業アイデアの着想と組織内での発展を促す「Anews(エーニュース)」や、AIが組織や業務に合わせて必要な情報を構造化し示唆を得られる市場調査サービス「Astrategy(エーストラテジー)」を提供している。また、企業に特化したLLMの開発支援や個別システムの開発支援を行う「SAT」も提供する。Anewsは国内300社以上が導入しており、約7割が製造業で日経225の約3割が導入しているという。
同社が開発したStockmark-LLM-100bは、経済産業省と新エネルギー・産業技術総合開発機構(NEDO)による「GENIAC」の採択を受けて開発したLLMで、5月には商用利用可能な形式で公開されている。同社がフルスクラッチで開発した1000億パラメーター規模のLLMとなり、独自に収集したビジネスドメインの日本語データを中心として事前学習することで、日本語やビジネス領域に特化した。ハルシネーションを大幅に抑止することで、厳密さが重視されるビジネスシーンでも信頼して利用することができるのが特徴だ。
ストックマーク 代表取締役CEO(最高経営責任者)の林達氏は、「当社の調査では、生成AI利用者の大多数が数日に1回程度しか利用していない。ビジネスで利用されていない理由はハルシネーションがあるためになる。当社では、独自のビジネスデータを持ち、1兆トークンの学習を行い、ビジネスに特化したハルシネーションの抑制ができるようになっている。高度な質問にも豊富な知識で対応でき、時事性の高い話題にも精通しており、事実が存在しない質問に回答しない厳密性を持っている。ビジネス領域では、(OpenAIの)『GPT-4』より高い回答精度を誇る。フルスクラッチでLLMを開発できる企業は、日本では5社程度しかなく当社はそのうちの1つ」などと述べた。
また林氏は、「Google検索ができるようなオープンデータは、データ全体の約2割で、残りの8割が企業内などに蓄積され、一般的なLLMは世の中の2割のデータしか使われていないのが現状。GPT-4も学習したデータは約1PBだ。しかし、企業内に蓄積されているデータは1社当たり5~10PBもあると言われる。パナソニックグループ全体では、さらに大きなデータ量を蓄積しているだろう。GPT-4よりも知識が多いモデルを個社で作ることは現実的で、それを作らないことは自社にとって使えないLLMを使い続けることにもなりかねない。企業特化のLLMの構築は必然のトレンドで、それをしなければ、大きな機会損失を招く」と提言した。