産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張

今回は「産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 産業技術総合研究所(産総研)と東京工業大学(東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームは、日本語能力に優れた大規模言語モデル(LLM)「Swallow」を公開した。産総研が12月21日に発表した。同モデルは現在公開されている日本語に対応したLLMとしては最大規模であり、商用利用が可能なため、安心してビジネスに活用できるとしている。

 両者の研究チームは、MetaのLLM「Llama 2」の日本語能力を拡張することでSwallowを構築した。拡張前のLLMの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙(ごい)を追加した上で、新たに開発した日本語データを用いてモデルを継続的に構築する「継続事前学習」を行った。今回公開したモデルは、70億/130億/700億パラメーター(7/13/70B)の3種。

 現在、自然言語処理やAIの研究開発の推進、LLMのメカニズム解明、海外依存を理由とした安全保障上のリスク懸念など、さまざまな動機で日本語に強いLLMの開発が進められているが、日本語に強くオープンかつ高性能なモデルは少なかった。そこで、東工大と産総研はLLMの開発に関する共同研究を開始した。

 同研究において、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善、産総研はモデル構築に必須な大規模計算資源として「AI橋渡しクラウド」(AI Bridging Cloud Infrastructure:ABCI)を提供するとともに、主に継続学習によるモデルの日本語能力の改善を担当した(写真1)。モデルの学習データには、東工大が新エネルギー・産業技術総合開発機構(NEDO)のプロジェクトで開発した大規模な日本語ウェブコーパスを用いた。

 Llama 2は日本語にも対応しているが、事前学習データの約90%は英語が占めており、日本語の割合は全体の約0.1%にとどまっている。そのため、同モデルは英語で高い性能を示す一方、日本語の読み書きは苦手という弱点があった。

 そこで、研究チームではLlama 2の7/13/70Bのモデルをベースに、大規模な日本語ウェブコーパスと英語のコーパスを9対1で混ぜたデータを用いて継続事前学習を行い、本来の言語モデルの能力を生かしながら日本語能力の改善に取り組んだ。その結果、研究チームが採用した日本語に関するベンチマークデータにおいて、7/13/70Bの全モデルはベースモデルよりも高い性能を示した。また、日本語コーパスのみで事前学習された同規模の日本語LLMよりも高い性能を示すことから、継続事前学習の有効性が明らかになった。

 Llama 2は、アルゴリズムの一つ「バイト対符号化」に基づいてテキストがトークンに区切られているが、英語を重視した多言語のモデルとして学習されているため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位に区切られることがある。例えば「吾輩は猫である」という7文字のテキストは「はである」という、人間には理解しにくい13トークンに区切られる。

 日本語の語彙が不足している言語モデルは、日本語を不自然な単位で取り扱うことに加え、テキストをより多くのトークンで表現してしまうため、学習や生成の効率が低下する。LLMの学習に必要な計算予算はトークン数に比例するため、逆に計算予算が一定である条件下ではテキストを少ないトークンで表現する方がより多くの情報を学習に詰め込める。

 また、LLMがテキストの生成に要する時間はトークン数に比例するため、同じテキストを生成するのであれば、より少ない数のトークンで表現できる方が短時間で結果を出力できる。さらにLLMの入力や出力には、一度に扱えるトークン長の上限がある。入力をより少ないトークンで表現できる方が、タスクの指示や解き方「few-shot事例」を多く詰め込めるため、下流タスクでの性能向上も期待される。研究チームは、Llama 2のトークナイザーに1万6000件の日本語のトークンを追加することで、日本語テキストのトークン長を56.2%に削減した。 大規模な日本語のウェブコーパスを開発

 LLMの学習には、膨大な言語データが必要となる。特にウェブページを収集し、テキスト化したデータはLLM構築の要である。従来オープンな日本語LLMの学習には、「CC-100」「mC4」「OSCAR」など既存のデータセットの日本語部分が用いられてきた。しかし、これらのデータセットでは、ウェブページのHTMLをテキスト化する際のノイズが混入していたり、最新の情報や知識を収録していなかったりする問題があった。また、これらは多言語のデータセットとして構築されているため、日本語に特化してデータの品質を高めるような工夫は取り入れられていない。

 そこで研究チームは、ウェブサイトを巡回・情報収集し、そのアーカイブを無償で提供する非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築した。この規模は、CC-100 (約258億文字)、mC4(約2397億文字)、OSCAR 23.10(約740億文字)を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大だという。

 世界的にLLMの大規模化が進む中、日本語を扱う能力が高いものが少なかったが、今回のモデル公開によって、高度な日本語処理が求められる日常生活・産業現場においてAI技術の活用を推進できる。今回公開するSwallowのライセンスは、Llama 2の「LLAMA 2 Community License」を継承しており、ライセンスに従う限りは研究/商業目的での利用が可能である。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
デルタ工業、全社基幹システムを「Oracle Fusion Cloud Applications」で刷新
IT関連
2024-01-26 00:28
Google Cloud、AWS、Cloudflare、過去最大規模のDDoS攻撃を報告
IT関連
2023-10-12 23:51
「GIGAスクール構想対象自治体の約半数がChromebookを選択」とGoogle
企業・業界動向
2021-02-19 23:46
ミクシィの新卒エンジニア研修資料が話題 講師は「モンスト」エンジニアなど iOS/AndroidアプリやUnity開発などを公開
ネットトピック
2021-07-31 09:15
Coinbase、第4四半期決算で予想を上回るも年明けの低迷を受け株価は沈む
IT関連
2022-02-27 20:44
NXグループ、2028年度末までに400人のDX専門人材を育成へ–NECが独自プログラムを作成
IT関連
2024-08-22 11:12
ブランドアイテムを販売する小売店向けオンライン卸売マーケットプレイス「homula」が1億円調達
ネットサービス
2021-06-01 23:52
Java採用企業はどう使用しているのか–New Relicがオブザーバビリティから分析
IT関連
2024-06-07 00:28
海外旅行予約アプリ「NEWT」を運営する令和トラベル、旅行販売を行う「NEWTメタバース支店」を期間限定オープン
IT関連
2022-03-12 13:09
恩恵を受けるのは顧客対応部門–先進企業、DXの効果を感じるも人材不足に苦慮
IT関連
2023-01-31 00:24
エコノミークラスの座席生地で作ったPCケース ANAが初の製品化
くらテク
2021-06-23 23:53
サイバーセキュリティで協業するIBMとパロアルトネットワークス、その狙いと展開
IT関連
2024-10-08 02:14
Cloudflare、AIスクレイピングを防ぐ無料ツールを提供
IT関連
2024-07-09 16:51
インド当局がグーグルに対し印スマートTV市場での独禁法調査を命令
ハードウェア
2021-06-24 15:13