産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張

今回は「産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 産業技術総合研究所(産総研)と東京工業大学(東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームは、日本語能力に優れた大規模言語モデル(LLM)「Swallow」を公開した。産総研が12月21日に発表した。同モデルは現在公開されている日本語に対応したLLMとしては最大規模であり、商用利用が可能なため、安心してビジネスに活用できるとしている。

 両者の研究チームは、MetaのLLM「Llama 2」の日本語能力を拡張することでSwallowを構築した。拡張前のLLMの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙(ごい)を追加した上で、新たに開発した日本語データを用いてモデルを継続的に構築する「継続事前学習」を行った。今回公開したモデルは、70億/130億/700億パラメーター(7/13/70B)の3種。

 現在、自然言語処理やAIの研究開発の推進、LLMのメカニズム解明、海外依存を理由とした安全保障上のリスク懸念など、さまざまな動機で日本語に強いLLMの開発が進められているが、日本語に強くオープンかつ高性能なモデルは少なかった。そこで、東工大と産総研はLLMの開発に関する共同研究を開始した。

 同研究において、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善、産総研はモデル構築に必須な大規模計算資源として「AI橋渡しクラウド」(AI Bridging Cloud Infrastructure:ABCI)を提供するとともに、主に継続学習によるモデルの日本語能力の改善を担当した(写真1)。モデルの学習データには、東工大が新エネルギー・産業技術総合開発機構(NEDO)のプロジェクトで開発した大規模な日本語ウェブコーパスを用いた。

 Llama 2は日本語にも対応しているが、事前学習データの約90%は英語が占めており、日本語の割合は全体の約0.1%にとどまっている。そのため、同モデルは英語で高い性能を示す一方、日本語の読み書きは苦手という弱点があった。

 そこで、研究チームではLlama 2の7/13/70Bのモデルをベースに、大規模な日本語ウェブコーパスと英語のコーパスを9対1で混ぜたデータを用いて継続事前学習を行い、本来の言語モデルの能力を生かしながら日本語能力の改善に取り組んだ。その結果、研究チームが採用した日本語に関するベンチマークデータにおいて、7/13/70Bの全モデルはベースモデルよりも高い性能を示した。また、日本語コーパスのみで事前学習された同規模の日本語LLMよりも高い性能を示すことから、継続事前学習の有効性が明らかになった。

 Llama 2は、アルゴリズムの一つ「バイト対符号化」に基づいてテキストがトークンに区切られているが、英語を重視した多言語のモデルとして学習されているため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位に区切られることがある。例えば「吾輩は猫である」という7文字のテキストは「はである」という、人間には理解しにくい13トークンに区切られる。

 日本語の語彙が不足している言語モデルは、日本語を不自然な単位で取り扱うことに加え、テキストをより多くのトークンで表現してしまうため、学習や生成の効率が低下する。LLMの学習に必要な計算予算はトークン数に比例するため、逆に計算予算が一定である条件下ではテキストを少ないトークンで表現する方がより多くの情報を学習に詰め込める。

 また、LLMがテキストの生成に要する時間はトークン数に比例するため、同じテキストを生成するのであれば、より少ない数のトークンで表現できる方が短時間で結果を出力できる。さらにLLMの入力や出力には、一度に扱えるトークン長の上限がある。入力をより少ないトークンで表現できる方が、タスクの指示や解き方「few-shot事例」を多く詰め込めるため、下流タスクでの性能向上も期待される。研究チームは、Llama 2のトークナイザーに1万6000件の日本語のトークンを追加することで、日本語テキストのトークン長を56.2%に削減した。 大規模な日本語のウェブコーパスを開発

 LLMの学習には、膨大な言語データが必要となる。特にウェブページを収集し、テキスト化したデータはLLM構築の要である。従来オープンな日本語LLMの学習には、「CC-100」「mC4」「OSCAR」など既存のデータセットの日本語部分が用いられてきた。しかし、これらのデータセットでは、ウェブページのHTMLをテキスト化する際のノイズが混入していたり、最新の情報や知識を収録していなかったりする問題があった。また、これらは多言語のデータセットとして構築されているため、日本語に特化してデータの品質を高めるような工夫は取り入れられていない。

 そこで研究チームは、ウェブサイトを巡回・情報収集し、そのアーカイブを無償で提供する非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築した。この規模は、CC-100 (約258億文字)、mC4(約2397億文字)、OSCAR 23.10(約740億文字)を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大だという。

 世界的にLLMの大規模化が進む中、日本語を扱う能力が高いものが少なかったが、今回のモデル公開によって、高度な日本語処理が求められる日常生活・産業現場においてAI技術の活用を推進できる。今回公開するSwallowのライセンスは、Llama 2の「LLAMA 2 Community License」を継承しており、ライセンスに従う限りは研究/商業目的での利用が可能である。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
JAXAが国際宇宙ステーション(ISS)で宇宙飛行士が利用できる新生活用品のアイデア募集を開始
宇宙
2021-08-03 21:20
CIOとして成功する5つの条件–デジタルリーダーに求められる新たな役割
IT関連
2024-09-05 13:49
スマートリモコンのNatureが7.5億円調達し電気小売事業強化、クックパッド宇野雄氏がデザインアドバイザー就任
Nature Remo
2021-07-15 16:33
HashiCorp、製品ライセンスを「Business Source License」に
IT関連
2023-08-16 13:14
マイクロソフト、ビルド時にソフトウェアの部品表(SBOM)を自動生成する「SBOM Tool」、オープンソースで公開
Microsoft
2022-07-22 05:17
日立とハピネスプラネット、チーム自動作成機能で社内コミュニケーションを改善
IT関連
2022-08-11 05:27
生成AI支出、2027年に約21兆円規模に–IDC
IT関連
2023-10-18 22:16
AOSデータ、スポーツデータをAI学習用のデータコマースプラットフォームに公開
IT関連
2024-05-03 02:24
AI入門の人気講座を日本語化 講師に松尾豊氏 「すべての人のためのAIリテラシー講座」無料公開
ロボット・AI
2021-05-20 05:26
「Slack」で特定の日付の投稿を見つけるには
IT関連
2023-05-10 01:41
ERPのクラウド化は難しい、という時代の終焉。3年後の国内ERP市場はクラウドが9割以上、オンプレミスが1割以下へ、ITRが予想
ERP
2021-04-15 03:14
IIJ、海外収録公演のネット配信を支援–入国制限の中、テクノロジーで演奏届ける
IT関連
2021-04-12 21:16
DeepL、日本法人初のカントリーマネージャーに白井崇顕氏を任命
IT関連
2024-01-12 10:38
会話型AIからプライバシー重視のフェデレーテッドラーニングに拡大するスペインのSherpaが約9.3億円調達
人工知能・AI
2021-03-17 17:10