産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張

今回は「産総研と東工大、日本語に強いLLM「Swallow」公開–「Llama 2」の能力拡張」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 産業技術総合研究所(産総研)と東京工業大学(東工大) 情報理工学院 情報工学系の岡崎直観教授と横田理央教授らの研究チームは、日本語能力に優れた大規模言語モデル(LLM)「Swallow」を公開した。産総研が12月21日に発表した。同モデルは現在公開されている日本語に対応したLLMとしては最大規模であり、商用利用が可能なため、安心してビジネスに活用できるとしている。

 両者の研究チームは、MetaのLLM「Llama 2」の日本語能力を拡張することでSwallowを構築した。拡張前のLLMの高い言語処理能力を維持しながら日本語能力を強化するため、研究チームは言語モデルに日本語の文字や単語などの語彙(ごい)を追加した上で、新たに開発した日本語データを用いてモデルを継続的に構築する「継続事前学習」を行った。今回公開したモデルは、70億/130億/700億パラメーター(7/13/70B)の3種。

 現在、自然言語処理やAIの研究開発の推進、LLMのメカニズム解明、海外依存を理由とした安全保障上のリスク懸念など、さまざまな動機で日本語に強いLLMの開発が進められているが、日本語に強くオープンかつ高性能なモデルは少なかった。そこで、東工大と産総研はLLMの開発に関する共同研究を開始した。

 同研究において、東工大は主にデータの語彙拡張によるモデル学習・推論効率の改善、産総研はモデル構築に必須な大規模計算資源として「AI橋渡しクラウド」(AI Bridging Cloud Infrastructure:ABCI)を提供するとともに、主に継続学習によるモデルの日本語能力の改善を担当した(写真1)。モデルの学習データには、東工大が新エネルギー・産業技術総合開発機構(NEDO)のプロジェクトで開発した大規模な日本語ウェブコーパスを用いた。

 Llama 2は日本語にも対応しているが、事前学習データの約90%は英語が占めており、日本語の割合は全体の約0.1%にとどまっている。そのため、同モデルは英語で高い性能を示す一方、日本語の読み書きは苦手という弱点があった。

 そこで、研究チームではLlama 2の7/13/70Bのモデルをベースに、大規模な日本語ウェブコーパスと英語のコーパスを9対1で混ぜたデータを用いて継続事前学習を行い、本来の言語モデルの能力を生かしながら日本語能力の改善に取り組んだ。その結果、研究チームが採用した日本語に関するベンチマークデータにおいて、7/13/70Bの全モデルはベースモデルよりも高い性能を示した。また、日本語コーパスのみで事前学習された同規模の日本語LLMよりも高い性能を示すことから、継続事前学習の有効性が明らかになった。

 Llama 2は、アルゴリズムの一つ「バイト対符号化」に基づいてテキストがトークンに区切られているが、英語を重視した多言語のモデルとして学習されているため、日本語の主要な単語や文字が語彙に含まれず、テキストが不自然な単位に区切られることがある。例えば「吾輩は猫である」という7文字のテキストは「はである」という、人間には理解しにくい13トークンに区切られる。

 日本語の語彙が不足している言語モデルは、日本語を不自然な単位で取り扱うことに加え、テキストをより多くのトークンで表現してしまうため、学習や生成の効率が低下する。LLMの学習に必要な計算予算はトークン数に比例するため、逆に計算予算が一定である条件下ではテキストを少ないトークンで表現する方がより多くの情報を学習に詰め込める。

 また、LLMがテキストの生成に要する時間はトークン数に比例するため、同じテキストを生成するのであれば、より少ない数のトークンで表現できる方が短時間で結果を出力できる。さらにLLMの入力や出力には、一度に扱えるトークン長の上限がある。入力をより少ないトークンで表現できる方が、タスクの指示や解き方「few-shot事例」を多く詰め込めるため、下流タスクでの性能向上も期待される。研究チームは、Llama 2のトークナイザーに1万6000件の日本語のトークンを追加することで、日本語テキストのトークン長を56.2%に削減した。 大規模な日本語のウェブコーパスを開発

 LLMの学習には、膨大な言語データが必要となる。特にウェブページを収集し、テキスト化したデータはLLM構築の要である。従来オープンな日本語LLMの学習には、「CC-100」「mC4」「OSCAR」など既存のデータセットの日本語部分が用いられてきた。しかし、これらのデータセットでは、ウェブページのHTMLをテキスト化する際のノイズが混入していたり、最新の情報や知識を収録していなかったりする問題があった。また、これらは多言語のデータセットとして構築されているため、日本語に特化してデータの品質を高めるような工夫は取り入れられていない。

 そこで研究チームは、ウェブサイトを巡回・情報収集し、そのアーカイブを無償で提供する非営利団体Common Crawlから配布されているアーカイブから日本語のテキストを独自に抽出・精錬し、約3121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築した。この規模は、CC-100 (約258億文字)、mC4(約2397億文字)、OSCAR 23.10(約740億文字)を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大だという。

 世界的にLLMの大規模化が進む中、日本語を扱う能力が高いものが少なかったが、今回のモデル公開によって、高度な日本語処理が求められる日常生活・産業現場においてAI技術の活用を推進できる。今回公開するSwallowのライセンスは、Llama 2の「LLAMA 2 Community License」を継承しており、ライセンスに従う限りは研究/商業目的での利用が可能である。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
クラウド環境のセキュリティ機能を運用支援–ニューリジェンがAI活用した新サービス
IT関連
2022-04-24 05:31
TikTok、全ユーザーの年齢確認へ 生年月日の入力求める
ネットトピック
2021-02-02 04:41
厨房機器製造のホシザキ、極少アドオンでSAPのクラウド人事システムを導入
IT関連
2023-09-30 07:53
GitHub、「Secret Scanning」プッシュ保護機能を公開レポジトリーでデフォルト有効に
IT関連
2024-03-05 09:46
IBMがHashiCorpの買収交渉を進めているとの報道。今日にも合意に到達か?
DevOps
2024-04-25 09:15
賃貸の敷金に代わる保険商品を販売するRhinoが98.5億円を調達
その他
2021-01-28 18:57
550円の「Raspberry Pi Pico」をいじり倒す :名刺サイズの超小型PC「ラズパイ」で遊ぶ(第36回)(1/2 ページ)
アプリ・Web
2021-02-17 17:13
京都信用金庫、インボイス管理サービス「Bill One」導入–信用金庫としては初めて
IT関連
2022-12-13 06:58
PC運用での「展開」に潜む、「機種依存」の落とし穴
IT関連
2022-04-13 09:46
マイクロソフト、欧州顧客向けに新たなデータストレージの選択肢を提供へ
IT関連
2021-05-07 11:15
SpaceXが記録的な数の衛星を搭載した初の専用ライドシェアミッションをライブで公開、予定変更で日本時間1月25時0時から
宇宙
2021-01-25 05:25
カルビー、EC事業で副業人材を募集 原則テレワークで
キャリア・しごと
2021-02-10 01:22
【レビュー】新iMac パープル先行動画レビュー。周辺機器まで統一されたカラーデザインに感動
ハードウェア
2021-05-20 06:53
トライアルカンパニー、グループ企業の店舗にデジタルサイネージを導入
IT関連
2023-05-11 19:48