AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

今回は「AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化」についてご紹介します。

関連ワード (GPT / Generative Pretrained Transforme、GPU(用語)、Microsoft / マイクロソフト(企業)、OpenAI(組織)、ディープラーニング / 深層学習(用語)、日本(国・地域)、自然言語処理 / NLP(用語)等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、TechCrunch様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


AIチャットボット「りんな」などを手がけるrinna(リンナ)は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、GitHubおよびNLPモデルライブラリー「HuggingFace」において、トレーニングコードと言語モデルをオープンソースソフトウェアとして公開した。

また今回公開したモデルは、GPT2-mediumと定義される中規模サイズのものという。今後、パフォーマンスとコストのトレードオフに基づいてユーザーおよび研究者が最善の選択を行えるよう、異なるサイズのモデルも公開する予定。異なるデータでトレーニングした新しいモデルの公開も計画している。

rinnaの研究チームが開発している大規模な言語モデルは、すでに同社プロダクトに広く使用されているという。同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとしている。また、日本語の研究コミュニティのために、これらのモデルのオープンソース化を行う。

言語モデルとは、言語データの機械学習を基に、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。GPT-2の場合は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)を採用している。

例えば、「確率(吾輩は猫である) = 確率(吾輩) × 確率(は|吾輩) x 確率(猫|吾輩,は) × 確率(で|吾輩,は,猫) × 確率(ある|吾輩,は,猫,で)」のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成する。

今回rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザーおよび研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能としている。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できるという(掲載した画像のデモは生成する文章の文字数上限を設定しており、実際に生成される全文ではない)。

デモ1:講演の感想のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

rinnaの日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用しているという。

またNVIDIA「Tesla V100 GPU」を用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしたそうだ。その結果同モデルは、約18 perplexityという性能を達成した。この「18perplexity」は、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せるという性能を意味するという。モデルは十分にトレーニングされており、汎用性があるとしている。

rinnaは、Microsoft(マイクロソフト)のAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。

これらの最新技術は、同社運営のAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用しており、企業のマーケティングなどに採用されているという。

同社は、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。

関連記事
・ウイルスの突然変異予測からClubhouse話者識別まで、今、人工知能に期待されていること
・Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応
・テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達
・OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す
・LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
・日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化
・OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
・マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
・OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

COMMENTS


Recommended

TITLE
CATEGORY
DATE
マイクロソフト、「Bingチャット」を「Copilot」にリブランド
IT関連
2023-11-17 11:22
グーグル親会社Alphabet、産業ロボット用ソフト企業Intrinsic立ち上げ–研究部門「X」発
IT関連
2021-07-26 11:19
AWS、大阪をフルリージョン化–2021年方針を発表
IT関連
2021-03-03 23:50
マイクロソフト、自然言語モデル「GPT-3」をPower Appsに–「自然な英語」でコード開発へ
IT関連
2021-05-26 18:16
北朝鮮の攻撃グループ、韓国の原子力研究機関にハッキング攻撃か
IT関連
2021-06-22 01:03
NVIDIA、仮想コラボレーション環境「Omniverse」の企業版を発表
IT関連
2021-04-13 16:50
GitHub、「GitHub Copilot for Business」の一般提供を開始
IT関連
2023-02-17 00:07
衛星通信サービスのViasat、ウクライナ侵攻の日に受けたサイバー攻撃の詳細を報告
IT関連
2022-04-02 03:44
【コラム】2021年、テック見本市は復活するのか?
その他
2021-04-21 13:40
企業は生成AIサービスに分かりやすい価格体系を求めている
IT関連
2023-09-21 11:55
RISC-Vの世界的な普及を促進するため、Qualcomm、Infineon、BOSHなど5社がリファレンスアーキテクチャなどを提供する企業を共同設立すると発表
RISC-V
2023-08-08 17:34
Box、Croozeを買収–エンタープライズコンテンツ管理の変革を加速
IT関連
2024-01-27 22:43
Facebookが取り締まりを拡大、ルール違反のグループとそのメンバーに対する罰則を強化
ネットサービス
2021-04-04 08:30
ドコモ、キャリアメールに“公式マーク”表示 フィッシング詐欺を抑止 佐川急便など13社が導入
企業・業界動向
2021-05-26 17:57