AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

今回は「AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化」についてご紹介します。

関連ワード (GPT / Generative Pretrained Transforme、GPU(用語)、Microsoft / マイクロソフト(企業)、OpenAI(組織)、ディープラーニング / 深層学習(用語)、日本(国・地域)、自然言語処理 / NLP(用語)等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、TechCrunch様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


AIチャットボット「りんな」などを手がけるrinna(リンナ)は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、GitHubおよびNLPモデルライブラリー「HuggingFace」において、トレーニングコードと言語モデルをオープンソースソフトウェアとして公開した。

また今回公開したモデルは、GPT2-mediumと定義される中規模サイズのものという。今後、パフォーマンスとコストのトレードオフに基づいてユーザーおよび研究者が最善の選択を行えるよう、異なるサイズのモデルも公開する予定。異なるデータでトレーニングした新しいモデルの公開も計画している。

rinnaの研究チームが開発している大規模な言語モデルは、すでに同社プロダクトに広く使用されているという。同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとしている。また、日本語の研究コミュニティのために、これらのモデルのオープンソース化を行う。

言語モデルとは、言語データの機械学習を基に、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。GPT-2の場合は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)を採用している。

例えば、「確率(吾輩は猫である) = 確率(吾輩) × 確率(は|吾輩) x 確率(猫|吾輩,は) × 確率(で|吾輩,は,猫) × 確率(ある|吾輩,は,猫,で)」のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成する。

今回rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザーおよび研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能としている。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できるという(掲載した画像のデモは生成する文章の文字数上限を設定しており、実際に生成される全文ではない)。

デモ1:講演の感想のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

rinnaの日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用しているという。

またNVIDIA「Tesla V100 GPU」を用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしたそうだ。その結果同モデルは、約18 perplexityという性能を達成した。この「18perplexity」は、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せるという性能を意味するという。モデルは十分にトレーニングされており、汎用性があるとしている。

rinnaは、Microsoft(マイクロソフト)のAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。

これらの最新技術は、同社運営のAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用しており、企業のマーケティングなどに採用されているという。

同社は、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。

関連記事
・ウイルスの突然変異予測からClubhouse話者識別まで、今、人工知能に期待されていること
・Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応
・テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達
・OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す
・LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
・日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化
・OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
・マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
・OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

COMMENTS


Recommended

TITLE
CATEGORY
DATE
アライドテレシスと大津赤十字病院、自動オフラインバックアップによるランサムウェア対策を検証
IT関連
2023-07-06 15:20
ACSL、リモート・補助者なし目視外飛行(Level3)を可能にするLTE対応産業用国産ドローンPF2-LTEを2022年春から提供
IT関連
2022-02-25 10:49
JavaScriptランタイム「Bun 1.0」正式リリース。Windows版もまもなく登場へ
Bun
2023-09-11 07:19
NFT化したご当地キャラと写真撮影–CTCと直方市、ふるさと納税の返礼品で実証実験
IT関連
2023-02-17 02:04
メタ、グローバルコミュニティ開発責任者が未成年者との性交渉ビデオに撮影され辞任
IT関連
2022-02-20 06:33
価格約11万円、レノボがARMベース「Snapdragon 8c」搭載Windowsノート「IdeaPad 4G」を4月9日発売
ハードウェア
2021-04-07 08:11
「公道を走れる電動キックボード」のシェアサービス開始 4月下旬に
企業・業界動向
2021-04-16 15:43
新製品・サービス開発でシャドーITが増加–ガートナー調査
IT関連
2022-06-11 21:07
ティム・クック氏はEpic Games対アップルの反トラスト裁判でしらを切る
ゲーム / eSports
2021-05-25 20:15
集英社のアクセラレータープログラム「マンガテック2020」採択スタートアップ5社が公開
ネットサービス
2021-03-24 12:51
東京大学と農研機構が作物の品種改良を行う育種家の感性を解明、柑橘類の皮の剥きやすさと実の硬さを深層学習で定量化
IT関連
2022-02-15 07:21
VTuberも熱視線 等身大アバターの興奮度
IT関連
2021-07-28 22:37
産業用ロボットのノーコードプログラミングを実現する独Wandelbotsが新たに約95.7億円調達
IT関連
2022-01-27 13:33
困難なグリーンテック推進、成功の鍵は–ITリーダーに聞く
IT関連
2023-03-11 03:22