日本IBM、独自LLM「Granite日本語版」を提供–日本語の長文を効率的に処理

今回は「日本IBM、独自LLM「Granite日本語版」を提供–日本語の長文を効率的に処理」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 日本IBMは2月27日、日本語性能を向上させたAI基盤モデル「Granite(グラナイト)日本語版モデル」の提供開始を発表した。ビジネスに特化したAI&データプラットフォーム「IBM watsonx」で使用する。

 日本IBM 理事 テクノロジー事業本部 watsonx事業部長の竹田千恵氏は、「モデルライブラリーから日本語特化の大規模言語モデル(LLM)など複数のモデルを選択できるが、顧客のビジネスニーズを担保するチームとして、50カ国以上で600人以上のAIエンジニアを無償で提供している」とAI戦略に注力する姿勢を強調した。

 現在のwatsonxは、AI活用や構築に用いる「watsonx.ai」、自社のデータを一元管理して活用する「watsonx.data」、データとAIのガバナンスを保全する「watsonx.governance」の3つが主軸となる。今回発表したGranite日本語版モデルはwatsonx.aiで使用する日本語用のLLMだ。

 watsonx.aiは基盤モデルライブラリーとして、複数のモデルを使用できる。直近だけでも2023年11月にはMetaの「llama2-13b」、2024年1月にはELYZAが日本語版LLMとして公開した「elyza-japanese-llama-2-7b」、同年2月にはオープンソースの「mixtral-8x7B」を追加。そして今回Granite日本語版モデルとなる「granite-8b-japanese」が加わった。

 IBM独自のLLMとなるGraniteは2023年9月に提供を開始しているが、Granite日本語版モデルは1.6T(1.6兆)の学習データを用意し、英語1000B(1兆)トークン、日本語500B(5000億)トークン、プログラミングコードで100B(1000億)の大型モデルとなる。Graniteと同じくコンテンツ生成や洞察抽出、 固有表現抽出、生成精度を高めるRAG(検索拡張生成)で業務支援を行い、「NVIDIA V100-32GB」でも動作するため、「IBM Cloud」だけでなくオンプレミスでも利用環境を構築できる。

 当然ながら基となる学習データは前処理が欠かせない。日本IBM 技術理事 東京基礎研究所AI Technologies担当シニア・マネージャーの倉田岳人氏は、13.9TBにおよぶ日本語学習データに対して「データのフィルタリングが必要。重複内容やHAP(Hate, Abuse, Profanity)、暴力的な表現などビジネス観点でふさわしくない文章の除去を行う。加えて多様な角度から文章品質を計算して不要なデータを取り除くと1.3TB」まで圧縮している。

 もう一つの特徴が日本語トークナイザーだ。文章を単語や慣用句に分割する処理だが、同社によれば日本語未対応のトークナイザーで処理すると、日本語の文字は語彙に含まれない場合があり、バイト単位に分割されてしまう。だが、同社が開発した日本語対応のトークナイザーであれば単語を1トークンとして扱うため、推論速度を犠牲にせず、扱える文脈も広まるという。

 日本IBMが行ったベンチマークでも、Granite日本語版モデルは、日本語対応のelyza-japanese-llama-2-7bと同等以上の性能を達成し、多様なビジネスシーンでの利用が期待できるとしている。倉田氏は「技術仕様、学習データなどを公開して透明性を担保していく。また、テクノロジー事業本部やコンサルティング部門、顧客担当チームが連携して、Granite日本語版モデルの有効活用を支援する」と述べた。さらに竹田氏は、「日本語に特化したモデルは大きな強み。今後3年間の生成AIがもたらす影響を鑑みれば、右肩上がりの事業成長を予測している」という。

 現在、同社は前述したwatsonxプラットフォームと人材育成ソリューションの「watsonx Orchestrate」、対話型AIの「watsonx Assistant」、生成AIがコードを生成する「watsonx Code Assistant」に代用されるAIアシスタント群を、ITオートメーションやセキュリティ、モダナイゼーション、サステナビリティーに類する製品群へ組み込んでいくとしている。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
アマゾンもアプリストアの手数料引き下げへ、小規模開発者対象–AWSクレジット提供も
IT関連
2021-06-22 01:12
ランボルギーニカウンタックLPI800-4は802馬力のハイブリッドスーパーカー
IT関連
2021-08-15 19:51
みずほ銀行、マーケティング基盤事業でサイバーエージェントらと提携
IT関連
2024-02-02 16:31
多くのZ世代は生成AIに仕事を奪われる不安を感じていない–アドビ調査
IT関連
2023-09-29 19:01
メンタルセルフケア・アプリ「emol」と第一生命グループが協業、ミレニアル世代向け保険商品を提供開始
ヘルステック
2021-07-20 20:55
エイシング、32ビットマイコンに実装可能なAIアルゴリズムを開発
IT関連
2021-01-15 20:21
VR内で終日勤務–集中力と生産性が高まる「無限」の作業場
IT関連
2022-04-23 15:57
法務部門に契約書作成ワークフローのサービスを提供するフランスの「Leeway」
リーガルテック
2021-04-06 23:30
Webマーケのトレンダーズが異例の「ラノベ共創サービス」 「新入社員の熱烈アピール」で新規事業化
企業・業界動向
2021-08-14 14:36
WBS、出演者がマスク着用 テレビスタジオ内での染防止策を強化
くらテク
2021-01-21 07:52
「誹謗中傷でしょうか」「死にたい」 「映画秘宝」編集長、公式Twitterでユーザーどう喝 勤務先が謝罪
ネットトピック
2021-01-27 22:59
Apple、タッチスクリーン搭載スマートスピーカーなどを開発中? ユーザー自動追尾も検討か
ロボット・AI
2021-04-14 13:21
アップル「Vision Pro」を見て感じたこと–無限の可能性といくつかの疑問点
IT関連
2023-06-13 12:29
Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス
Google
2024-05-28 14:49