IBM、最新のAIモデル「Granite 3.0」でAIのオープンソース化を推進
今回は「IBM、最新のAIモデル「Granite 3.0」でAIのオープンソース化を推進」についてご紹介します。
関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
オープンソースと人工知能(AI)は不安定な関係にある。AIはオープンソースなしに存在できないが、自社のAIプログラムや大規模言語モデル(LLM)をオープンソース化しようとする企業はほとんどない。注目すべき例外は、過去にAIモデル「Granite」をオープンソース化したIBMだ。そのIBMが、最新のAIモデル「Granite 3.0」を「Apache License 2.0」ライセンスの下でリリースし、AIのオープンソース化をさらに推進しようとしている。
IBMは、「GitHub」で一般公開されているデータセット(「GitHub Code Clean」「Starcoder」、公開コードリポジトリー、イシューなど)で事前にトレーニングされたデータを利用することで、オープンソース化を実現した。また、著作権や法律がらみの問題を回避するため、これまでも多大な労力を費やしてきた。
特に、今回の言語モデル「Granite 3.0 8B」と「Granite 3.0 2B」は、エンタープライズAI向けの「主力」モデルとして設計されており、検索拡張生成(RAG)、分類、要約、エンティティー抽出、ツール利用などのタスクで強力なパフォーマンスを実現する。
また、これらのモデルには、「Instruct」と「Guardian」というバリエーションも用意されている。Instruct(日本語で「教える」の意)は、その名が示すように、特定のプログラミング言語の学習を支援する。一方、Guardian(日本語で「保護者」の意)は、ユーザープロンプトやAIの応答に存在するリスクを検出するように設計されている。とりわけ後者は極めて重要な機能と言える。なぜなら、セキュリティ専門家のBruce Schindler氏が「Secure Open Source Software(SOSS)Fusion Conference」で指摘したように、「プロンプトインジェクション(攻撃)が機能するのは、コマンドとして解釈されるようなデータをAIに送信する」からだ。このような攻撃で生成された応答は、壊滅的な結果をもたらす可能性がある。
Graniteコードモデルは、パラメーター数が30億〜340億で、116種類のプログラミング言語と3〜4TBのトークンでトレーニングされており、膨大なコードデータと自然言語データセットが組み合わされている。これらのモデルは、「Hugging Face」、GitHub、IBMの「watsonx.ai」「Red Hat Enterprise Linux(RHEL)AI」など、複数のプラットフォームから利用可能だ。また、「Ollama」と「Replicate」でも、専門家がGranite 3.0から選定したデータセットを利用できる。
さらにIBMは、アプリケーション開発を支援する「watsonx Code Assistant」の新バージョンを発表した。Graniteはこのwatsonx Code Assistantの中で、「C」「C++」「Go」「Java」「Python」などのプログラミング言語で汎用的なコーディング支援を提供するほか、エンタープライズJavaアプリケーションなど複雑なアプリケーションのモダナイゼーションを可能にする。Graniteのコード機能は、「Visual Studio Code」の拡張機能「IBM Granite.Code」を通じて利用できる。