AIはオープンソースたり得るか–企業の思惑と定義の策定に向けた動き
今回は「AIはオープンソースたり得るか–企業の思惑と定義の策定に向けた動き」についてご紹介します。
関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
オープンソースがなければ、人工知能(AI)は存在しない。それは断言できる。議論の余地はない。
その根拠は、AIの起源が1960年代のオープン言語「Lisp」にあることだけではない。「ChatGPT」「Llama 2」「DALL•E」といった話題の生成AIモデルが、強固なオープンソースの基盤の上に構築されているからでもある。しかし、それらのモデルやプログラム自体はオープンソースではない。
Metaの最高経営責任者(CEO)であるMark Zuckerberg氏が、「Llama 3.1」を発表した「Threads」の投稿で述べた内容は知っている。同氏は「オープンソースAIこそが進むべき道」であり、Metaは「オープンソースAIを業界標準にするための次のステップを踏み出している」と語った。
「SIGGRAPH」の基調講演でNVIDIAのCEOのJensen Huang氏と対談したZuckerberg氏は、次のように認めている。
Zuckerberg氏はオープンソースに関して誠実だ。これまで何度も起きてきたように、オープンソースはテクノロジーを統合する手段となる。たとえば、現在使われているのは、統一された「Linux」であり、複数の互換性のない「UNIX」バージョンではない。これはLinus Torvalds氏がLinuxをGPLv2でオープンソース化したからだ。
しかし、筆者はMetaのLlama 2のライセンスとLlamaの利用規定にも目を通したが、これはオープンソースではない。全く違う。
だが、オープンソースをいい加減に扱っているのは、Zuckerberg氏だけではない。社名を見ると、OpenAIの製品はオープンソースだと思うだろう。「GPT-1」と「GPT-2」が最先端だったときは確かにオープンだった。それは遠い昔、莫大な額の売り上げが発生していなかった頃の話だ。「GPL-3」以降、OpenAIは扉を閉ざしてしまった。
オランダのナイメーヘンにあるラドバウド大学の言語科学者Mark Dingemanse氏がNatureの記事で語ったように、「一部の大企業は、オープンソースモデルを採用したと主張しつつ、『可能な限り情報を公開せずに済まそう』とすることで、利益を得ている」
実際に、Dingemanse氏と同僚のAndreas Liesenfeld氏が発見した、真にオープンといえるAIチャットボットは、Hugging Faceがホストしている大規模言語モデル(LLM)「bigscience/bloomz」だけだ。
オープンLLMの候補は他に「Falcon」「FastChat-T5」「OpenLLaMA」がある。だが、ほとんどのLLMに、プロプライエタリーな情報や著作権で保護された情報、所有者が開示しない未知の情報が含まれている。電子フロンティア財団(EFF)が指摘したように、「得られた出力を安易に信じるべきではない」
現在、AIの原動力となっている革新的なソフトウェアの多くはオープンソースだ。「TensorFlow」は汎用性の高い学習フレームワークであり、複数のプログラミング言語をサポートし、機械学習に使用される。「PyTorch」は、すぐに思い浮かぶような深層学習アプリケーションでの動的な計算グラフと使いやすさで人気がある。
LLMと、それを基に構築されるプログラムは、状況が異なる。人気の高いAIチャットボットとプログラムはすべてプロプライエタリーだ。
では、なぜ企業は自社のプロジェクトをオープンソースだと主張するのだろうか。自社の取り組みを「オープンウォッシング」することで、透明性、コラボレーション、イノベーションといったオープンソースの肯定的な意味合いで自社プログラムを飾り立てたいからだ。また、開発者を言いくるめて、自社プロジェクトの推進を手伝わせたいという思惑もある。すべてはマーケティングだ。
AIプログラムに適したオープンソースの定義を考案し、このような見せかけの取り組みをただちに阻止する必要があることは、はっきりしている。残念ながら、それは言うほど簡単ではない。