AIとオープンソースの困難な関係–進む新たな定義作り
今回は「AIとオープンソースの困難な関係–進む新たな定義作り」についてご紹介します。
関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
オープンソースがなければ、人工知能(AI)もない。この2つは、そのくらい近しい関係にある。ところが、既存のオープンソースライセンスは時代遅れなものになりつつある。例えば、「GPL(GNU一般公衆ライセンス)」や「Apache License」、「Mozilla Public License」などは、SaaSやクラウドサービスなどとはうまく噛み合わないし、AIとの相性の悪さはそれ以上だ。著作権法を基盤としているオープンソースのライセンスは、そもそもAIの大規模言語モデル(LLM)とは相性がよくない。
これは、単なる技術と法律が交錯する領域の、理論上の議論ではない。すでに法廷で争われている問題だ。
匿名の原告グループによるGitHubをめぐる訴訟で、原告側は、Microsoft、OpenAI、GitHubが、商用AIシステムであるOpenAIの「Codex」とGitHubの「Copilot」を通じて、原告のオープンソースのコードを盗んだと主張している。この集団訴訟では、AIによって「提案」されたコードは、公開されているGitHubリポジトリからスクレイピングされた、ほぼ同一のコード列で構成されていることが多く、必要なオープンソースライセンスの帰属表示がないとされている。
またこれと似た問題として、米国の著名な作家であるGeorge R. R. Martin氏、Michael Chabon氏、John Grisham氏らを含む2つの作家グループが、LLMのトレーニングに自分の作品が使用されたとしてOpenAIを訴えている。この問題の核心にあるのは、オープンソースの法的基盤である著作権だ。
イェール大学のロースクールでサイバーセキュリティを専門とする講師を務めており、Yale Privacy Labの創設者でもあるSean O’Brien氏は、David Gewirtz氏が米ZDNetに寄稿した記事のインタビューで、「近い将来、トロールの新しいサブカテゴリーが生まれるだろう。パテントトロールとよく似たものだが、今回の標的はAIによって生成される成果物だ。AI対応ツールを使用して、プロプライエタリーライセンスで保護されたコードを配布するユーザーが増えるにつれ、フィードバックループが作り出される。プロプライエタリーなコードで汚染されたソフトウェアエコシステムが誕生し、進取的な企業による停止命令の申し立ての標的になるだろう」と述べている。