中国のバイトダンス、LLM学習に対する妨害攻撃に遭遇–組織内の犯行で被害
今回は「中国のバイトダンス、LLM学習に対する妨害攻撃に遭遇–組織内の犯行で被害」についてご紹介します。
関連ワード (中国ビジネス四方山話、開発等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
2023年から中国でも生成AIのブームが起こり、阿里巴巴(アリババ)や騰訊(テンセント)などの大手ネット企業や専門のスタートアップが生成AIを活用したサービスを次々とリリースしている。その中でも、2024年に入って消費者向けのAIサービスを積極的に展開しているのは、「TikTok」で有名な字節跳動(バイトダンス)だ。同社クラウドサービス部門のVolcengine(火山引撃)は、圧倒的な低価格を武器とする生成AIモデル「土豆大模型」や動画生成の「PixelDance」「Seaweed」など、さまざまなサービスを開発して国内外に展開している。
そうした同社の社内で、内部の人間による悪意ある攻撃が発生し、同社による生成AIモデルの学習が妨害されるという事件があった。
2024年6~7月に、バイトダンスの事業化技術チームでインターンをしていた北京大学の田柯宇博士がコードの作成や改ざんを行い、チームの研究プロジェクトのモデル訓練を悪意を持って攻撃する事件があった。この攻撃により、チームのモデル学習タスクが妨害され、計算リソースが無駄に使われた。田氏は「Huggingface」のload ckpt関数に存在する脆弱(ぜいじゃく)性を悪用し、モデルに破損したコードを書き込んだため、モデルのトレーニング効果が変動し、期待された成果が得られなかったという。
当初、敵対機械学習(AML)チームも原因が分からなかったが、内部調査が進むにつれて、インターンの田氏が犯人であると断定され、解雇されて大学に処分を任せることになった。田氏は北京航空宇宙大学ソフトウェア学院を卒業し、北京大学大学院でディープラーニングの最適化とアルゴリズムを専攻していた。2019年から、同氏はバイトダンスや中国AI大手の商湯科技(センスタイム)でインターンをしており、ハイパーパラメーターや学習アルゴリズムの強化に携わっていた。
こうした輝かしい経歴にもかかわらず、インターンシップ中にチームの扱いに不満を持ち、怒りにまかせて妨害行為に及んだのではないかとうわさされた。事件の処理期間中、田氏は何度も自分ではなく別の実習生が犯人だと主張し、企業に大きな損害を与えた上に反省の態度を見せず、責任を転嫁しようとした。そのため、バイトダンスは会社の姿勢を明確にし、類似事件の再発防止を目的として裁判所に訴え、田氏に対して権利侵害による損失800万元(約1億6500万円)と合理的な支出2万元(約41万円)の支払いを請求した。
800万元という金額は、無駄になった計算コストや電力コストなどの直接的な損失をカバーするためのものであり、トレーニングモデルが期待に達しなかったことで失われた業務機会や、人件費の無駄遣いは含まれていないとされている。そのため、この金額は決して高額ではないと分析されている。
中国情報通信技術研究院は、大規模言語モデル(LLM)を中心としたAI技術が急速に発展し、デジタル経済の成長をけん引する新たな原動力になっていると発表している。しかし、LLMの安全性にはまだ多くの課題があり、これがアプリケーションに不確実性をもたらす可能性があると警告している。同院が発表した「AI Safety Benchmark」の結果によると、悪意のある誘導手法を用いた場合、LLM(特にオープンソースのもの)への攻撃成功率は、元の入力よりも大幅に高くなることが示されている。
これまでも、中国や他の国々で、内部社員が個人情報やソースコードを持ち出す事件がしばしば発生してきた。これらの事件の犯人の主な目的は、他社に情報を売り渡すことだった。しかし、今回の事件は、インターンが不満を抱いて腹いせに起こしたものだ。この事件を紹介する記事は多く、その中で現在の中国において、若者が激しい競争の中で自分のポジションを見つけることに大きなプレッシャーを感じていると指摘されている。機会が得られないことへの不満が、競争の激しい職場で若者がしばしば感じる無力感そのものであるという見解もある。不景気の中国では、ネット企業に就職しても、以前のように気に入らなければ別の企業に転職することが難しくなり、極端な行動に出た可能性がある。
多くの企業は、新入社員に対するモラル教育を実施し、若手社員とのコミュニケーションやリソース配分、職業倫理教育についても見直しと改善を行うべきだという意見もある。また、権限を適切に付与し、問題が発生した場合でもLLMを修復できる体制を整える必要があるだろう。