中国ネット企業でLLMの開発競争が激化–その裏には学生使い捨ての現実
今回は「中国ネット企業でLLMの開発競争が激化–その裏には学生使い捨ての現実」についてご紹介します。
関連ワード (中国ビジネス四方山話、開発等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
米国テック企業の後追いをするように、中国ネット大手の阿里巴巴(アリババ)、百度(バイドゥ)、騰訊(テンセント)、字節跳動(バイトダンス)、華為技術(ファーウェイ)、小米(シャオミ)らが大規模言語モデル(LLM)と、それを活用したサービスを次々とリリースしている。
各社は差別化を図るべく、消費者向けの文書作成サービスやスマートスピーカー、ビジネス向けクラウドサービスに組み込んだり、さまざまな企業のニーズに応えるため業界特化型のチャットボットを構築したりしている。
LLMをはじめ、人工知能(AI)モデルの学習には、テキストや音声、画像などのデータにタグ付けや分類を行う「アノテーション」が必要になる。最近では、この作業に有能な大学生インターンを活用しているのだという。
これまでも、AI学習用のアノテーション作業は、学力などを問わずに地方都市の低賃金労働者を多く雇い入れていた。中国政府人社部が2021年に発表した「人工知能トレーナーの国家職業技能基準」によると、AIトレーナー(アノテーター)の一般的な学歴は高校卒業程度となっている。河北省、河南省、山東省、山西省など伝統的に労働集約型産業が集まる地域に拠点が点在し、中には貧困解決プロジェクトとして山間部に施設があるケースもある。
そこでは、「ゴールドファーマー」と呼ばれるオンラインゲームのプレイ代行業者やネット検閲業者と同様に、幾つも並べられたPCの前で労働者が淡々と作業をしている。大量にある画像の仕分けや、文章構造の解析・分類など、単純作業をひたすら行うというものだった。
だが、最近は状況が変わってきた。人間のフィードバックによる強化学習が用いられるようになり、アノテーターは正しいフィードバックをしなくてはならなくなった。つまり、これまでのような単純作業ではなく、質問に対する正しい回答を返さなくてはならない。既存のデータ処理だけでなく、一般常識や経済・法律などのさまざまな専門知識も必要となる。英語力も求められる。そこで、中国のネット大手は英語にも長けた高学歴人材をインターンに募集している。
例えば、英語専攻の大学生/大学院生が中国のネット大手企業に能力を買われ、話題のAIサービスの開発に携われるとすれば、喜んでインターンに応募するだろう。しかし、実際は学生らが思い描くような華々しいサービス開発の現場とは程遠く、コンピューターと向き合って質問と回答を延々と繰り返すというものだ。その様子は、地方都市の雇用創出で紹介されるAIのラベル付け作業者そのものだ。
AIモデルの最適化のためにアノテーションの仕様が変更になることもあり、一からやり直しになることも日常的にあるという。プロジェクトの詳細は企業秘密のため明らかにされず、同僚がどれだけいるのかも、どのようなことに役立つのかも分からない。日給は食事付きで100~150元程度と作業内容の割に安く、会話も原則禁止されている。
このように、希望を胸に抱き、名のあるネット企業に体験入社した学生はあっという間に辞めていくが、そのネームバリューから次々と新たな人員が補充される。中国で真っ先にLLMをリリースしたバイドゥは以前、海南省海口市にあるLLMのアノテーション拠点に数百人のアノテーターがおり、全員が学部生だとコメントしたことがあった。
インターン体験者がどんどんと辞めていく中、それでも生き残って上級職への道を切り開いたケースもある。この過酷な環境を体験したほとんどの人が超有名企業で働くことを諦め、もっと小さな企業でやりがいを感じながらのびのびと働くことを選ぶそうだ。