ユーザーの声でAIがリアルに歌う–中国で進化するカラオケアプリ
今回は「ユーザーの声でAIがリアルに歌う–中国で進化するカラオケアプリ」についてご紹介します。
関連ワード (中国ビジネス四方山話、開発等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
中国で生成AIといえば、「ChatGPT」に追従する大規模言語モデル(LLM)関連をはじめ、画像生成系のサービスが目立つ。音声系についても、スマートスピーカーを展開する百度(バイドゥ)、阿里巴巴(アリババ)、小米(シャオミ)のほか、中国で最も有名なカラオケアプリ「全民K歌」で模索されている。
全民K歌は、カラオケ店に負けじと専用マイクを音響メーカーと共同開発したり、スマートテレビ向けアプリでシャオミや創維集団(スカイワース)などと提携したり、家庭用カラオケ機器で聯想集団(レノボ)と協業したりしてきた。また、歌っている人の声に合わせて伴奏や音量、音程、エコーなどを自動で調整するAI補正機能も導入した。このようにカラオケのハードルを下げるため、さまざまな技術を開発している。
そうした全民K歌が最近、自分の声でAIに歌ってもらうサービス「AI歌手」を開始した。まず、ユーザーがカラオケで最低3曲を歌うことで、AIがユーザーの歌声を生成してくれる。AI歌手を手本とし、カラオケが上達したという話もある。
中国のポップミュージック(C-POP)にはさまざまな楽曲があるが、高い音域や広い声域が特徴でカラオケで歌うには難易度が高い。アジアのポップスターと言われる周杰倫(ジェイ・チョウ)の楽曲はラップもあって難しい。こうした楽曲も、AI歌手が自分の声で代わりに歌い上げてくれる。さらには、日本のポップミュージック(J-POP)や韓国のップミュージック(K-POP)をAI歌手に歌ってもらうユーザーも出てきた。例えば、日本語ができないユーザーであっても、日本の音楽ユニット「YOASOBI」(中国でも人気)の楽曲を、自分の声でAI歌手に正しく歌わせることができる。
全民K歌はAI歌手を実装するため、データ収集や特徴抽出、モデル学習を行った。データ収集のプロセスでは、大量の楽曲データ(メロディー、楽譜)や歌詞データを集める。次に、深層学習を用いて収集したデータから音高や音色、拍子、語彙(ごい)、感情といった特徴を抽出する。そして、抽出された特徴を活用してモデルに学習させていく。
こうして構築されたモデルに、新たな歌声のサンプルを提供すると、学習した内容を組み合わせて原曲と同じように歌わせられるという。このテクノロジーを活用すれば、「X」(旧twitter)で話題になった音楽生成AI「Suno」のようなことも可能となる。
中国だけでなく、海外でも音声AIを使ったアプリが登場し、自分の声でいろいろな歌が気軽に歌えるようになる将来がやってくるだろう。日本のアニメやドラマが世界で人気になり、その主題歌も注目され、動画サイトでミュージックビデオがたくさん視聴され、さらに主題歌をAIに自分の声で歌わせて、それをSNSで共有するという流れも想像に難くない。
中国のSNSではプライベートなものや、中国の動画配信サービス「哔哩哔哩」(ビリビリ)のような公開された場でのフォロワーとの共有のほか、全民K歌が歌手のオリジナル楽曲を使った公認のAI歌手カラオケコンテストをキャンペーンとして行っている。有名な歌手や楽曲をきっかけに同社カラオケサービスの利用者をさらに増やそうとしている。
ちなみに、華為技術(ファーウェイ)も利用者の声をAIで学習させ、その音声で本や文章を読み上げるサービスを提供している。このサービスは、国慶節や春節などの家族団らんの場でAIテクノロジーの体験を楽しんだり、子どもに本を読んであげる時に代わりになったりするという使い方ができる。
音声AIには倫理的な問題や悪用の危険性も存在する。一方で、本人の同意のもとに楽しく使えるサービスも提供されている。今後さらに意欲的なサービスが出てくることに期待したい。