無調整でもほぼ人間 AI歌声合成ソフト「CeVIO AI」の実力 (1/3 ページ)
今回は「無調整でもほぼ人間 AI歌声合成ソフト「CeVIO AI」の実力 (1/3 ページ)」についてご紹介します。
関連ワード (技術、操作性、高速化等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、It Media News様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
市販の歌声合成ソフトとして、ヤマハのVOCALOIDとともに独自の歴史を刻んできた「CeVIO」が1月29日、登場から8年を前に大きく進化。深層学習の技術を取り入れ「CeVIO AI」として、開発元のテクノスピーチが発売した。まずはその歌声を聴いてほしい。
これは、ソフト上で楽譜を打ち込んで再生ボタンを押しただけで出力された音声だ。それだけでこのように人間らしい歌声が出力できる。「しゃくりあげ」や「ビブラート」といった歌唱表現も勝手に付く。メインボーカルとして起用するにはもう少し調整が必要だが、作曲中の仮歌に使うなら文句のないクオリティーになっている。人間らしい歌声を合成するまでの時間が短いため、作業を迅速に進められるのがメリットの一つだ。
CeVIO AIリリースまでの道のり
CeVIOは2013年公開のWindows専用音声/歌声合成ソフト。名古屋工業大学が長年研究しているHMM(隠れマルコフモデル)による音声合成技術をもとに、人間らしい話し声や歌声を合成するソフトとして、オリジナル曲のボーカルや、ゲーム実況動画のナレーションに使われてきた。
今回発売したのは進化版のCeVIO AI。CNN(畳み込みニューラルネットワーク)やRNN(リカレントニューラルネットワーク)といった技術を活用して、モデルとなる歌手や声優の歌い方や話し方を学習。人間らしい声を再現するソフトウェアだ。
テクノスピーチの大浦圭一郎代表取締役によると、16年にはCeVIOへの深層学習技術の導入を開始。当時はまだ処理が重く、歌声の合成にGPUが必要で、一般的なノートPCなどでは合成が難しく「製品化はまだ遠いなと思っていた」(大浦代表)という。19年からは製品化に向け高速化や操作性の向上などを行っていた。
1000分の5秒単位でAIが人間らしい声質などを推定して合成していたのを、推定の頻度を下げることで合成スピードを高速化。クオリティーとのバランスが取れるようになったため、製品化に踏み切ったという。
Copyright © ITmedia, Inc. All Rights Reserved.