高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表

今回は「高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表」についてご紹介します。

関連ワード (明記、無音、関係等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、It Media News様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 スマートフォンやスマートスピーカー、銀行ATM、券売機など、あらゆる場面で合成音声が使われるようになって久しい。近年では特に機械学習技術を活用した音声合成システムの製品化やサービス化が進んでいる。

 音声合成の研究開発や製品化を行う際には、学習素材として大量の音声が必要だ。しかし学習に適した上質な音声ファイルはネット上にもあまりない。いまだに素材を集めにくい状態にある。

 これまでは研究開発用の素材を得るため「音素バランス文」と呼ばれる台本を用意し、それをアナウンサーや声優などに読み上げてもらい、まとまったデータを取得していた。

 「しかし、これまでの音素バランス文には『使用料』『ライセンス』『台本の読みにくさ』3つのハードルがありました」

 そう話すのは明治大学で音声合成の研究をしている小口純矢さんだ。音声合成ソフトの販売を手掛けるSSS(仙台市)と小口さんが所属する明治大学、九州工業大学は6月17日、新規開発した音素バランス文を集めた「ITAコーパス」を一般公開した。

 小口さんによると、ITAコーパスは既存の音素バランス文が抱えていた3つのハードルを取り除くために開発したものだという。

既存の音素バランス文が抱えていた3つの課題

 研究開発の場面でよく使われる音素バランス文としては「ATR503文」「声優統計コーパス」「JSUTコーパス」などが代表的だ。

 これらは、新聞や雑誌、Wikipediaなどから文章を集めてまとめたもので「あらゆる現実を全て自分のほうへねじ曲げたのだ」といった文章を数百から数千個収録している。

 ただ文章を集めるだけではない。日本語で使われる「a」「k」といった音素を全て含むのはもちろん「ak」「sa」など2つの音素の組合わせ、「asa」「des」など3つの音素の組み合わせもできる限り含む必要がある。

 音素バランス文という名前の通りバランスが大切で、それぞれの音素や組み合わせの出現回数が偏らないようにするなど、緻密な計算を重ねて設計している。

 これらの音素バランス文は以前から広く使われてきたが、課題も3つあった。

 一つ目が使用料の問題だ。ATR503文の読み上げデータ集は国際電気通信基礎技術研究所(ATR)が発売している商品で、価格は読み上げ音声付きのデータで数十万円に上る。小口さんによると「10年ほど前は無料のコーパスがなく、ATRからデータを買って研究開発に使っていました。コストがかかるのはもちろん、研究所などで独自に収録した読み上げ音声の公開もしにくい仕組みでした」という。

 そこで登場したのが無料の声優統計コーパスやJSUTコーパスだ。声優統計コーパスは声優やアナウンサーの読み上げ音声約2時間、JSUTは女性の読み上げ音声を約10時間収録したデータも無償公開。研究開発のハードルになっていた使用料をなくした。

 二つ目の課題がライセンスだ。声優統計コーパスとJSUTコーパスには「CC-BY-SA」というライセンスが付いている。CCは国際的非営利組織「クリエイティブ・コモンズ」の略。同団体はインターネット上の著作権ルールを提案し、共通で使えるライセンス表記「CCライセンス」を公開している。

 CC-BY-SAは「この作品を使う際は原作者の氏名や作品タイトルを表示すること。また、二次著作物を公開する場合は同じライセンスを付けること」という意味になる。CC-BY-SAで公開された音声を機械学習して音声合成ソフトにした場合、リリースする際には原作者名などを明記したうえでCC-BY-SAライセンスを付けないといけない。

 原作者名の表示とライセンスの継承そのものは悪いことではない。しかし例えば「作った音声合成ソフトには原作者表示を義務付けたくない」と思ってもできないなど、自由度が下がるデメリットがある。

 三つ目の課題が読みにくさだ。音素バランス文は音素や組み合わせをできる限り網羅する関係で、収録する文章量が多いうえ、難読地名のような単語も複数出てくる。プロのアナウンサーなどを呼んでも、収録に半日から数日かかる場合もあるほどの量の難しい台本では、データを増やすのにも一苦労する。

 しかし、文章量や難読単語を減らせば網羅できる音素の組み合わせが減ってしまうため、ひと工夫が必要になる。

3つの課題を解決する「ITAコーパス」

 これらの課題を解決するため、SSSは音素バランス文の新規開発を企画。2020年7月にクラウドファンディングで目標額の261%もの資金を集め、明治大学と九州工業大学の協力の下、音素バランス文の開発に乗り出した。

 ITAコーパスは青空文庫などから424文を集め、音素と組み合わせの出現率などを調整したデータ集で、使用料は0円。ライセンスはパブリックドメインとした。

 誰でも無料で使え、著作権を放棄しているためITAコーパスという作品名を表記する必要もない。台本を使って収録した音声の公開も自由で、二次著作物のライセンスも自由に定められる。

 読みやすさを確保するため台本は2部構成にした。前半の100文は日本語の音素を最低限網羅するための台本、後半の324文は音素の組み合わせを増やすための台本だ。

 424文というのは、声優統計コーパス(100文)より多くATR503文より少ない。ITAコーパスは100文と324文に分けたことで、声優統計コーパスのように少ない文章で簡単に収録することも、ATR503文のように十分なデータを取ることも可能な設計にしている。

 時間があり、データ量を増やしたい場合は後半まで、収録時間に限りがある場合は最低限の100文だけを読み上げるといった融通の利かせ方ができる。

 難読単語は文章中に無理やり入れるのではなく、1単語だけ切り出して読みやすさを向上させた。その分、ATR503文に比べると組み合わせの網羅率や偏りの面で少し劣るという課題もあるという。

 「ITAコーパスは読みにくさとライセンスの問題をクリアしているため、これから徐々に利用が増えていくと思います」(小口さん)

 ITAコーパスは今後、研究者はもちろん趣味で音声合成を研究している人にも使われていく可能性がある。小口さんによればシンプルな音声合成の他にも、口を映した無音の動画からせりふを推測して音声化するといった、音声と別の媒体を組み合わせた「マルチモーダル音声合成システム」の開発など、活用の幅が広がる見込みだという。

Copyright © ITmedia, Inc. All Rights Reserved.

無音のh・有音のh - Wikipedia

「無音の h 」「有音の h」(むおんのアッシュ・ゆうおんのアッシュ)とは、フランス語において単語の先頭に h 字が来る場合の区分で、前後の音に対するふるまいの違いから2種類に分類されるものである 。 数世紀前までは、「無音 ...

Audacityで曲の途中に無音部分を追加する方法!【空白/間を ...

一つの音声ファイルに複数楽曲が含まれていて、無音部分を追加して間を開けたい時があるでしょう。そういうときはAudacityで解決できます。今回はAudacityを使って無音部分を追加する方法や、既存の音声を無音化して無音部分を作る方法を解説します。

カエルの声は無音。この「地方出身者あるある」わかる人い ...

 · カエルの声は無音。この「地方出身者あるある」わかる人います? 7選 5 2021/05/27 あるある 都会民が絶対に信じてくれない「田舎あるある」7選 6 2021/06/02 あるある 呟くのは暇だから…じゃない。この「Twitterあるある」真理すぎで 7 ...

ダチョウ倶楽部 “無音ミッション”…に四苦八苦|テレ朝news ...

 リアクション芸人のレジェンド・ダチョウ倶楽部が音を立ててはいけないミッションに挑戦。全米で大ヒット映画「クワイエット・プレイス 破られた沈黙」の公開直前イベントが開かれました。    「音を立てたら、“何か”がくる」というスリリングな展開のこの映画。本編で、赤ちゃんは沈黙を守れない存在の象徴として描かれています。  イベントでは、ランダムに選んだ箱の中から音を立てないようにしながら哺乳瓶を探し出すゲームに挑みました。しかし、あのアイテムが…。  声も出せないうえに、リアクションもいまいち…。ミッションは、失敗に…。  寺門ジモン(58):「おでんにリアクションしろよ!お前!」  上島竜兵(60):「おでことかにやってくれればいいのに」

秋山また無音 5戦連続安打なし/大リーグ/デイリースポーツ …

 「パイレーツ1-5レッズ」(12日、ピッツバーグ) レッズ・秋山は同点での2度の得点機で、いずれも凡退した。代打で臨んだ六回2死一、二塁は速球に詰まって投ゴロ。八回1死一、二塁では速球に空振り三振を喫した。

iPhoneカメラは無音で撮影できる?シャッター音を消す方法3 …

スマホカメラiPhoneで無音で写真を撮る方法を3つ紹介!シャッター音は消せる?おすすめ無音カメラアプリも紹介?✨★チャンネル登録⇒http://www.youtube.com/channel/UC3zx3B5VObMmSGyZk0mijxw?sub_confirmation=1★ベルマークの通知設定をすると最...

無希(むき)【GT】 - ゲームのライブ配信&実況ならMildom(ミ …

無希(むき)【GT】 のページ - Mildom(ミルダム)は、ゲームを中心とした新世代のライブ配信(生配信・実況)プラットフォームです!お気に入りの配信者と一緒に、隙間時間を大事な時間に変えましょう!

S Rec 無音で区切りながら録音できるハードディスク ...

無音部分を曲間と認識し、曲ごとにファイルを作ります。 GOGO.DLL があれば、裏スレッドでMP3ファイルを作ることもできます。 WMA変換もできます。 音量正規化、48kbps->44.1kbps などの変換もすることができます。 ダウンロード ver 0

虫よけスプレーいらず!ハエ・蚊・蜂などを追い払う無音 ...

オーストラリア発、日本初上陸の虫よけファン「SHOOAWAY(シューアウェイ)」が、クラウドファンディング「GREEN FUNDING」にて販売を開始した。SHOOAWAY(シューアウェイ)は、気になる場所に置くだけで、無音でブレードが回転し、虫(ハエ、蜂、蚊など)を追い払ってくれるアウトドアやキャンプなどに最適なアイテムだ。

【2021年】 おすすめの無音(微音)カメラアプリはこれ!ア …

 · 無音(微音)カメラアプリをおすすめランキング形式で紹介!ランキングNO.1に輝くアプリとは?是非チェックしてみてください。iPhone、iPad、Android対応。 Android は Google Inc. の商標です。 Appliv及びAppliv TOPICSは ...

LGBT法「差別の禁止明記を」 当事者ら記者会見で訴え

 与野党で協議が続くLGBTなど性的少数者への理解増進を図る法案を巡り、当事者や支援者ら有志が6日、厚生労働省で記者会見し、差別禁止を明記するよう訴えた。  性的少数者の支援団体「fair」代表理事 ...

中国報道官「火遊びするな」米韓首脳会談で台湾明記|テレ朝 ...

 米韓首脳会談で共同声明に「台湾海峡」の文言が盛り込まれたことを受け、中国外務省は「火遊びはしないで頂きたい」と反発しました。  中国外務省の報道官は24日の会見で「関係各国は台湾問題で発言や行動を慎重にし、火遊びはしないで頂きたい」と牽制(けんせい)しました。  また、米韓関係について「中国を含む第三国の利益を損なってはいけない」と主張しました。  そのうえで「台湾は完全に中国の内政問題だ」とし、「いかなる外国勢力の干渉も容認できない」と反発しました。  21日に行われたバイデン大統領と文在寅(ムン・ジェイン)大統領の初会談では、共同声明で「台湾海峡の平和と安定を守る重要性を強調する」としていました。

G7首脳宣言 五輪開催支持明記へ - Yahoo!ニュース

 · 先進7カ国(G7)が11〜13日に開く主要国首脳会議の首脳宣言に東京五輪・パラリンピック開催への支持を明記する方向で調整していることがわかっ ...

首相、緊急事態対応明記の必要性強調「時代にそぐわない部分 ...

 菅義偉首相(自民党総裁)は3日、憲法改正を求める団体が開いた集会にビデオメッセージを寄せ、憲法を改正して緊急事態対応を明記する必要性を訴えた。新型コロナウイル…

政府、経済安全保障の確保へ集中投資 新たな成長戦略に明記 ...

政府は17日の成長戦略会議で、6月にも策定する新たな成長戦略に盛り込む項目案を提示した。デジタル情報を処理・保存するデータセンターの国内誘致など、経済政策や企業…

「事業評価のためのチェックリスト」および「仕様書に明記す ...

 · 2021年03月19日 「令和3年3月検診実施機関用チェックリストの新旧対照表」および「令和3年3月仕様書に明記すべき必要最低限の精度管理項目の新旧対照表」を修正し差し替えました。 2021年03月08日 「事業評価のための ...

中国経済圏構想に対抗策 台湾明記も 声明発表へ調整 G7サミッ …

先進7カ国(G7)は11日に英南西部コーンウォールで開幕する首脳会議(サミット)で、中国主導の巨大経済圏構想「一帯一路」への対抗策を打ち出す方針を固めた。最終日の13日に想定される声明で、ルールに基づ…

日EU首脳、「台湾海峡の平和と安定」明記し中国牽制 ...

菅義偉首相は27日、欧州連合(EU)のミシェル大統領、フォンデアライエン欧州委員長とテレビ会議方式で首脳協議を行い、共同声明をまとめた。声明では中国に関して「台…

オール埼玉総行動 - all-saitama ページ!

2021.5.30 2020.5.31 2019.11.26 2018.2.26 2019.6.2 2018.11.26 2018.6.3 6・4オール埼玉総行動 3・6オール埼玉総行動 5・29オール埼玉1万人総行動 12・11オール埼玉総行動 抗議声明 9・4オール埼玉総行動 …

【G7】共同宣言、「台湾海峡」初の明記 五輪開催も支持 [ぐ …

 · 【G7】共同宣言、「台湾海峡」初の明記 五輪開催も支持 [ぐれ ] 37コメント 8KB 全部 1-100 最新50 スマホ版 掲示板に戻る ULA版 このスレッドは過去ログ倉庫に格納されています 1 ぐれ 2021/06/15(火) 08:35:04.95 ※日本経済 ...

COMMENTS


42546:
2021-06-21 23:12

無音さんマジリスペクト

42541:
2021-06-21 22:51

基本飽き性 「無音 回復枠です 御自由に((ヾ(・д・。)」 NELIVE で配信中

42540:
2021-06-21 21:43

ムサシ 「なんだかんだと聞かれたr (遮る刹那の無音と閃光。爆撃を受けるマサラタウン。街は崩れ去り、エノラ・ゲイの子守唄が響き渡る。ロケット団は、もう居ない。どこにも居ない。) イラク丼を食べた山口真帆 「أهل السنةま…

42545:
2021-06-21 19:32

嘘だと思われそうだが、これは1テイクだ インスタントリプレイが働いてくれてて録画できてた 通話中のテンション上がりけり音声が入ってたので無音にしてる #原神 #原神写真部

42543:
2021-06-21 17:19

?誰かの応援回復枠?【主不在・無音】 「?誰かの応援回復枠?【主不在・無音】ライブ」 NELIVE で配信中

42544:
2021-06-21 14:59

1分おきの怒涛のアラーム(無音)のお陰で富士駅で無事下車。1年半ぶりのノビノビは懐かしくてよきよきでした(*´꒳`*)✨ さてここからは地獄の身延線3時間コース。夏至で外が明るいからまぁ何とかなるかな(´-ω-`)?

42542:
2021-06-21 13:08

?誰でも応援回復枠?【主不在・無音】 「?誰でも応援回復枠?【主不在・無音】ライブ」 NELIVE で配信中

42547:
2021-06-21 06:04

第9回ラブライバー人狼の動画をアップしました 無音の時間や調整・トラブル等をカットしています 2試合ともなかなかのレアケースで見どころ満載です! part0: part1:c…

Recommended

TITLE
CATEGORY
DATE
Anthropic、最新AIモデル「Claude 3」を公開–複数分野で「GPT-4」を上回る
IT関連
2024-03-07 14:37
加速する米テック企業の人員削減–アリックスパートナーズが背景と影響を探る
IT関連
2023-04-11 01:15
エクシオグループ、仮想GPU対応のAI基盤を構築–通信工事現場の写真判定を3秒以下に
IT関連
2022-05-03 18:57
四国大学、全教職員約380人に「LINE WORKS」を導入
IT関連
2022-06-07 19:47
Gタンパク質共役型受容体など膜タンパク質標的の創薬目指すリベロセラが5.4億円を追加調達
バイオテック
2021-05-15 13:59
レッドハットのM・ヒックス氏、開発者からCEOへのキャリアを振り返る
IT関連
2022-08-10 05:49
不正な株取引を巡ってテクノロジーがぶつかり合う中国
IT関連
2021-06-01 01:16
GitLab、「GitLab 16.7」リリース–「GitLab Duo Code Suggestions」が一般提供
IT関連
2023-12-24 04:38
THK、数百万件の製品情報を一元管理–散在するシステムをノーコード開発基盤に統合
IT関連
2022-05-03 22:40
「シン・エヴァ」制作に使った“第3村”のミニチュア公開 「スモールワールズTOKYO」で パンフ持参で入場料を1000円に
くらテク
2021-04-11 08:39
「Mac」を狙う新しいアドウェアが見つかる–アップルのXProtectでは発見不可
IT関連
2021-08-17 20:14
インドのソーシャルコマースMeeshoが新たに330.3億円の資金を調達、評価額は約2312億円に
ネットサービス
2021-04-07 20:40
Excelがeスポーツに? 財務処理の腕を競うイベント開催、Microsoftが協賛
企業・業界動向
2021-06-09 23:03
米司法省、ランサムウェアグループ「Hive」の解体に成功
IT関連
2023-01-28 15:40