電気通信大学 大学案内 2024
9/68

IIIIどんな声でもしゃべれる、""なの開発スマートAIII「誰が話しているか」を自由自在に変換する「非パラレル声質変換」The University of Electro-Communications / 09Nakashika Toru私の研究室では主に音声合成と声質変換に関する研究をしています。声質変換とは、誰かが話した言葉を、別の人間の声で話しているように変換する技術です。近年、ディープラーニングと呼ばれる人工知能技術の登場によって、音声合成や声質変換の精度も飛躍的に向上し、人間と区別の付かない音声を作り出すことが可能になっています。しかし、ディープラーニングによる音声変換/合成では、自分の声と目標となる人の声の対のデータ(パラレルデータ)がモデルの学習に必要でした。これは、データ収録のコストが高いことや利用できるデータに限りがあることが問題でした。そこで私たちの研究室では、それらの問題を解決できる技術として、パラレルデータを学習時に必要としない「非パラレル声質変換」を世界で初めて考案しました。音声は主に、「何を話しているか」という音韻情報(テキストのようなもの)と、Ⅰ類 コンピュータサイエンスプログラム 中鹿研究室Ⅰ類(情報系)コンピュータサイエンスプログラムProfile :滋賀県出身。2009年 神戸大学工学部情報知能工学科卒業。2011年 神戸大学大学院工学研究科情報知能学専攻博士前期課程修了。2014年 同 博士後期課程修了。フランスインサ・リヨン工科大学訪問研究員、神戸大学大学院システム情報学研究科助教、電気通信大学大学院情報システム学研究科助教などを経て、2020年より現職。「誰が話しているか」という話者情報という2つの要素で構成されています。音声から自動的に音韻情報と話者情報という要素を区別して予測し、そして2つの要素から音声を復元できるモデルを学習することができれば、2つの情報のうち、話者情報だけを切り替えることで、同じ内容を別の人の声で表現できることになります。この技術がさらに洗練されれば、外国映画の日本語吹き替えを外人俳優が行ったり、障害により発声ができなくなった方のために、その方の元の声と同じ声を合成できるようになるなど、様々な分野で活用することができるでしょう。「非パラレル声質変換」という技術は、より多様で質の高い音声コミュニケーションの実現に貢献できる可能性を拓く力となると思います。中鹿 亘 准教授

元のページ  ../index.html#9

このブックを見る