◆従来の約30分の1の時間で音声を作成
富士通研究所では、適切な声のトーンで情報を伝達する、新たな音声合成の技術を開発中だという。従来の音声合成では、事前に収録した大量の音声波形をつなぎあわせて合成する手法だったが、このたび富士通が開発しているのは、声の質や抑揚、間の取り方に着目した新しい合成方式。
これにより、従来の約30分の1という短時間で音声合成することが可能になり、より高品質で多様な音声を作成することができるようになったという。これまでの音声合成の欠点であった、無特徴で一様、平坦なしゃべりから、よりリアルで感情やニュアンスが出るしゃべりが実現可能になった。
◆状況や環境に応じた、適切な合成音声が可能に
例えば、緊急警報のときには切迫し、聞き手を急かすような感じを出したり、周囲が雑音で騒がしい場所では、より通りがよく、聞こえやすい音声を用いるなど、状況や環境に適合した音声を採用することができる。また、企業や製品をPRするマスコットキャラクターに合った、かわいらしく親しみやすい声を作成するといった用途もありそうだ。
他にも、声が出なくなってしまう病の患者が、あらかじめ本人の生の声を録音しておくことで、後に音声合成した自分の声を使って会話をするようなことも可能になるだろう。
この技術は2014年度中に実用化を目指しているという。“感情的なSiri”に音声案内してもらう日も近いかもしれない。
富士通研究所