2011年09月02日

合成音声に望むこと

eラーニング教材の音声を編集しているとこんなことを思う。
ナレーターと講師の比較である。

ナレーターの声は安心感がある。
音量も音程もスピードも一貫して安定しているのである。

それに対して講師の声は臨場感がある。
抑揚があり、声の大きさもスピードも場面によって変化する。
興が乗ると一段と変化が大きくなる。

どちらが良いと一概に決まるものではないだろう。
コンテンツにも依存するし、受講対象者にも依存するかもしれない。

ただ、
自動生成された合成音声を聞くと、アクセントが正しくても違和感を覚える。
肉声と比べて何が違うのだろうか。
上の経験から得た答えそれは「安定しすぎている」ということ。
機械だからそれもそのはず。
同じ言葉を同じように使えば正確に再現する。

緩急や揺らぎが欲しい。
文脈や場面によって強調するところ・抜くところ、たまに調子が変わるようなところがあるといいのではないか。
いまどきの合成音声は賢いから手作業でかなり編集できるようだが、ある程度の自動化が欲しい。

そしてもうひとつ
1社の合成音声でも数種類の声が用意されていることがある。
老若男女や明るい/落ち着いたなど。
しかしアクセントのつけ方は同じようだ。
確かに雰囲気は変わる。しかし年齢や性別が変われば、抑揚のつけ方もスピードも違うではないか。
声に合わせた人格もセットにして欲しい。

なーんてことは人間に求めればいいのだろうか?
いやいや合成音声をつかった教材による学習効果が高くなると思うのだが。

今日の気分 (*_*)



posted by 中田智玄 at 19:45 | Comment(0) | TrackBack(0) | ソフトウェア | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。