まほろば

Windowsの音声合成エンジンの比較

投稿者:マーチン  2016年6月5日 
カテゴリ:障碍者全般::音声合成

 Windows で使用できる音声合成エンジンで、音質と読み間違い率を比較しました。Windows10になってから、ストアアプリで使える Microsoft Ayumi Mobile と Microsoft Ichiro Mobile が追加されたので、その実力を確認しようというのが最初の動機です。ついでに、iOS の音声エンジンとの比較もしました。
 2016/06/05 Vocalizer Kyoko と CereVoice Yuki を追加しました。

●比較方法

 以下の23個の単語を、いろんな音声合成エンジンに読ませて、正しく読めるかを調べました。単語はランダムに抽出したのではなく、Microsoft Speech Platform のHARUKA で読めないものが、他の音声合成エンジンで読めるのかというスタンスで行ったので、結果的に HARUKAさんには不利になってしまいました。

お金、右端、最小値、大文字、小文字、高齢者、無変換、自動的、公平、火山、月末、既読、空行、予定日、化粧品、連絡帳、補助金、宅配便、管理人、青色申告、windows、text、delete


 音声のファイル化には、Microsoft Speech Platform が使える TextToWav と、Open JTalk が使える テキストーク を使用させてもらいました。
TextToWav 動作画面

●試した音声エンジン

(1)Microsoft Haruka Platform
種別:Microsoft Speech Platform Ver.11
動作環境:Windows Vista / 7, Windows Server 2003 / 2008
関連記事:【まほろば】無料の音声合成エンジン 「Microsoft Speech Platform 11」

(2)Microsoft Haruka Desktop
種別:SAPI5 (Speech Application Programming Interface 5)
動作環境:Windows 10 / 8  (OSに標準搭載、デスクトップアプリ用)
関連記事:【まほろば】SAPI5 対応の日本語音声合成エンジンのインストール

(3)Microsoft Ayumi Mobile
動作環境:Windows 10 / 8、Windows Phone (OSに標準搭載、ストアアプリ用)
従来の .NET Framework 環境ではなく、UWP (Universal Windows Platform)環境で使えるエンジン。

(4)ドキュメントトーカ けいこ
種別:SAPI5 (Speech Application Programming Interface 5)
動作環境:Windows 10 / 8 / 7 / Vista / XP
関連サイト:ドキュメントトーカ Plus
日本語音声合成エンジンのご提供について で、障碍者向けに無料提供されたエンジン。

(5)Nuance Vocalizer (ニュアンス ボカライザー) Kyoko
種別:SAPI5 (Speech Application Programming Interface 5)
関連記事:【まほろば】SAPI5 対応の日本語音声合成エンジンのインストール2

(6)CereVoice Yuki (セレボイス ユキ)
種別:SAPI5 (Speech Application Programming Interface 5)
関連記事:【まほろば】SAPI5 対応の日本語音声合成エンジンのインストール2

(7)Open JTalk mei
種別:Open JTalk
動作環境:Windows 10 / 8 / 7 / Vista
但し、対応しているソフトが必要です(NVDAテキストーク
関連記事:【まほろば】Open JTalk の音響モデルを試す

(8)番外編:iOS
動作環境:iPhone iPad  
再生方法:「メモ」で文字列を入力し、すべて選択して [読み上げ] を実行

●比較結果

意見には個人差があります タオル
 音声エンジンを比較してこんなことが分かりました。
  • 「Haruka Desktop」 と 「Ayumi Mobile」 の読み上げ精度はほぼ同じ。
  • 「Haruka Desktop」 は 「Haruka Platform」 から改善されているものの、スクリーンリーダーとして使うにはまだ不十分と感じる。
  • 「Haruka Desktop」 の方が 「Ayumi Mobile」 よりも、なめらかに聞こえる。
  • 「ドキュメントトーカ けいこ」と 「JTalk mei」 は、読み上げ精度に問題はないが、音質があまり良くない。
  • iOS の音声エンジンは、読み上げ精度に問題はなく、音質も許されるレベルだと思う。
  • 独断で音質のよい順位は、 HARUKA > Ayumi≒iOS > けいこ≒mei
  • NVDA や TextToWav 等のソフトには、辞書登録できる機能があるので、読めない単語を登録すれば少しは改善できるが、全ては対応しきれない。
 Microsoft が標準でつけている音声エンジンは、どれも満足のいかないものなので、日本語環境だけの話ですが、Apple ができている環境がMicrosoft は提供できていないと言えます。

●比較したデータの詳細

 スピーカーのアイコンをクリックすると、サンプル音声を再生できます。
単語Haruka
Platform
Haruka
Desktop
Ayumi
Mobile
DTalker
けいこ
Vocalizer
Kyoko
CereVoice
Yuki
JTalk
mei
iOS
はるか プラットフォーム 再生はるか デスクトップ 再生あゆみ モバイル 再生けいこ 再生めい 再生
お金  ×
右端  ×
最小値 ×
大文字 ×
小文字 ×××
高齢者 ×
無変換 ×
自動的 
公平  ×××
火山  ×××
月末  ×××
既読  ×××××
空行  ××××××
予定日 ××××
化粧品 ×××
連絡帳 ×××××
補助金 ××
宅配便 ×
管理人 ××××
青色申告×××
windows×
text  ××××
delete ××

●余談

 Visual Studio 2015 をインストールして、Microsoft Ayumi Mobile と Microsoft Ichiro Mobile が使える読み上げアプリを自作してみました(公開はしません)。Microsoftは、UWP環境を今後の主流にしたいだろうけど、思うように普及するのだろうか。
 


◆関連記事