ソーシャル
MBROLA
MBROLAは、世界規模の共同プロジェクトとしての音声合成ソフトウェアです。 MBROLAプロジェクトのWebページは、多くの話されている言語のdiphoneデータベースを提供します。
MBROLAソフトウェアは、これらすべての言語の完全な音声合成システムではありません。テキストはまずMBROLA形式の音素および韻律情報に変換する必要があり、別のソフトウェア(例:)が必要です。
歴史
MBROLAプロジェクトは、可能な限り多くの言語の音声シンセサイザーのセットを入手するための科学プロジェクトとして、モントリオール工科大学(TC)のTCTSラボで1995年に開始されました。 mbrolaソフトウェアの最初のリリースは1996年であり、非商用、非軍事アプリケーション用のフリーウェアとして提供されました。作成された音声データベースのライセンスは異なりますが、ほとんどが非営利および非軍事用です。
非商用アプリケーションでのみ無料で使用されるため、MBROLAはLinuxワークステーションのデファクト音声合成エンジンeSpeakNGのプライベート/ホームユーザーの代替選択肢として使用されましたが、商用ソリューション(スピーキングタイムクロック、搭乗通知など)にはほとんど使用されませんでした音声データベースの初期開発とMBROLAソフトウェアのサポートが終了し、徐々にクローズドソースのバイナリが最近のハードウェアとオペレーティングシステムの開発に遅れをとった。このMBROLA開発チームに対処するため、MBROLAをオープンソースソフトウェアとしてリリースすることを決定し、2018年10月24日にGitHubでGNU Affero General Public Licenseのソースコードがリリースされました。 2019年1月23日に、同じライセンスでWAVファイルからMBROLAデータベースを作成できるMBROLATORというツールがリリースされました。
使用技術
MBROLAソフトウェアは、音声生成にMBROLA(Multi-Band Resynthesis OverLap Add)アルゴリズムを使用します。ダイフォンベースですが、MBROLAの合成の品質は、ほとんどのダイフォンシンセサイザーの品質よりも高いと見なされます。これは、一定のピッチとハーモニックフェーズを課すダイフォンを前処理して、セグメントの品質をわずかに低下させるだけで連結を強化するためです。
MBROLAはPSOLAに似た時間領域アルゴリズムで、合成時の計算負荷が非常に低いことを意味します。ただし、PSOLAとは異なり、MBROLAではピッチ周期の予備的なマーキングは必要ありません。この機能により、MBROLAアルゴリズムを中心としたMBROLAプロジェクトの開発が可能になりました。これにより、世界中の多くの音声研究所、企業、または個人が、多くの言語と音声用のdiphoneデータベースを提供しましたが、中国語などのいくつかの顕著な省略があります。
参照資料
- ^ MBROLAの声のリスト
- ^ MBROLAライセンス
- ^ Mbrola-64はSEGFAULTですぐにクラッシュします
- ^ Dutoit、T;ライヒ、H(1993年12月)。 「MBR-PSOLA:セグメントデータベースのMBE再合成に基づくText-To-Speech合成」。 スピーチコミュニケーション 。 13 (3–4):435–440。 doi:10.1016 / 0167-6393(93)90042-J
- MBROLAホームページ
- MBROLAソースコードリポジトリ
- MBROLAでFestivalを使用する