![]()
![]()
カーナビゲーションシステム、ロボットなど多様なシステムで多くの採用実績を持つ汎用的な
音声ソリューションを提供
旭化成 ヴォイスインターフェイスプロジェクトでは、長年にわたる音声ソリューションの研究開発の成果となる、音声認識ミドルウエア「VORERO」、音声合成ミドルウエア(TTS)「VOStalk」、ハンズフリーミドルウエア「VOCLE」、音声圧縮・伸長ミドルウエア「MMEV」などを提供している(図1)。
![]() |
| 図1:旭化成の音声ソリューション |
「なぜ旭化成が、音声ソリューションを提供しているのかといいますと、約20年以上前、多角化経営の一貫として当時の研究開発本部が音声認識技術の研究・開発をスタートさせたのがその発端となります。以前はグループ企業である旭化成マイクロシステム(AKM)よりカーオーディオ向けに音声認識チップとして提供していた時期もありますが、その後2000年よりミドルウエアとして提供するようになりました」(大谷氏)という。旭化成では、組込み機器のプロセッサやOSでの利用可能なミドルウェアの開発、提供にこだわってきた。 大手カーナビメーカ・カーメーカのカーナビゲーションシステムをはじめ、ロボットや教育ソフト等、多様なシステムで多くの採用実績を持つ。
ウインドリバーのプラットフォーム製品は非常にパワフルだ
ウインドリバーとは、ウインドリバー(株)が発足する以前、宮崎氏が米国本社へ問い合わせを行ったときからの付き合いだという。「いまはウインドリバー(株)のパートナーとして、お客様をご紹介いただいたり、ウインドリバーと共通のお客様に対するサービス&サポートを協力して提供するなど、親密な協業関係にあります」(宮崎氏)。共通の顧客の製品として、AVカーナビゲーションシステムやロボットなどがある。
リアルタイムOS上で動作させるメリットとして、「カーナビゲーションシステムのようにパソコンと比べて非力なCPUでさまざまな動作を実行する場合、演算量の適切な振り分けなどを行う必要があるので、VxWorksのようなリアルタイムOSのメリットが生きます。また、ウインドリバーのBSPを含んだプラットフォームは、非常にパワフルなソリューションだと思っています」(宮崎氏)という。
雑踏や自動車内でも良好な認識を実現した音声認識エンジン
音声認識ミドルウエア「VORERO」は、ノイズ・キャンセラー、周波数イコライザー、スピーカ音キャンセラーなど、旭化成が独自に工夫を凝らした音響解析技術によって、雑踏や自動車内でも良好な認識を実現した音声認識エンジンである(図2)。
![]() |
| 図2:音声認識ミドルウエア「VORERO」 |
不特定話者認識、音声による語彙登録、コンパクトなエンジン、小語彙から大語彙までのスケーラブルな対応、マルチプラットフォームへの対応、多国語への対応などの特長を備え、さらに前後の不要語を無視するワードスポッティングや不要語彙のリジェクションなど、認識率を高める機能なども持つ。
VOREROの音声認識処理でポイントとなるものが、音響モデルと辞書(語彙ネットワーク)だ。
音響モデルは、音響分析のために音響的現象の発生頻度を確率的にモデル化したもので、VOREROではこれを動的に変更できる。たとえば、音素モデルと単語モデル、特定話者用の単語登録モデルと不特定話者用の固定単語モデル、日本語と英語などの混在を切り替えられる。
不特定話者と特定話者の混載は、VOREROの大きな特長のひとつなっているものだ。「一般に特定話者のモデルを学習させると不特定話者の認識率が下がってしまいますが、VOREROでは複数のモデルがあたかもひとつように振る舞うことができ、認識率を落とすことはありません」(宮崎氏)という。また、用途別に音響モデルを最適化することで、携帯電話など雑踏での使用、自動車の走行ノイズ環境下での使用など、用途に適した性能を実現できる。
しかもVOREROは、同一のエンジンとAPIによって多言語に対応していることから、リブートすることなく言語を切り替えられる。「多言語に対してもリブート無しでの言語切り替えを実現できるというのは、言語非依存のVOREROエンジンならではの大きなメリットといえます」(宮崎氏)という。
多言語対応も、音響モデルを変更することで行っている。現在、日本語、韓国語、北京語、広東語、北米英語、カナダ系フランス語、北米スペイン語、英国英語、ドイツ語、フランス語、スペイン語、イタリア語、オランダ語、ポルトガル語の14カ国語に対応している。そして、06年度には広東訛り北京語と上海訛り北京語への対応も予定している。
語彙ネットワークは、音声認識を行うために、あらかじめ認識すべき語彙と語順を設定しておくもので、バイナリ・イメージデータの形式で音声認識エンジンに読み込まておくものだ。語彙ネットワークによって、ワードスポッティングや不要語彙のリジェクションなども設定できる。
音声合成ミドルウエアやハンズフリーミドルウエアなども提供
音声合成ミドルウエア(TTS)「VOStalk」は、組み込みソフトウエア技術をベースに開発されたコンパクトな音声合成エンジンであり、低演算量や低メモリサイズながら、高音質でナチュラルな韻律の音声合成を実現している。
VOStalkは、大きくTTI(Text To Intermediate expression)エンジンとITS(Intermediate expression To Speech)エンジンという2つのエンジンに分けられる。
TTIエンジンによって、テキスト解析辞書によって音声の形態素解析やアクセント解析、数字の解析などを行う。解析したテキストは、いったん中間表現形式として表記される。
中間表現方式で表記されたテキストに対して、ITS(Intermediate expression To Speech)エンジンで韻律生成や波形合成を行う。中間表現方式をそのまま音声にすると平板なものとなってしまうが、韻律生成や波形合成などの処理によって高品質な音声合成を実現している。
TTIとITSという2エンジン構成としたことから、ITSエンジンに対して直接中間表現形式を入力することで、中間表現形式のみからの音声合成が可能となる。これにより、特定の言葉のみ合成したいなど、TTIエンジンは不要だけれども音声合成を行いたいといったニーズにフレキシブルに対応できる。さらに、特定の韻律を直接入力するダイレクトフレージングも行うことができ、感情を込めた発話に見られる周波数や音量の変化などを元にした音声合成も可能になる。
ハンズフリーミドルウエア「VOCLE」は、エコーキャンセラ、ノイズサプレッサ、エコーサプレッサ、イコライザー、オートゲインコントローラといった多くの機能を備え、高品質のハンズフリー通話を実現するものだ。「旭化成では、音声認識エンジンの開発を通じて長年エコーキャンセラやノイズキャンセラの研究開発を行ってきました。そういった経験などを活かして開発したのが、ハンズフリーミドルウエアのVOCLEです」(大谷氏)という。
音声圧縮・伸長ミドルウエアの「MMEV」は、圧縮率10:1以上という組み込みシステムに最適な高効率で高音質を実現しており、音声アンサーバック等のアプリケーションに適している。あらかじめ録音し圧縮格納してあった肉声による音声認識結果のフィードバックや操作ガイダンスを実現できる。また、音声合成機能の搭載が難しいリソースのシステムでも、音声フィードバック機能や音声ガイダンス機能を実現できる。
SDKをはじめライブラリやサンプルコードなど充実の開発環境
VOREROは、アーキテクチャが洗練されている上、必要メモリサイズが小さいことなどから、組み込み用途でも高い性能を発揮できる。
開発環境も充実している。GUIベースのWindows上の開発ツールであるVORERO SDKが用意されている。語彙ネットワークを作成したり、作成した語彙ネットワークでの認識動作を確認しながら認識率や応答速度、使用メモリ量などの最適化を図ることができる(図3)。
![]() 拡大画像 |
![]() 拡大画像 |
| 図3:VORERO SDK |
さらに、Windows用のライブラリとターゲットCPU用のライブラリ、Windows用アプリケーションやコマンドライン・アプリケーションなどのサンプルコード、地名ネットワークや評価用音声などのサンプルデータ、ツールやAPIのマニュアルも提供される。
VOStalkは、ANSI C準拠で記述されておりOS非依存のためさまざまなシステムへ容易にポーティングできる。必要となるメモリサイズも小さく、ROM/RAM量が少ないシステムでも容易に搭載できる。開発環境のVOStalk SDKも用意されており、評価ツール(デモプログラムやユーザ辞書作成ツール)、開発ライセンス付きのエンジンライブラリ(TTIエンジンおよびITSエンジン)、サンプルプログラムやマニュアルなども提供されている。
VOLCEもVOStalkと同様に、ANSI C準拠で記述されており、さまざまなシステムへ組み込むことができる。開発キットのVOLCE SDKによって、VOLCEの使用環境に適した各種パラメータの設定をパソコンで行うことも可能である。
旭化成では、音声ミドルウエアの提供と共にカスタマイズを含めた受託開発も行っており、音声ソリューションに関する多様なニーズに応えている。
|
ウインドリバーパートナー製品紹介ページ
http://www.windriver.com/japan/alliances/directory/list/asahikasei.html





