日本語音声認識エンジン for Windows CE (評価版)

私たちは音声合成で新しいヒューマン・インターフェースを追求しています。


ドキュメントトーカ開発システム
日本語音声認識エンジン for Windows CE 販売を停止しております。


日本語認識エンジン for Windows CE のダウンロード (DTalkerWCE_REC_SDK_11.zip: 764KB)

日本語認識エンジン for Windows CE の Readme.txt を読む


日本語認識エンジンは、Microsoft Corp. のWindows CE 上で動作する日本語音声認識ライブラリです。
Windows CE Pocket PC2002、2003 で動作します。


仕様

 話者:不特定話者(自動話者適応)
 発声:単語認識/連続認識
 登録:文字登録
 語彙:1000単語ベース
   (サンプルの住所認識東京都版では1700パターン、全国版では120000パターンの組み合わせを認識しております。)

特徴

・音響セグメントネットワークによる音声認識

・不特定話者音声認識

・認識単語数はメモリ依存

・認識率 96.5% (200単語)



音響分析部:

音声信号をフレーム(5~30ms)毎にスペクトル分析して、特徴パラメータの時系列に変換します。 雑音対策としてスペクトルサブトラクション方によるノイズ処理を施しています。

スペクトル距離計算部:

音声信号の各フレームがどのような発音に近いかを求めます。具体的には、各音響テンプレートと入力音声レベルの距離を計算しスペクトル距離マトリクスを作成します。

音響テンプレート:

日本語の音素体系に基づいて定義した発音のスペクトルが格納されています。

単語照合部:

音響セグメントネットワークとスペクトル距離マトリクスを、動的計画法を用いて照合します。

音響セグメントネットワーク生成部:

音響セグメントネットワークを単語辞書内のひらがな表記から音素変形ルールを用いて自動生成します。たとえば、映画という単語は「えーが」とも「えいが」とも発音されます。音響セグメントネットワークはすべての発音の組み合わせを表したものです。

単語辞書:

認識対象単語のひらがな表記が入っています。

音素変形ルール:

個の音素変形ルールを使用しています。




開発環境

・PocketPC2002(ARM プロセッサ)
 Microsoft eMbedded Visual C++ 3.0
 Pocket PC 2002 Software Development Kit
 ※Microsoft eMbedded Visual Basic 3.0 用のSDKはリリースしません。

・PocketPC2003(ARM プロセッサ)
 Microsoft eMbedded Visual C++ 4.0
 Windows Mobile 2003 software for Pocket PC 日本語版 ソフトウェア開発キット(SDK)

評価版であるため、定期的にダイアログボックスが表示されます。
関数そのものは正式版と同等です。


ダウンロードのトップ

製品情報のトップ