Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/827-2c221b1f

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

荒木雅弘『イラストで学ぶ 音声認識』


音声認識のアルゴリズムに書かれた入門書。この分野への入口として最適な一冊だろう。人間がいかにして音声を生み出すかについての音声音響学から始まっている。有限状態オートマトンについての最低限の解説の後、音声音響学に基づき、音声信号から特徴抽出を行う、フーリエ変換、絶対値・メル帯域化・対数化、離散コサイン変換が解説され、最終的にケプストラム、そしてその低次部分であるMFCCが得られる。機械学習を念頭に置いていると、この辺りは所与として扱ってしまうので、分かりやすい解説が読めるのはとてもよい。

その後は、隠れマルコフモデルを平易に解説し、EMアルゴリズムでどのように学習を行うかが書かれている。また、深層学習を使う場合についても少し触れられる。音素が特定された後は、それがどのような語に対応し、どのような意味になるのかをどうモデル化するかが述べられる。音声認識におけるデコードの問題は、WFST(重み付き有限状態トランスデューター)で書かれる。

音声認識は系列長も不定の複数入力・複数出力のパターン認識であり、また発話の瞬間でのリアルタイム処理を求められるもっとも難しい問題である(p.8-10, 33f)。本書は難しい問題への入り口として、最初から一歩ずつ解説している。数学的負荷もあまり大きくないし、入門書にはとても良いだろう。私は音声認識における隠れマルコフモデルの概要と深層学習が登場する場面が知りたかったのだが、目的は十分に果たせた。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/827-2c221b1f

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。