Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/858-8a431cf4

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

古井貞熙『人と対話するコンピュータを創っています』


音声認識について極めて易しく語っている、非専門家向け入門書。この分野に興味を持ったなら最初に手に取る一冊だろう。こうした本がある分野はとてもよい。ただ、数式こそ頻出しないものの、各種の専門用語は多く扱われている。用語集としてまとめられているものの、読む人によってはきついかも。理論的なところを少し知っている私には、こうした平易な言葉で書かれると逆に分かりにくさを感じた。

内容は、人間の言葉に関わる音声発話、聞き取りと理解の仕組みを扱った後、ケプストラム分解を初めとした、音声認識の入力データの作り方、HMMの音響モデル、大規模コーパスに基づく言語モデル、話者自動適応、言語による音声認識の難しさの違い、そして実際の使われ方。出版年が2009年の本なので、深層学習以前の話。

ケプストラム、HMM、統計的な言語モデルの話は少し知っていたので、むしろ人間の言語認識の仕組みのほうが面白かった。例えば日本語で母音と結合した子音の認識は、周波数スペクトルが変化する部分が聞き取れれば可能。「か /ka/」の発音は、/k/の音声の先頭を削除しても聞き取れる。子音の認識には先頭が重要に思われるが、そうではない。/k/から/a/へのスペクトル変化がもっとも大きい10msくらいの部分が聞ければ、「か」として認識できる(p.61f)。

また、大きな音が小さな音を隠してしまうマスキングに、逆向マスキングがある。これはある音の直後にもっと大きな音が続くと、前の音が聞こえなくなる効果で、一見、物理的因果律に反しているようにみえる。これに対する説明は以下。
実際は、音の情報が聴覚神経を伝わるときに、大きな音のほうが電気パルスを沢山発生するため、聴神経が活性化され、神経の接続部でのパルスの伝達が早くなるためと考えられています。このために、物理的には後の大きな音が、直前の小さな音を追い越して、マスクするようなことが生じるようです。(p.69)

さらに、ハース効果。人はある程度の音の到達の遅れであれば、視覚的に音が発生すると思っているところに音を定位する。あまりにズレが大きくなると、音源として特定する位置が変わる。音楽ホールでは、様々に反射した音がそれぞれのタイミングで到達するが、補正された結果として演奏者の音として聞こえる(p.78f)。マガーク効果、つまり例えば「が」の発音をしている映像を見ながら、「ば」の音声を聞くと、二つの中間の「だ」の音に聞こえる(p.176f)。

こうした、視覚などのマルチモーダル情報による音声認識の補正を人間が行っているのは面白い。だが、まだいまの機械による音声認識には取り入れられていない。そればかりか、アクセントなどの音源情報を用いることにもまだあまり成功していない(p.148-150)。中国語やタイ語の声調についても同様。ただし、声調は統計的言語モデルでカバーできてしまう(p.181f)。音声認識の難しさは三つの軸で整理されている(p.164-166)。語彙数、実環境による変動要因(雑音や歪み、複数話者)、発生と認識の単位(単語から文、会話まで)。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/858-8a431cf4

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。