Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/840-62080c7c

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

岩波データサイエンス刊行委員会『岩波データサイエンス Vol. 2』


自然言語処理について。現在のデータサイエンスで自然言語がどのように扱われているかを概説している。どれも一定のレベルでありながら、普通に読めるものとなっていて参考になる。

機械が自然言語分析を獲得する過程が、幼児の言語習得からヒントを得て考えられている。ベイズ教師なし単語分割では、すべてが未知語でも単語の分割を正しく行うことができる。このモデルは入れ子Pitman-Yor言語モデル(NPYLM)と呼ばれている。未知語の学習結果は、NPYLMの妥当性と、幼児が言語学習を理解する方向性を示す(p.33-35)。未知語と文法的に誤った文が大半の環境から、いかにして幼児が言語を獲得していくのかについて、NPYLMが示唆を与える。また、文と単語といった、時系列データに対する複数のレベルでの処理の仕方は、二重分析解析として自動運転などの分野に応用されている(p.39-41)。

自然言語の意味について、言語を記号表現として扱う流派と分散表象とする流派の二つに分けて解説した論文は、短いながらとても参考になる(p.62-73)。それぞれの流派の問題点を中立的、かつ端的に示している。また、機械翻訳についての解説も面白い(p.77-91)。フレーズベース翻訳、構文情報に基づく翻訳、そしてRNNなどニューラルネットに基づく翻訳が簡潔に解説されている。この手の話題に興味を持った人が真っ先に読めば、見取り図が得られるだろう。

後半はナンプレ(数独)の話がある。なかでも、ナンプレの「比熱」を用いる分析が面白い。これはナンプレの難易度をいかに定式化するかという課題から来ている。正解からの乖離の度合いをエネルギーとして表すことにより、エネルギーがゼロになる確率が統計力学から求められる。この方法では、非常に小さな確率を推定することができると言う(p.119-124)。情報の価値とはいかにエントロピーを縮減するかだから、その系の「熱」も自然と考えることができるというわけか。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/840-62080c7c

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。