Entries

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.5』

本巻はスパース性について。データ量に比べてパラメータ数が多い場合、そのままでは学習が難しい。データがスパースである場合、L1ノルムを用いた罰則項を入れるなどのテクニックにより、学習が可能になる。逆に、データ量がパラメータ数に比べて小さいと、学習率を一つに固定して選択されるパラメータは実際とは異なる誤った結果になる可能性が高くなる。この場合、回帰分析は容易ではない(p.24f)。スパース性といっても様々な場...

福島真太朗『データ分析プロセス』

Rを用いたデータ分析のやり方について記した良書。実際にデータ分析をやる際のプロセスや、やる時に苦労するポイントを中心に書いている実践的な本。Rの使い方や、データ分析の各アルゴリズムの解説はあまりない。分析の例として出てくるのはirisやairqualityなどおなじみのtoy exampleもあるが、実際のスーパーマーケットのPoSデータや大学生の行動データStudent Lifeなど、現場の課題に近いものが大きな分量で扱われている。なに...

アレックス・ラインハート『ダメな統計学』

統計学の誤用について楽しく書かれた本。内容はしっかりしているが読み口はとても平易。科学研究における統計学の誤った使い方について、実例を挙げながら述べている。著者は物理学から統計に転じた人物。けれども、実例には心理学や医学の論文が多い。科学研究そのものに対するメタ研究など、広い範囲で多くの論文を参照している。本書の前半でよく出てくるのは、p値に頼りすぎることについての問題だ。p値という概念はとてもわか...

岩波データサイエンス刊行委員会『岩波データサイエンス Vol. 4』

第4巻は地理空間情報処理。ここまでの巻はデータサイエンスのある手法について特集していた。この巻はある応用分野を扱っているものになっている。そのため以前とは趣が違う。 理論的な内容やトピックの位置付けを示す記事は少ない。ややバラバラな印象を受ける。内容は地理空間情報の処理でよく用いられるQGISというオープンソースソフトウェアのチュートリアルから始まり、スーパーにおける顧客動線の研究、難病の分布を扱う空間...

涌井良幸、涌井貞美『多変量解析がわかる』

この著者のものは分かりやすく、ためになる。多変量解析について書かれた一冊。話題は回帰分析、主成分分析、因子分析、SEM(共分散構造分析)、判別分析、質的データ解析(数量化1~4類)。分散・共分散という概念が多変量解析ではキーになるとして、それらを中心に書かれている(p.108)。適度に数式が出てくるが、解析的に解くというよりはexcelのソルバーを使って近似の数値解を求めていくことが主。既に知っている話題が多か...

日経ビッグデータ編『グーグルに学ぶディープラーニング』

現状のディープラーニングについての極めて平易な解説で、最初に読む本としてはよいだろう。グーグルの人(主に賀沢秀人、佐藤憲一の両氏)による解説を基にしている。基本的な概念の説明の後は、グーグルにおけるディープラーニングの適用事例、日本の各社における事例、そしてブレインパッドの下田倫大氏によるディープラーニング活用フレームワークが書かれている。まず人工知能、機械学習、ディープラーニングをきちんと分けて...

フォスター・プロヴォスト、トム・フォセット『戦略的データサイエンス入門』

再読。データサイエンスをビジネスに活かす、という視点から書かれたデータサイエンスの入門書。各アルゴリズムの基本的な解説や、過学習と交差検定、ROC曲線などモデルの評価の仕方についての解説はもちろん載っている。この本はそうしたデータサイエンスの中身の解説もさることながら、一貫してビジネスに活かそうとするとどういう課題があるかを述べている。根本的には、データサイエンスはエンジニアリングというより調査研究...

高橋威知郎、白石卓也、清水景絵『データサイエンティストの秘密ノート』

データ分析に関わりだした人が読むにはいい本。ソフトバンク・テクノロジーに所属する、データ分析歴3年未満のデータサイエンティストの失敗例を35個書いた本。こうした失敗事例から学ぶのはとても大切なこと。具体的な現場の事例に基づきながら、失敗例を公表しているのはなかなか貴重なものだろう。最初にデータ分析のプロセスを準備、分析、報告の3つのフェーズに大別。それぞれのフェーズにあるステップを詳しく述べている。...

斎藤康毅『ゼロから作るDeep Learning』

ベストセラーの名に恥じない、素晴らしい一冊。深層学習の基本的原理を、pythonコードを中心に解説。数学的内容も行列の積や微積分といった初歩から、実に丁寧に説明している。けれども内容はそれなりに高度なところまでフォロー。深層学習の研究の先端から、各トピックが解説されている。内容はパーセプトロンからニューラルネットワークへ。全結合ネットワークが主な対象で、後はCNNに一章が割かれている。非常に分かりやすく書...

佐伯胖、松原望編『実践としての統計学』

統計学の様々な結果やTipsの背景、基礎を述べたもの。タイトルでは内容が伝わりにくい。統計学はいまや基礎的知識として、物理学・生物学から社会科学まで広く普及している。SASやRといったツールも整備されている。その結果、数理統計学として統計学自体を研究するわけではない、使う側の統計的手法は「こういうデータの時はこう分析する」といったHow-toの蓄積となっている(p.179f)。使う側は統計の専門家ではないので、必ずしも...