Entries

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.3』

再読。統計的因果推論について書かれたこの号は本当に素晴らしい。因果グラフの初歩的なところから、因果関係を推論するための差の差法などの手法、そして保育園問題や広告ターゲティングなど具体的な応用例まで。再読するたびに、自分がいま面しているデータ分析課題が因果推論の枠組みからどう見えるかなど、意識することが多い。単純に考えられる変数を入れた線形回帰では、共変量による影響が処置群・対照群によらず同じと仮定...

高橋淳一他『データサイエンティスト養成読本 登竜門編』

このシリーズの中で一番厚い。とても多くの分野のことを扱おうとしている。データサイエンスということで思い浮かべる、統計や機械学習の話だけではない。一般的なエンジニアリングの話もある。シェル、データベース入門、クローラーといった話題がそれ。若干、まとまりを欠いているように思える。登竜門編なので、データサイエンティストになりたいならこの辺の話題を押さえるべき、というのが総覧されているのだろう。私ならむし...

あんちべ『データ解析の実務プロセス入門』

再読。データ分析のプロセスについて入り口から平易に書いている良書。タッチは軽いながら、細かいポイントまでしっかり書いてあるので、初学者に勧められる。数式も少ないところも初学者にはよいところだろう。著者の仕事柄か、アンケートなどの社会調査データとWeb系のデータを中心とした記述。例えばアンケートの設計や回答の処理にとても詳しい(p.74-93)。またWeb系の話では、DAU(Daily Active Users)はCMを打てばすぐに変動し...

デイビッド・ネトルトン『データ分析プロジェクトの手引』

400ページほどある大部の本。データ分析について、ビジネスの観点やエンジニアリングの観点からの話題が扱われる。さらにWeb上のデータを中心として多くのケーススタディも扱われている。アルゴリズムについては、交差検証や決定木などの話題もそれなりにあるが、さほど重点は置かれていない印象。著者はもともとIBMの人だったこともあり、SPSSを用いた分析が念頭に置かれているようだ。大企業においてデータ分析の専任者がSPSSやS...

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.5』

本巻はスパース性について。データ量に比べてパラメータ数が多い場合、そのままでは学習が難しい。データがスパースである場合、L1ノルムを用いた罰則項を入れるなどのテクニックにより、学習が可能になる。逆に、データ量がパラメータ数に比べて小さいと、学習率を一つに固定して選択されるパラメータは実際とは異なる誤った結果になる可能性が高くなる。この場合、回帰分析は容易ではない(p.24f)。スパース性といっても様々な場...

福島真太朗『データ分析プロセス』

Rを用いたデータ分析のやり方について記した良書。実際にデータ分析をやる際のプロセスや、やる時に苦労するポイントを中心に書いている実践的な本。Rの使い方や、データ分析の各アルゴリズムの解説はあまりない。分析の例として出てくるのはirisやairqualityなどおなじみのtoy exampleもあるが、実際のスーパーマーケットのPoSデータや大学生の行動データStudent Lifeなど、現場の課題に近いものが大きな分量で扱われている。なに...

アレックス・ラインハート『ダメな統計学』

統計学の誤用について楽しく書かれた本。内容はしっかりしているが読み口はとても平易。科学研究における統計学の誤った使い方について、実例を挙げながら述べている。著者は物理学から統計に転じた人物。けれども、実例には心理学や医学の論文が多い。科学研究そのものに対するメタ研究など、広い範囲で多くの論文を参照している。本書の前半でよく出てくるのは、p値に頼りすぎることについての問題だ。p値という概念はとてもわか...

岩波データサイエンス刊行委員会『岩波データサイエンス Vol. 4』

第4巻は地理空間情報処理。ここまでの巻はデータサイエンスのある手法について特集していた。この巻はある応用分野を扱っているものになっている。そのため以前とは趣が違う。 理論的な内容やトピックの位置付けを示す記事は少ない。ややバラバラな印象を受ける。内容は地理空間情報の処理でよく用いられるQGISというオープンソースソフトウェアのチュートリアルから始まり、スーパーにおける顧客動線の研究、難病の分布を扱う空間...

涌井良幸、涌井貞美『多変量解析がわかる』

この著者のものは分かりやすく、ためになる。多変量解析について書かれた一冊。話題は回帰分析、主成分分析、因子分析、SEM(共分散構造分析)、判別分析、質的データ解析(数量化1~4類)。分散・共分散という概念が多変量解析ではキーになるとして、それらを中心に書かれている(p.108)。適度に数式が出てくるが、解析的に解くというよりはexcelのソルバーを使って近似の数値解を求めていくことが主。既に知っている話題が多か...

日経ビッグデータ編『グーグルに学ぶディープラーニング』

現状のディープラーニングについての極めて平易な解説で、最初に読む本としてはよいだろう。グーグルの人(主に賀沢秀人、佐藤憲一の両氏)による解説を基にしている。基本的な概念の説明の後は、グーグルにおけるディープラーニングの適用事例、日本の各社における事例、そしてブレインパッドの下田倫大氏によるディープラーニング活用フレームワークが書かれている。まず人工知能、機械学習、ディープラーニングをきちんと分けて...