Entries

スポンサーサイト

ゴードン・リノフ、マイケル・ベリー『データマイニング手法 3訂版 予測・スコアリング編』

マーケティング系の事例を盛り込んで、データマイニングの手法を解説したもの。データ分析の一般的な流れを扱った章の後、決定木、ニューラルネット、k最近傍法、生存分析の4つの手法について、その概要と顧客分析での実例が書かれている。実例というよりは手法によった解説がメイン。もう少し事例の話が聞けるとよかった。解説の内容はあまり数式は出てこない。直感的な説明を心がけている。面白かった事例としては、追加反応モ...

大湾秀雄『日本の人事を科学する』

人事経済学や組織経済学の観点から、人事領域においてどのようなデータ活用が可能を書いた本。著者の主催する人事情報活用研究会で、各企業が実際に自社内の人事データを分析した事例が多数載っている。人事分野はHRtechとして徐々に盛り上がりつつはあるが、データ分析からは遠い世界になっている。こうした状況で、人事分野で何ができるかをかなり具体的に書いており、参考になる一冊。人事のデータ活用が遅れている理由として著...

坂本俊之『人工知能システムを外注する前に読む本』

ディープラーニングとはどういうもので、ディープラーニングを使ったシステムを開発しようとしたらどのような点に気をつける必要があるかを書いている。著者はスマホアプリ等を作ってきた開発者のようだ。こういった課題はコンサルティング会社を中心に多く扱われているが、本は少ないので面白い試みか。ディープラーニングについての解説が半分以上を占めている。ビジネスサイドの初心者がサーベイしておくべきレベルの話が続く。...

坪井祐太、海野裕也、鈴木潤『深層学習による自然言語処理』

文句なく素晴らしい名著。内容は本の題名そのまま。この分量でここまで分かりやすく書けるのは脱帽。最近の自然言語処理に関する主に理論面の解説。抽象的なところをそのまま解説するのではなく、適宜具体化しながら解説している。また、著者による新たな位置づけや、説明の工夫も多く見られる。深層学習の一般的解説から、特に自然言語処理で使われるSeq2Seqや注意モデルの解説、翻訳・要約・対話・質問応答という具体的なタスク...

高橋威知郎『14のフレームワークで考えるデータ分析の教科書』

教科書然としているが、あまり標準的な事柄が書いてあるわけではない。個人的にはもっと教科書的なものを探していたが、本書はかなり独自の視点が多く入っている。データサイエンス養成読本は教科書といえるが、まったくの初心者にはややテクニカルすぎる。よりビジネス面によった本を探していた。少なくともこの本は教科書というより、著者の経験に基づいてデータ分析のステップを整理したものだ。例えば初心者が本書を読んで、書...

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.3』

再読。統計的因果推論について書かれたこの号は本当に素晴らしい。因果グラフの初歩的なところから、因果関係を推論するための差の差法などの手法、そして保育園問題や広告ターゲティングなど具体的な応用例まで。再読するたびに、自分がいま面しているデータ分析課題が因果推論の枠組みからどう見えるかなど、意識することが多い。単純に考えられる変数を入れた線形回帰では、共変量による影響が処置群・対照群によらず同じと仮定...

高橋淳一他『データサイエンティスト養成読本 登竜門編』

このシリーズの中で一番厚い。とても多くの分野のことを扱おうとしている。データサイエンスということで思い浮かべる、統計や機械学習の話だけではない。一般的なエンジニアリングの話もある。シェル、データベース入門、クローラーといった話題がそれ。若干、まとまりを欠いているように思える。登竜門編なので、データサイエンティストになりたいならこの辺の話題を押さえるべき、というのが総覧されているのだろう。私ならむし...

あんちべ『データ解析の実務プロセス入門』

再読。データ分析のプロセスについて入り口から平易に書いている良書。タッチは軽いながら、細かいポイントまでしっかり書いてあるので、初学者に勧められる。数式も少ないところも初学者にはよいところだろう。著者の仕事柄か、アンケートなどの社会調査データとWeb系のデータを中心とした記述。例えばアンケートの設計や回答の処理にとても詳しい(p.74-93)。またWeb系の話では、DAU(Daily Active Users)はCMを打てばすぐに変動し...

デイビッド・ネトルトン『データ分析プロジェクトの手引』

400ページほどある大部の本。データ分析について、ビジネスの観点やエンジニアリングの観点からの話題が扱われる。さらにWeb上のデータを中心として多くのケーススタディも扱われている。アルゴリズムについては、交差検証や決定木などの話題もそれなりにあるが、さほど重点は置かれていない印象。著者はもともとIBMの人だったこともあり、SPSSを用いた分析が念頭に置かれているようだ。大企業においてデータ分析の専任者がSPSSやS...

岩波データサイエンス刊行委員会編『岩波データサイエンス Vol.5』

本巻はスパース性について。データ量に比べてパラメータ数が多い場合、そのままでは学習が難しい。データがスパースである場合、L1ノルムを用いた罰則項を入れるなどのテクニックにより、学習が可能になる。逆に、データ量がパラメータ数に比べて小さいと、学習率を一つに固定して選択されるパラメータは実際とは異なる誤った結果になる可能性が高くなる。この場合、回帰分析は容易ではない(p.24f)。スパース性といっても様々な場...
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。