FC2ブログ

Entries

本橋智光『前処理大全』


素晴らしい一冊。データ分析の前処理について、様々な手法がSQL, R, Pythonのコード付きで載っている。前半の方はコードがawesomeなコードとそうでないコードで対比されている。効率的で可読性が高いコードの書き方がガイドされている。

前処理にはデータセット作成のための結合処理、フォーマット・粒度の統一や外れ値の処理を行うデータクレンジング、そして特徴量エンジニアリングがあるだろう。本書では結合処理と特徴量エンジニアリングに詳しい。特に、数値型、カテゴリ型、日時型、文字型、位置情報型(これはちょっと珍しい)に分けて特徴量の作り方が書いてある。何か特徴量エンジニアリングをするとき、きわめて実践的なガイドになる。

様々な特徴量エンジニアリングのアイデアはもちろん、SQLでのPARTITIONやCOALESCEはあまり見たことがなかったので非常に参考になった。ランクの算出など確かにSQLでできるときはやるべきだろう。

一点だけ奇妙に思ったのは、pythonのpandasのデータフレームで複合条件で抽出するとき、operatorのand_関数というものを使っていること(p.121)。普通に条件を&でつなげてできるのだが、なぜand_を使っているのだろう。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/984-7dbe1356

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

Appendix

プロフィール

坂間 毅 (Sakama Tsuyoshi)

Author:坂間 毅 (Sakama Tsuyoshi)
数学の哲学を専攻して研究者を目指し、20代のほとんどを大学院で長々と過ごす。
しかし博士号は取らずPh.D. Candidateで進路変更。
哲学と特に関係なくIT業界に住んでいる。

別館:アマゾンのレビューページ

最新トラックバック

検索フォーム

QRコード

QRコード