FC2ブログ

Entries

西田圭介『ビッグデータを支える技術』


ビッグデータ関連の技術や構築のポイントを分かりやすく書いた本。データレイクとか言ってる人は読むべきもの。著者はトレジャーデータの人なのだが、自社製品については最後の数ページで述べられるのみ。基本的にはオープンソースになっているものを組み合わせて解説されている。とても信頼の置ける態度。

ビッグデータは3V、すなわちデータの多様性Variety、データ件数の多さVolume、データ流速の速さVelocityで特徴づけられると言われる。こうしたデータを扱うには、従来の技術とは別のものが必要になる。例えばどんなデータが来るかは事前に予期できないので、先にデータがあり、データベースの設計が後と考える。これは従来のデータウェアハウスの考えとは逆。従来のデータウェアハウスはストレージとしてのデータレイクに置き換え、そこから分散処理でデータマートへデータを移して分析に供する(p.17-19)。

本書はデータ収集、データ保存、データアクセス、分析用データマートの作成に分けて語る。特徴的なところは、これらをつなぐワークフロー、パイプライン管理の必要性を全面に押し出しているところか。基本的にはHadoopとそれに関連するシステム(Hive, Presto, Sparkなど)。メッセージブローカの使い所や、時系列データの収集を工夫することで冪等性を確保すべきことなどはとても面白かった。こうした技術を本当に必要とする人は少ないだろうが、踏まえておいて損はない。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/969-567b7441

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する