この 2 章では、サンプリングコストが情報コストを激減させる、のタイトルです。
サンプリング調査とは、データ全体から一部のデータ群をサンプルとして抽出して、どれほどの意味があるのかを統計的に計算するという手法です。
この章では例として、1930 年前後のアメリカのニューディール政策のころの失業率の統計手法が挙げられています。
アメリカ政府が比較検討↓
「失業者に登録カードへの必要事項の記入と最寄りの郵便局からの郵便を義務付ける」
vs
「無作為に選んだ全人口の 0.5% ほどに対してサンプルリング調査を実施」
全数の調査を実施出来れば良いですが、現実的ではありません。サンプリング調査に関しては、当時ものすごい批判があったようですが、その数年後に驚くほどの精度が分かったそうです。
ここで著者が指摘しているのは、確かに理論上は全件数の方が精度が高いですが、限られた時間、人手、お金の中で意味のある統計を出して判断や行動に出るにはサンプリング調査でも十分ではないか、ということです。
さらには最近ビッグデータというのが最近流行でありますが、事前に検証すべし、とも書いています。
ごもっともだと思います。何もやみくもに 10 億件、100 億件のデータを解析しなくてもサンプリングで分かるならやることにこしたことないですよね。
0 件のコメント:
コメントを投稿