2014年12月2日火曜日

big data と small data

 

 
 small dataは「小さなデータ」で、いわゆるbig data(ビッグデータ)に対する言葉。
 では、ビッグデータとは何か?というと、総務省のHPには開口一番、「事業に役立つ知見を導出するためのデータ」とした上で、ビッグデータビジネスという新事業に言及し、「ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業」と定義の例を引用している。何のことかさっぱり分からない。
 そこで、ランダムハウス辞書を見ると、“data sets, typically consisting of billions or trillions of records, that are so vast and complex that they require new and powerful computational resources to process” (データの集合、とくに何十億、何兆もの記録からなるもので、あまりにも膨大で複雑なために新たな強力なコンピューターによる処理が要求される)と定義、限りなく大きなデータということだけ、やっと分かった。そこで、巨大なデータを利用して商売に結びつけようという、上記の定義も何となく分かったような気もする。
 だが、実は、small dataの集合こそがbig dataなのだ。すなわち、small dataは“the data generated by an individual or small company”(個人や個々の会社が生み出すデータ=Word Spy) で、その特徴は“Small data typically provides information that answers a specific question or addresses a specific problem.”(スモールデータは、特別な質問に答えたり、特別な課題に対処する情報を提供する)ということなのだ。このデータは本来、個人や個々の会社に帰属するものであり、privacy(プライバシー)の観点からすれば、第3者が利用することは法律的に容認されない。
 例えば、スモールデータには、“metadata about you: your cookies, your web search history, your Amazon clicks and so on”(あなたに関するメタデータ:あなたのウェブ検索履歴、アマゾンのクリックなど)が含まれるが、企業としてはこれをそのまま活用したい、というのが本音なのだ。しかし、プライバシーの壁があるので、“Small data consists of usable chunks.”(スモールデータは活用できるかたまりからなり立っている)という理屈をひねり出し、これを集めてビッグデータと銘打って大々的に使おうという考え方が、ビッグデータビジネスであると言える。

 data leak、data spill(情報漏洩)やdata theft(データの窃盗)が日常茶飯事となった今日、ビッグデータを解放したアメリカは、もはや個人のdata privacy(データのプライバシー)を守ることができない社会になっているのだ。それは、big dataの活用に名を借りたsmall dataの乱用だからである。
 *「アメリカを読む辞書」を再開します。