大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.2.1 小数据时代的随机采样

数千年来,政府一直都试图通过搜集信息来管理国民,只是到最近,小企业和个人才有可能拥有大规模搜集和分类数据的能力。

以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒(见图1-6)主导实施的人口普查,提出了“每个人都必须纳税”。

图1-6 奥古斯都恺撒

1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,然而,人口普查是一项耗资且费时的事情,尽管如此,当时搜集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确地记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估算。

三百多年前,一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方法,来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算,也比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一直使用清点这种“野蛮”的方法。

考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口时每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计数。直到19世纪,这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力。

新中国成立后,先后于1953、1964和1982年举行过3次人口普查。前3次人口普查是不定期进行的,自1990年第4次全国人口普查开始改为定期进行。根据《中华人民共和国统计法实施细则》和国务院的决定以及国务院2010年颁布的《全国人口普查条例》规定,人口普查每10年进行一次,尾数逢0的年份为普查年度。两次普查之间,进行一次简易人口普查。2020年为第七次全国人口普查时间。

新中国第一次人口普查的标准时间是1953年6月30日24时,所谓人口普查的标准时间,就是规定一个时间点,无论普查员入户登记在哪一天进行,登记的人口及其各种特征都是反映那个时间点上的情况。根据上述规定,不管普查员在哪天进行入户登记,普查对象所申报的都应该是标准时间的情况。通过这个标准时间,所有普查员普查登记完成后,经过汇总就可以得到全国人口的总数和各种人口状况的数据。1953年11月1日发布了人口普查的主要数据,当时全国人口总数为601938035人。

第六次人口普查的标准时间是2010年11月1日零时。2011年4月,发布了第六次全国人口普查主要数据。此次人口普查登记的全国总人口为1339724852人。与2000年第五次人口普查相比,10年增加7390万人,增长5.84%,年平均增长0.57%,比1990年到2000年年均1.07%的长率下降了0.5个百分点。

美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。然而,税收分摊和国会代表人数确定都是建立在人口的基础上的,这些必须获得正确且及时的数据,很明显,人们已有的数据处理工具已经不适用当时的情况。后来,美国人口普查局就委托发明家赫尔曼·霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机(见图1-7)来完成1890年的人口普查。

图1-7 霍尔瑞斯普查机

经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这在当时简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。但是,将其作为搜集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。

这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是,当数量无比庞大时,这又不太现实。如何选择样本?事实证明,问题的关键是选择样本时的随机性。统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,研究表明,当样本数量达到某个值之后,从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查即可。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可搜集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。此外,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。因此,在宏观领域起作用的方法在微观领域却失去了作用。