大数据是数据越多就会好的吗？统计学是一门分析数据的艺术

数据并不是越多越好

统计本身是一门收集数据的科学，但是数据是不是越多越好呢?很难说。

历史上有一个非常有名的例子。大约500年之前，丹麦有一个天文学家叫第谷，他从当时的丹麦国王那里要了一笔钱，建了一个实验室。第谷天天去观察每颗行星的运动轨迹，并且每天记录下来。于是第谷观察了20年，记录了大量的数据。不过，这个数据太多了，第谷花了大量时间、精力来分析这个数据，但没有发现任何规律。

这时候，一个叫开普勒的人出现了。开普勒认为，第谷每天去观测，一年365天每一颗行星都会有365个数据，这样20年观测记录积累下来，要分析处理的数据就太多了，而且那个时候的数据分析只能依靠手工计算，这个处理工作量实在太大了。于是开普勒就说，能不能每年只给我一个数据，比如说你可以只告诉我每年的1月1日，地球在什么位置，土星在什么位置，太阳在什么位置，等等。这样20年的观测数据筛选之后，每一颗行星的数据就只有20个了。开普勒知道，地球每隔365天会回到同一个位置，然后他把地球的位置固定，再分析其他行星跟地球的相对位置。开普勒通过固定地球的位置，对其他行星位置20年的数据进行分析，就成功得到了其他行星的运行轨迹。此后开普勒就发现，如果地球位置不变的话，那么其他行星的20年运行轨迹画出来之后，这些行星都是围着太阳运转，运行轨迹都是椭圆形的。由此开普勒发现了行星运动的规律。

从这个天文学上的著名案例，我们可以看出来，数据太多可能会导致信息量变得巨大，反而增加寻找到规律的难度。从而需要通过科学的方法简化数据。

关于这方面的案例还有不少。比如说美国总统富兰克林·罗斯福。他是美国历史上唯一一位连任四届的总统。1932年的时候他第一次当总统，当时美国和许多国家正在遭受经济危机，罗斯福面临的压力也很大。因此到了1936年罗斯福想竞选自己的第二任总统的时候，美国许多人预测罗斯福很难连任。那一次，罗斯福的主要竞选对手是兰登。当时就有两个机构在预测总统选举结果，其中一个是《文学文摘》杂志，它在当时是一个非常有影响力的刊物，因为这个杂志此前几次对总统选举结果的预测都成功了。到了1936年美国总统选举的时候，文学文摘搞了一个大的调查统计，它调查了240万人。具体方式就是在杂志里面夹上关于总统选举的调查问卷，然后收集反馈。其实当时文学文摘调查的还不止240万人，还要更多，只不过最后收回来的有效问卷是240万份。正是根据这个调查结果，文学文摘宣布他们预测兰登将战胜罗斯福赢得大选。

而当时还有一个机构，准确地说是一个年轻人，叫盖洛普，他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计，是因为他的母亲要竞选众议员，他是给他母亲帮忙，于是就在经费不多的情况下做了对较小人群的相关调查，然后这个调查结果很成功，他母亲当上了众议员。接下来他就想调查一下，罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗，所以他只调查了5000个人，根据这5000人的调查结果，盖洛普预测罗斯福当选。

结果罗斯福果然成功连任总统，盖洛普的预测胜利了。

这个选举结果出来之后，对《文学文摘》杂志的声誉造成了巨大的冲击：毕竟文学文摘调查了240万人，最后却发布了一个错误的预测，而盖洛普只调查了5000人，发布的预测却是正确的。结果，文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普，就此成立了一个民意调查公司，也就是现在的盖洛普咨询公司。

这是事情的结果。那么为什么调查了5000人的预测，要比调查240万人的结果更准确呢?我们先不说240万这种海量数据，它在规模变大以后会带来计算效率的下降，我们也不提这类海量收集数据会导致成本居高不下的问题。根本的原因，是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的，所以文学文摘收集来的240万份有效问卷，实际面对的都是订阅了这份期刊的用户。那么，当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭，所以，文学文摘虽然号称调查了240万人之多，但是它调查的主要群体，是当时美国国内相对而言有钱的那部分人。而穷人群体的意见，它这个调查实际并没有覆盖到。

数据的量多不一定就代表准确，收集来的数据质量好、有代表性，才有可能分析出准确的结果。

统计学是一门分析数据的艺术

前面举了一些例子，提醒我们需要非常小心地设计方案收集数据。数据收集上来之后，我们还要做数据分析。按照前面大不列颠百科全书的说法，统计学同样是一门分析数据的艺术。

讲到数据分析，在这里我只讲两个基本概念：相关与因果。为什么讲这两个概念呢?这是因为人们常常混淆这两个概念，常常会把相关关系误以为是因果关系。在许多科学研究和政策问题评价中，我们更关心因果关系。但是，当我们看到了某种形式的相关关系后，常常会误以为这就是我们追求的因果关系了。

比如说，在中世纪的欧洲，很多人相信，虱子对人的健康是有帮助的。这是因为当时人们发现，得病的人身上很少有虱子，而健康人的身上反而是有虱子的。这是长期的观察累积下来，形成的经验。在中世纪的欧洲，很长一段时间里人们都根据这个经验，得出这样一个因果推论：这个人身上有虱子，所以他身体健康，那个人身上没虱子，说明他身体不健康。

当时，人们确实观察到虱子的存在与否跟人是否健康构成了相关关系，但是，这是因果关系吗?有了温度计以后，人们就发现了，这不是真正意义上的因果关系：因为虱子对人的体温非常敏感，它只能在一个很小的温度区间范围生存下来。而人体一旦生病的话，很多时候会出现发烧症状。人体一发烧，温度变化，虱子就无法适应发烧时候的热度，于是跑掉了。如果我们只停留在观察到健康与否和虱子多寡之间存在关系，那实际只是相关关系，而不是因果关系。与之类似的例子还有很多，比如说，我们看到每年冰淇淋销量增加的同时，各地不幸溺亡的人数也在增加。那么这两件事情是不是构成因果关系呢?常识告诉我们，肯定不是。其实是因为每年气温升高之后，游泳的人可能就多了起来了，随之溺亡人数也就相应增加了。而同样是因为气温升高，冰淇淋的销量也会增加。

也就是说，如果我们观察到一个因素出现了一点点变化，另外一个因素也会随着跟它变化，它们之间可能就有相关关系，但是这种相关关系，并不意味着这两个因素构成因果关系。

如何判断因果关系呢，这就需要我们非常小心，而且要非常艺术地做数据分析了，我们最终还是要回到统计学上来。

这里，我们举一个历史上的疾病案例，这就是小儿麻痹症，也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少，因为现在有相应的疫苗。历史上，脊髓灰质炎曾经是一个让人非常害怕的疾病。

在20世纪50年代，当时美国一所大学的实验室，做出了一种针对这个疾病的疫苗，已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道，如果应用到实际生活中的大规模实验，这个疫苗还会不会有效。所以当时美国政府部门就决定要做实验，这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子，所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系，当时提出了五套实验方案。

第一套方案是，因为1953年之前是没有这个疫苗的，所以就从1954年开始，给所有的一二三年级小学生接种疫苗，最后再来看一下，1954年的发病率，跟1953年相比，会不会有差别。这个方案是个办法，但是它有问题，因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者，1952年则有6万名，而1953年又可能缩减到不足4万名。这个脊髓灰质炎每年发病率的波动都比较大，万一到时候实验结果是3万名到4万名之间，如何判断这个结果是随机变化的，还是疫苗发生了作用?

第二个方案则提出要按照地区来做。比如，在纽约地区，就给一二三年级小学生们全部接种疫苗，而在芝加哥地区的就全部不接种疫苗，然后来统计，纽约和芝加哥这两个地区的脊髓灰质炎发病情况。这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病，一个地区可能流行这个疾病了，而另外一个地区就可能没流行，那么这两个地区的数据看起来就会有差异，但是这不是疫苗的效果，不具有可比性。

于是就有人提出了第三个方案。因为当时这个疫苗接种，谁也不知道有没有副作用，因此是有一定风险的。所以这个方案就提出，让接种疫苗的孩子们的父母来自行选择。有的家长选择给孩子接种疫苗，有的就不选择接种，这样同一批孩子就会出现不同的对照。但是这么做，也有问题。因为当时人们已经发现，脊髓灰质炎的患者一般来自于家境比较好的家庭。这是因为，那些家庭经济状况比较差的家庭，因为生活条件差，卫生条件不好，可能一个人很早就接触过脊髓灰质炎的病毒了，甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒，但是刚出生的婴儿是有母体的免疫力的，婴儿凭借母体的免疫力，接触这个病毒之后能够产生抗体，反而不会得病。当时的这类数据情况已经展现了这种现象。如果采用自愿接种的方式，那些经济状况比较好的家庭，往往愿意让自己的小孩去接种，而经济状况不好的家庭由于经费原因，同时也知道自己这个阶层染病率稍微低一些，他可能就不愿意接种了。这样就造成了对实验结果的干扰，你无法判断到底是疫苗有效还是经济原因导致的不同结果。

然后是第四个方案。有人提出，只让二年级的学生接种，而一年级和三年级学生不接种。之后再比较接种的跟不接种的学生之间的区别，看他们的发病率会不会有差别。这个方案是当时的一个脊髓灰质炎防治委员会提出的方案。这个方案同样行不通，第一，它同样无法避开接种孩子家庭贫富差距导致的患病概率差异。第二，脊髓灰质炎是一种传染疾病，人群的年龄是对这种传染有影响的，一、二、三年级的学生年龄层次有差别，可能就会导致各个年级学生得病概率的差异。此外这个方案还有第三个重大缺陷，那就是可能会对医生形成心理上的诱导。如果按照这个方案执行下去，医生们就是知道的，一、三年学生没有接种疫苗，而二年级同学中有部分同学接种了疫苗。当时脊髓灰质炎的诊断还不太容易，如果医生已经知道了这个疫苗接种方案，而且也提前知道这个疫苗在实验室阶段是管用的，那么医生在面对一年级学生时，一旦这个疾病还无法确诊，那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知，就直接诊断这名一年级学生得了脊髓灰质炎。而且这种区别对待的方案，接种的学生本身心理也会受到影响的。

当时还有第五个方案，也就是最终执行并被采纳了调查结果的方案。这个方案具体来说，就是在征得学生家长同意之后，仍旧会告诉家长：你即使同意接种疫苗，我给你家孩子接种的，也不一定是疫苗，而是一种看起来跟疫苗一模一样的安慰剂，没什么副作用也没有什么效果。因为这个安慰剂跟疫苗.长得一样，所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂，但是疫苗提供方是知道的，它对每一个药品都加了编号，因此疫苗提供方知道哪些是安慰剂，哪些是疫苗。通过这样的方式，实验室实现了随机的方式接种疫苗，而且无论家境好坏，这个接种疫苗都是随机的。同时医生们也不知道，到底是哪一些小孩接种了疫苗。这就规避了年龄、经济条件等各种扰动，有助于确定脊髓灰质炎与疫苗之间真正的因果关系。

1954年，这个实验大约有74万名小学生参与。最终的实验结果是，如果接种疫苗，孩子罹患脊髓灰质炎的概率大约是十万分之28，如果不接种疫苗，患病概率大约是十万分之77，二者相差一倍多。之后又经过各种努力，脊髓灰质炎疫苗在美国获得了通过。

许多科学结论、政策评价都依赖于因果分析而不是相关分析。统计学能够帮助我们证明那些我们所需要的因果关系。很多时候，真正的因果关系，不能简单地建立在相关关系的基础之上。还有很多科学问题，仍需要我们去发现真正的因果关系，这正是统计学可以提供数据收集以及分析方案的地方，也是统计学的魅力所在。

大数据是数据越多就会好的吗？统计学是一门分析数据的艺术

热点话题

热点推荐

头条