问:男人比女人高,对吗?
答:“对。”
问:所有男人都比所有女人高,对吗?
答:“错。”
完全正确。信不信由你,在这一章里,我们还将花一些篇幅来讨论你已经知道的一些问题,这可以从你刚才回答上面两个问题时看出,你已经知晓了一些答案,但是,先别因此就跳过这一章。因为接下来在我们对一些看似非常简单的原则所作的解释之中,会有惊喜等着你。
你为第一个问题给出了肯定的答案,这是因为你没有把“男人比女人高”这句话理解成第二个句子所说的“所有的男人都比所有的女人高”。你把第一句问话正确地理解为“男人有比女人高的趋势”的意思,因为每一个人都知道,不是所有的男人都比所有的女人高。你理解到那句问话反映了一个概率趋势,而不是一个在任何情境中都适用的事实。我们所说的概率趋势是指有较大的可能性,但并非在所有情况下都必然如此。也就是说,性别和身高的关系要用可能性和概率的词汇来描述,而不是用必然性的字眼。在自然界中很多关系的本质也是概率性的,例如:接近赤道的地区比较热;每家的孩子数目不超过8个;地球上大部分地区昆虫的数量比人类多。这些都是统计学可证明的趋势,但是它们当中的每一句话都不是绝对的,仍然可能会有例外。因为它们是概率的趋势和规律,而不是在所有情况下都成立的关系。
事实上,心理科学所揭示的所有事实和关系都是用概率来表述的。这一点也并非心理学所独有。在其他学科里,很多定律和关系也是用概率而非必然性来表述的。例如,人口遗传学的所有子学科都基于概率关系;物理学家告诉我们,原子中电子负荷的分布也是通过概率函数来描述的。
确实,心理学所揭示的大部分概率趋势都比较弱。在心理学中,各种行为关系都是以概率形式加以描述的,然而这一事实并没有使得它与其他科学之间产生天壤之别。正如雅各布·布朗诺斯基(Jacob Bronowski)所言(1978a),许多人还是无法接受这样一个事实,那就是随着科学不断地开拓出新的研究领域,越来越多的科学定律都将采用概率形式加以描述:
如果我说,在经过了风和日丽的一周之后,周日总要下雨,这会被认为是一个规律。但是,如果我说,在经过了风和曰丽的一周之后,星期天下雨的可能性比不下雨的可能性要大,这就是一个不太令人满意的说法,并且人们会理所当然地认为,我没有真正发现一个潜在规律,这种对规律的寻求符合我们的一种习惯,即想让科学说出决定性的“是”或“否”。甚至如果我说,一周中,经过前6天好天气之后,10个周日里有7个会下雨,你可能会把它当作一个统计数字来接受,但是它还是不能让你满意,因为它不是一个定律。它看上去多少缺乏如规律那样的力度。然而这纯粹是一种偏见。我所解释的概率的概念并不难,但它新鲜而陌生。我们不习惯去面对它……我们似乎生活在“有时”和“或许”的世界里,但希望与“始终”和“确定”为伴……我也相信这一困难不是一种习惯。一旦我们愿意或者不得不接受这样的理念,我们就会尽快适应它。其实我们不得不这样做。(pp.81-82, 94-95)
在这一章里,我们想尽可能地让你在这个“有时和或许的世界”里感到更舒服一些,因为,一个人若想要理解心理学,就必须对“概率推理”这一本章的主题安之若素。
大部分公众都能意识到,医学的许多结论采用的都是概率趋势而非绝对确定性的表述。吸烟会导致肺癌并诱发其他健康问题。相关的医学证据汗牛充栋。但每个吸烟者都会得肺癌吗?所有戒烟者都解除了患肺癌的风险吗?大多数人都不会认为这些推论能够成立。吸烟很大程度上增加了患肺癌的概率,但并非绝对。医学能够以很大的把握告诉我们,吸烟群体中的人比与之相似的非吸烟群体中的人更容易死于肺癌,但不能告诉我们是哪一些人会死,这种关系就是概率;它并不适用于所有个案。我们都知道这一点——真的知道吗?我们经常看到下面这样的场景:一个不吸烟的人引用吸烟导致肺癌的统计数据,试图说服一个瘾君子戒烟,所得到的结果仅仅是对方的反唇相讥:“嘿,走远点儿!你看那个铺子里的老乔,他从16岁开始,每天要吸三包骆驼烟!现在他已经81岁了,看上去还很结实!”人们对此可能做出的推断显而易见:就是这一个特例已经推翻了吸烟和肺癌之间的关系。
令人吃惊和沮丧的是,这种反驳手段屡试不爽。通常情况是,每当一个个案被用来证明概率趋势无效时,很多人都常常点头表示赞同,这反映出他们没有正确理解统计规律的本质。如果人们认为一个特例就可以让一个规律失效,他们一定认为这个规律应该在任何情况下都适用。
简言之,他们错误理解了概率定律的性质。既使是最强的趋势也会有少数的“特例”与之相悖。就拿吸烟的例子来说,活到85岁的人中只有5%是吸烟者(University of California, Berkeley, 1991)。或者从另一角度来看,活到85岁的人中有95%属于从不吸烟者,或在一段时期内吸烟但最终戒断者。连续从未间断地吸烟会显著地缩短寿命(Uaiversity of California, Berkeley, 1991),然而也有少数吸烟者活到了85岁。
借用心理学家尼斯贝特和罗斯(Nisbett & Ross, 1980)的术语,我们把类似“老乔”的故事称作“某某人”统计学的运用:由于某些人知道一个“某某人”与某个成熟的统计学趋势相左,这个趋势就会被人怀疑。例如,我们经常听到类似的话——“你是说服务业的就业机会正在扩大而重工业中则在缩小?这不对,我就知道‘某某人’上周四在一个钢铁厂找到了一份工作”;“你说与30年前相比,家里的孩子少了?少胡扯!隔壁的年轻夫妇已经有了3个小孩,但他们还不到30岁”;“你说通常孩子都会倾向于信仰他们父母所信仰的宗教?但据我所知,我的一个同事的孩子就在前几天改信了另一门宗教。”
当我们面对和过去持有的观念相矛盾、同时又是强有力的证据时,无所不在的“某某人”总是会立刻跳出来否定这些统计规律。因此,我们可以说,实际上人们知道的不少,他们只不过顺手把“某某人”当成一种工具,把与他们观念相悖的事实给否决掉而已。然而,研究人类决策和推理的心理学家们的研究结果表明,人们之所以使用“某某人”,不只是由于它是一个有用的辩论手段。相反,这一错误的争论模式之所以被应用得如此频繁,主要在于人们不知道如何处理概率信息。决策心理学的最新研究发现,概率推理可能正是人类认知的阿喀琉斯之踵。
科学、技术和人事等许多领域都涉及概率思维。所以,我们也没有什么特别的理由认为这种思维对理解心理学比其他学科更重要。然而,由于人们在运用概率信息方面存在问题,导致心理学的研究结果常常被误解。我们都理解“男人比女人高”是一个概率趋势的陈述,所以并不会因为有一个特例(某个男人比某个女人矮)就认为这一陈述是错的。很多人也能以同样的方式来理解“吸烟可以导致肺癌”的陈述,尽管对于那些不愿相信吸烟会导致其丧命的瘾君子们来说,“老乔”可能还是有说服力的。然而,与之相似的有关行为趋势的概率表述却引发了广泛的猜忌,而且常常是“某某人”刚一露头,这种概率表述便被人们抛弃了。很多心理学教师在讨论某些行为之间关系的证据时,都往往得到同样的反应。例如,教师可以呈现如下的事实:儿童的学业成绩和家庭的社会经济地位及父母的教育水平相关。但这个事实常常会遭到至少一个学生的反对,他会说,他有一个朋友是国家优秀奖学金获得者,但是他的父亲只是中学毕业。甚至那些理解吸烟-肺癌例子的人,对这一问题的态度也变得摇摆不定了。
人们从没想到过要用“某某人”的论据来反驳医学和物理上的发现,却习惯于用之驳斥心理学的研究结果。大多数人能理解医学科学提出的治疗、理论及事实是概率性的。例如,他们理解一种药对一组病人来说,并不是对他们各个都有疗效,而且医学也经常不能事先告诉我们,该药会对哪些病人有疗效。通常可以说,100个病人接受某治疗方案,100个病人不接受任何治疗,在一段时间之后,接受治疗的这100个病人总体来说会比不接受治疗的100个病人的病情好转一些。没有人因为这个并非在所有情况下都适用的概率表述就怀疑这一治疗的价值。许多心理学的研究结果及心理治疗的效果也存在类似的情况。然而,一旦心理学研究结果和心理治疗效果不能在所有情况下都适用,就常常会引起人们对心理学产生极大的失望和轻蔑。一旦面对心理学的话题,人们常常忘记一个最基本的原则,那就是知识不需要完全确定后才是有用的——即便某些知识不能预测个体的具体情况,但如果能对群体的总体趋势有预测能力,也是非常有益的。基于群体的特征所做的结果预测常常被称为总体统计数字或统计预测(下一章将详细讨论统计预测这一概念)。
人们经常为心理学预测设定一个比其他科学更高的标准。想想看,当一个不健康的人去看病,医生说除非他进行锻炼和改变饮食习惯,否则有很高的风险发作心脏病。我们不会因为医生没有告诉这个人“如果不改变饮食习惯,他将于2012年9月18日心脏病发作”,而认为医生的信息是无用的。我们容易理解该医生的预测是概率性的,并不能达到那种精度。同样,当地质学家告诉我们,某地区在未来30年发生一场震级为8.0或更大地震的可能性为80%时,我们不会因为他们没有说“2012年7月5日就会有地震发生在这里”而贬低其知识。
然而,心理学却往往被设置了更高的标准。当学校心理学家推荐一个针对学习障碍儿童的训练计划时,显然是在做概率预测——该训练能使这些儿童有较大的可能性获得好成绩。当一个临床心理学家推荐一个针对有自我伤害行为的孩子的计划时,情况也与之类似。心理学家判断如果按计划进行治疗,会有较高的概率获得一个很好的结果。但是不同于心脏病发作和地震的例子,心理学家常常要面对诸如“但我的孩子何时能达到某一年级的阅读水平?”或“他在这个治疗计划中要待多久?”这类问题。这些问题都是无法回答的,正如地震和心脏病何时发生也是无法回答的一样,因为针对所有这些问题——心脏病发作、学习障砖儿童、地震以及自我伤害的儿童——所做的预测都是概率性的。
出于这些原因,全面认识概率推理对理解心理学至关重要。耐人寻味而又颇具讽刺意味的是,心理学很可能是人们不能进行统计思维的最大受害者,然而心理学家却是对人类概率推理能力研究最多的人。
过去的20年里,普林斯顿大学的丹尼尔·卡尼曼(Daniel Kahne-man, 2002年诺贝尔奖得主,见MacCoun,2002)、密歇根大学的理查德·尼斯贝特(Richard Nisbett)及已故的阿莫斯·特维斯基(Amos Tversky)等心理学家的研究,彻底改变了我们对人类推理能力的认识。他们在研究中发现,很多人头脑里压根儿没有概率推理的基本原则,更多人则是有一些但并不完备。正如学者经常指出的,这些基本原则在人们头脑里没有充分发展并不足为奇。作为数学的一个分支,统计学是最近才发展起来的(Hacking,1975)。而在概率定律被发现之前,机遇游戏已经存在了好几个世纪了。这又是一个例证:个人经验不足以让人们获得对世界的基本理解(参见第7章)。针对概率定律的正式研究发现了机遇游戏的运作机制,而成千上万的赌徒以及他们的个人经验,并不足以揭示机遇游戏的本质。
问题在于,社会越复杂,人们就越需要概率思维。如果一个普通人想要对生活其中的社会有一个基本的理解,那么,他至少应具备统计思维这一最基本的能力。
你或许有以下疑问:“为什么他们要提高我的保险费?为什么张三的保费比李四高,是不是社保局穷疯了?我们州的彩票有黑幕吗?犯罪率到底是在增加还是在减少?为什么医生要安排这些检查?为什么欧洲人可以用一些很珍稀的药,而美国人就不行?做相同的工作,女性赚的真的比男性少吗?国际贸易真的减少了美国人的就业机会,并降低了他们的薪酬吗?日本的教育要比我们好吗?加拿大的卫生保健真的比美国好且价格低廉吗?”这些问题都问得很好,这都是关于我们的社会如何运作的具体而实际的问题。要知道每个问题的答案,我们就必须运用统计思维。
显然,本书由于篇幅所限,不可能全面讨论统计思维。然而,我们将简要地讨论某些概率推理中的普遍误区。学习概率思维技巧的最好方法就是察觉人们在统计推理时最常犯的错误是什么。此外,对某些误区的了解对理解心理学发现及理论的重要性至关重要。
在心理学领域中,有一个已经被反复证实的发现,那就是一个具体事件的信息往往可以完全击败较为抽象的概率信息(第4章中讨论的“鲜活性”问题)。忽视概率信息的例子比比皆是,而且并不仅仅局限于缺乏科学知识的外行人。卡斯塞尔斯、谢诺博格和格瑞博维斯(Casscells, Schoenberger, & Graboys, 1978)在哈佛医学院的四所教学医院中进行了一项研究,他们向20位医学专业的学生、20位内科主治医师和20位办公室工作人员提出下面一系列问题:“如果在每1000人中有1人携带艾滋病病毒(HIV),再假设有一种检查可以百分百地诊断出真正携带该病毒的人;最后,假设这个检查有5%的阳性误诊率。也就是说,这项检查在没有携带HIV的人中,也会错误地检测出有5%的人是病毒携带者。假设我们随便找一个人来进行这项检査,结果呈阳性反应,表明此人为HIV携带者。假定我们不知道这个人的患病史,那么他真的是HIV携带者的概率是多少呢?
普遍的回答是95%,正确的答案是约2%。医生们过分高估了阳性结果表示患病的概率,因为他们一方面过分重视个案信息,另一方面又忽视了基础比率信息,从而过高地估计了阳性检测结果所真正代表的患病概率。稍稍进行逻辑推理就可以说明基础比率对概率的重要作用。1000个人当中只有1人是真正的HIV阳性者。如果另外999人(不患病)也进行了此项检查,由于这一检查有5%的虚报率,他们当中将有接近50人(999乘以0.05)会被检查出携带这种病毒。这样一来,呈阳性反应的人就会是51个。因为在这51个人当中,只有1人是真正的HIV阳性者,此人确诊得病的概率其实只接近2%。简而言之,基础比率就是绝大多数人没有携带这种病毒(病毒携带者只有千分之一)。这个事实和确定的虚报率综合考虑,就能使人确信,在绝对数量上,大部分呈阳性反应的人并不携带这种病毒。
尽管参与卡斯塞尔斯等人研究的医生们很快就意识到了以上概率逻辑的正确性,但他们最初的直觉反应却是忽视基础比率,并过分看重临床检测的证据。简单来说,事实上医生们知道什么是对的,但却本能地做出了错误结论。心理学家把这类问题称为认知错觉(参见Kahneman & Frederick, 2002,2005)。在认知错觉中,即使人们知道正确答案,他们也会由于问题的问法不同而做出错误的结论。
我们这里提到的所有例子都是认知错觉,因为它们都利用了人类推理的误区:过分倚重个别事件所提供的证据而忽视了统计学的信息。对大多数人来讲,个案证据(实验室的研究结果)好像是摸得着的、具体的,而概率证据则好像是摸不着、不确定的。当然,这种理解是错误的,因为个案证据本身一定是概率性的。一项临床检验会以一定的概率对疾病做出误诊。上述情境就是一个例子,要想做出正确的决策,就必须结合考虑两种概率——对个案证据做出正确或错误诊断的概率(即95%或5%)和过去经验所提供的先验概率(也叫基础比率)。整合这些概率的方法有的是正确的,也有的是错误的,并且时常是错的——特别是当个案证据给人一种很具体的错觉时(请回忆在第4章所讨论的鲜活性问题)——人们往往会以错误的方式来整合信息。这种概率推理的失败会极大阻碍心理学知识的应用,因为心理学的知识经常采用概率的形式来表述行为之间的关系。
科普作家科尔(K.C.Cole, 1998)让我们想象下面两种情况。一种是用吸烟的死亡率来劝人不要吸烟,比如吸烟的死亡率是0.000055,这是一种最常见的劝人方式。第二种方法则更为生动一些,让吸烟者想象在每18250包烟中有一包是与众不同的——它里面装满了炸药,当吸烟者打开它时就会被炸死。我们绝对知道哪一个效果更好——然而它们表达的却是一个同样的事实。
请大家思考下面两个由特维斯基和卡尼曼(Tversky & Kahneman, 1974)提出的问题:
1.一个小镇里有大小两所医院。在大医院里每天大约有45个婴儿出生,在小医院里每天大约有15个婴儿出生。如你所知,大约有50%的婴儿是男孩,但具体的百分比每天都不一样,有时候高于50%,有时候低于50%。每一所医院都记录了一年内出生的男婴比例高于60%的天数。你认为哪一所医院记录的天数多?
a.大医院
b.小医院
c.基本一样
2.假设一个容器里装满了球,其中有2/3是一种颜色,其余1/3是另一种颜色。一个人从中拿出5个球,发现有4个是红色的,1个是白色的。另一个人从里面拿出20个球,发现有12个是红色的,8个是白色的。哪一个人会更自信地认为这个容器里有2/3的球是红色的、1/3的球是白色的,而不是有1/3的球是红色的、2/3的球是白色的?这两个人会给出什么样的概率呢?
对于第一个问题,大多数人回答“基本一样\'剩下的人则一半选择大医院,一半选择小医院。但正确的答案是小医院,所以接近75%的被试都给出了错误答案。答错是由于人们没有认识到,样本的大小在这个问题中的重要性。当其他因素保持不变时,较大的样本总是能够更精确地估计出总体的真正数值。也就是说,在任何一个指定的日子,较大的医院由于有较大的样本,男婴出生的概率更趋近于50%。相反,小的样本总是倾向于距离总体平均值比较远。因此,小医院将会有更多的天数记录了与总体平均值相矛盾的男婴比率(60%,40%,80%等等)。
在回答第二个问题时,大多数人认为5个球的样本提供了更令人信服的证据,能证明这个容器里的球大多数是红色的。事实上,概率恰恰与之相反。对5球样本来说,坛里大部分为红球的几率是8:1。而在20个球的样本中,这个几率是16:1。尽管在5个球的样本中,抓出红球的比例较高(80%:60%),但考虑一下,另一个样本的大小是其4倍,因此对球的比例能够做出更为精确的估计。然而大部分被试被5个球的样本中红球有较高的比例给迷惑了,而没有充分考虑到20个球的样本具有更大的可信度。
在不同领域中进行证据评估时需要遵守的一条基本原则,就是认识到样本规模对信息可信度的影响,这对于理解行为科学的研究结果尤为重要。不管我们是否意识到,我们会对较大的群体持有一些普遍的看法。我们很少察觉到,我们最坚定的信念是建立在多么脆弱的事实基础之上。把对几个邻居和同事的观察,以及在电视新闻上看到的一些趣闻轶事放在一起,我们就迫不及待地要对“人性”或者“美国人”发表见解。
请回答下面两个问题:
问题A:想象一下你在掷一枚普通的硬币(硬币出现正面和反面的概率各占50%),已经连续出现了5次正面。对于第6次,你认为
____出现反面的概率比正面要大
____出现正面的概率比反面要大
____正面和反面出现的概率一样大
问题B:玩老虎机的时候,赢钱的机会是1/10。茱丽头3次都赢了。她下次赢的几率是____分之____
这两个问题是为了检测你是否容易出现所谓的赌徒谬误——即倾向于将过去事件和未来事件之间联系起来,而实际上两者是独立的。两个结果是相互独立的,一个事件的出现不会影响另一事件出现的概率。大多数机遇游戏都具备这种性质。例如,幸运轮盘的数字与之前的数字无关。轮盘数字一半是红的,另一半是黑色的(为简化起见,我们将忽略绿色的零和双零),所以对任意一次旋转来说,出现红色的概率均等(0.50)。然而在连续5-6次出现红色数字之后,许多投注者转投黑色,因为他们认为现在黑色更有可能出现。这就是赌徒谬误:明明是独立事件,却认为先前的结果会影响下一结果出现的概率。在这种情况下,投注者错在他们的信念。轮盘并不记得先前发生过什么。即使连续出现15个红色数字,红色数字在下轮出现的概率仍然是0.50。
在问题A中,有些人认为在5次出现正面之后,反面更可能出现。他们这么想就陷入了赌徒谬误。正确的答案是,正面和反面在第6次中出现的可能性一样大。同样,对问题B任何非1/10的回答都落入了赌徒谬误。
赌徒谬误不仅限于没有经验的赌徒。研究表明,即使是那些一周赌20小时的资深赌徒,仍然表现出赌徒谬误(Petry, 2005; Wagenaar, 1988)。事实上,研究表明,正在接受赌博脱瘾治疗的个体比对照组更相信赌徒谬误(Toplak et al., inpress)。
重要的是我们要认识到,这一谬误不仅限于赌博游戏,它还存在于任何概率起着重要作用的地方。换句话说,它几乎存在于一切事情之中。婴儿的基因构成就是一个例子。心理学家、医生和婚姻顾问常常遇到一些已有两个女孩的夫妇,他们正计划要生第三个孩子,因为“我们想要个男孩,这回一定是个男孩”。这就是赌徒谬误,在生了两个女孩之后生男孩的概率(接近50%)和生第一个孩子时完全一样。生了两个女孩不会增加第三个孩子是男孩的概率。
赌徒谬误存在于任何一个有几率成分的地方,如体育比赛和股票市场。一些心理学家(Gilovich, Vallone, & Tversky, 1985; Burns, 2004)研究了在篮球运动中对“连投连中”或“手热”的迷信,这一迷信是指,相信某一个投手能够变得“手热”,并且在连续投中之后,下一次投中的概率也会更高(“把球传给他,他现在手热”)。研究者证实,篮球运动员和球迷都十分相信“连投连中”。例如,在一个问卷调查中,91%的篮球迷认为刚投中两球或三球的球员,与刚有两次或三次失误的球员相比,在下一次投篮时会有较高的投中概率;84%的球迷认为,把球传给刚刚连续投中两球或三球的球员是重要的。当请球迷估计,假设一个球员在场地上有50%的投中率,那么在他投中或没投中一球之后,下一投投中的概率是多少。结果,球迷们对前者的估计是61%,后者是42%。研究者调查了费城76人篮球队的队员,结果发现大多数(但不是全部)球员对连投连中所持有的信念与球迷们几乎一样强烈(见Gilovich et al., 1985)。
但是为什么我们要在赌徒谬误的标题下讨论连投连中呢?因为根本就没有连投连中这回事!吉洛维奇等人(Gilovich et al., 1985)研究了费城76人队和波士顿凯尔特人队在1980-1981赛季中投篮命中的统计数据。在这一赛季,球员们的投篮并没有出现前后关联的现象。让我们从非技术的角度看看这代表了什么意思。
赌徒谬误相信独立事件间是有关联的,即认为毫无关联的事件之间存在依从关系。从统计学意义上,连投连中可以被解释为连续投中两球或三球后,投篮的命中率会高于前面几次未投中时再投的命中率。吉洛维奇等人(1985)计算了这个概率,发现没有任何证据支持这个假设。例如,朱利叶斯·艾尔文(费城76人队投篮次数最多的球员)的数据资料表明,他在连续三次投中后,接下来投篮的命中率为0.48,而连续三次未中接下来的命中率为0.52;在连续两次投中后,接下来命中率为0.52,而连续两次未中后,接下来命中率为0.51;在一次投中后,接下来命中率为0.53,在一次未中后,接下来命中率为0.51。简单来说,无论前几次投篮的情况如何,艾尔文的命中率都是接近0.50——压根儿没有连投连中这种事。
其他球员的资料也非常相似。莱昂内尔·霍林斯连续两次投中后接下来的投篮命中率是046,连续两次未中后,接下来的投篮命中率是0.49。他投中一次后,接下来的投篮命中率是0.46,和一次未中后接下来的命中率完全一样。这说明,不管霍林斯前几次投篮的结果如何,他投篮的命中率总是接近47%。波士顿凯尔特人队的罚球资料也说明了同样的情况。例如,拉里·伯德在投中一次罚球后下一次罚球命中的概率是88%,而一次罚球不中后,下一次罚球命中的概率是91%。纳特·阿奇巴德在投中一次罚球后,下次罚球投中的概率是83%,而一次不中后,下次罚球投中的概率是82%。由此可见,在罚球中也不存在连投连中。相信球员可以变得“手热”的信念确实是赌徒谬误的一个例子,也就是说,相信事实上独立的、毫无关系的事件间存在着联系。
有趣的是,赌徒谬误看起来是第6章讨论的“直觉物理学”——仅凭经验是无法告诉人们世界的真相的——的一个例证。吉洛维奇等人(1985)测试了大学篮球队员在空场地(即没有任何防守者)上练习在15码处投篮时的表现。他们让这些球员对100次投篮的命中率打赌。队员肯定应该能赢,因为他们一般在这个距离上能够投中的概率约为50%,而且打赌的规则是,当球员投中时赢的要比没投中时输的多一些。然而,球员可以在每一次投篮前选择押多(这样赢得多,输得也多)或者押少(这样赢得少,输得也少)。显然,如果球员能够预测自己的成绩的话,就会赢得比较多。也就是说,当他们认为投中的概率高时,他们就会选择多下注;而当他们认为投中的概率低时,就会选择少下注。实验结果表明,就算是专业的球员也没有发现“手热”的现象:一次或多次投中后,再投中的概率并不比一次没中后再投时更高。然而,球员们却都认为存在类似“手热”的情况。他们在投中一球后,对下一次投篮所下的赌注,要高于在一次没投中后所下的赌注。结果证明,球员们根本不能预测自己的表现:他们预测的结果并不比随机水平好。
赌徒谬误来源于对概率的诸多错误认识。其中一个错误认识就是,如果一个过程真正是随机的,就不可能出现重复同一结果或某种模式的序列,哪怕是一个不起眼的随机事件(例如,掷6次硬币)。人们习惯性地低估了重复(正正正正)或某种模式(正正反反正正反反正正反反)在一个随机序列中出现的可能性。正因为如此,人们在模拟一组真正的随机序列时,常常适得其反地产生出一个很少出现重复和某种模式的排列。这是因为,人们往往会错误地让可能的结果尽量轮流出现,以为这样才称得上是随机抽样,这无疑破坏了真正的随机排列中可能出现的结构(Nickerson, 2002; Towse & Neil, 1998)。
那些声称自己有通灵能力的人可以轻而易举地利用人们的这一错觉。大学心理学课上常会进行这样一种演示,老师让一名学生准备200个数字的排列,这200个数字从1、2、3这三个数字中随机重复抽取。完成之后,不要让老师看到。接下来,让这名学生全神贯注于他写的第一个数字上,老师则来猜这个数字是什么。当老师说出他的猜测之后,这个学生再向全班同学及老师公布正确的答案。有人记录猜对的次数,直至猜完这200个数字。在实验开始之前,这个老师声称有通灵能力,可以在实验过程中用读心术来证明“通灵能力”的存在。通常在展示之前,老师会先问班里的学生,他猜测的成绩要达到多少——也就是“猜中”的百分比是多少——才算是能证明他确实有通灵能力。这时,通常都会有一个修过统计课程的学生回答说,因为纯粹随机的猜测也能猜中33%,所以要想让别人相信他有通灵术,猜中的比例就一定要超过33%,至少达到40%。班上大部分同学都会认同这一个观点。演示结束后,结果那位老师猜中的比例果真超过了40%。这个结果令很多同学感到惊讶。
学生们从这一演示中领教了什么是随机性,并且知道伪装通灵能力是多么地容易。在这个例子中,老师仅仅利用了“人们不让连续重复的数字出现”这一事实:人们频繁地在三个数字间换来换去以制造“随机性”。在真正的随机序列中,已经出现了三个2之后,再出现2的概率是多少呢?其实还是1/3,与出现1或3的概率一样大。但大多数人在产生随机数字时并非如此。出现一个哪怕很小的重复片断之后,人们也常常会刻意地变换数字,力图制造一个“随机”序列。这样,在我们的这个例子中,老师只要在每一轮猜测前,不去挑选那个学生在前一轮中挑选的那个数字,而从另外两个数字中选一个就可以了。例如,如果那个实验中的学生在上一轮说的数字是2,那么老师就会在下一轮的猜测中从1或3中任选一个。如果学生在上一轮说的数字是3,那么老师就会在下一轮的猜测中从1或2中任选一个。这样一个简单的把戏根本不需要什么通灵能力,就能保证猜中的概率高于33%——高于三个数字随机猜测的准确率。
人们总是认为,如果一个序列是随机的,那它就不应呈现有重复和某种模式。2005年关于iPod“shuffle”模式(意即“随机播放”)的争议(Levy, 2005)就以一种幽默的方式证明了这一点。此模式将下载到iPod里的歌曲以随机的方式播放。很多用户抱怨说shuffle模式并不随机,因为他们经常听到同一专辑或流派的歌曲。当然,许多心理学家和统计学家在听到这类抱怨时只能暗自苦笑,因为他们了解我刚才提到的类似研究。科普作家史蒂芬·列维(Steven Levy, 2005)讲述了他经历过的类似事情。他的播放器似乎在起初的一个小时里偏爱史提利·丹(Steely Dan)的歌!但列维明智地接受了专家告诉他的事实:真正的随机序列,往往看起来不像是随机的,因为我们倾向于给所有事物都套上一种模式。在进行有关问题的研究后,列维总结道,“生命可能确实是随机的,iPod可能也是。但是,我们人类将永远有自己的套路和模式,只为让无序变得可控。即使真的存在缺陷,问题也不在shuffle,而在我们自己身上”(p.10)。
以上列举的涉及统计推理理解中出现的错误,仅为冰山一角,有可能阻碍人们正确理解心理学。有兴趣的读者可以阅读由吉洛维奇(Gilovich)、格里芬(Griffin)和卡尼曼(Kahneman)编写的《思维捷径和偏见:直觉判断心理学》(Heruistics and Biases: The Psychology of Intuitive Judgment,2002),它在这一方面提供了比较完整、详细的描述。
吉格瑞泽(Gigerenzer)的《计算的风险:如何察觉数字是在欺骗你》(Calculated Risks: How to Know When Numbers Deceive You,2002)对统计与概率做了很通俗的介绍(对没有受过任何数学训练的初学者尤其适用)。此外还有哈斯戴(Hastie)和达维(Dawe)的《不确定世界的理性选择》(Rational Choiceinan Uncertain World,2001)和拜农(Baron)的《思考和抉择》(Thinking and deciding,2000)以及尼克尔森(Nickersn)的《认知和几率:概率推理的心理学》(Cognition and Chance: The Psychology of Probabilistic Reasoning, 2004)。
本章中所讨论的概率思维具有巨大的实践意义。由于没有充分运用概率思维能力,医生们选择了效果欠佳的治疗方法(Baron, 1998; Dawes, 2001);人们不能准确地评估环境风险(Margolis, 1996);在法律程序中错误地使用信息(Foster & Huber, 1999; Lees-Haley, 1997);政府和私人企业将数以百万计的资金用于不必要的项目(Arkes & Ayton, 1999);动物不断被捕杀以至濒临灭绝(Baran, 1998; Dawkins, 1998);对病人实施了不必要的手术(Dawes, 1988, pp.73-75);有人做出了错误的财务判断,损失巨大(Belsky & Gilovich, 1999; Kahneman & Tversky, 2000; Zweig, 2001)。
当然,我们不可能在一个章节里全面地讨论统计推理。我们的目的就是想强调统计对于研究及理解心理学的重要性。不幸的是,当遇到统计信息时,我们还找不到一个放诸四海皆准的规则。功能化的推理技能不像科学思维中的其他部分那么容易获得,而是需要通过正规学习才能掌握。幸运的是,现在大多数综合大学和社区学院都提供了入门级的统计学课程,而且不需要大学程度的数学基础。在上这类课程之前,读者可以先阅读我刚才推荐的那些书。
尽管很多科学家都真诚地希望一般大众能够知悉和理解科学知识,但有时对一门学科的精通依赖于对某些信息的掌握,而对这些信息的掌握又只有通过正规的学习才能实现。如果说对一门学科的深入理解是一般外行人也能随便达到的,这是一种在学术上不负责任的态度。统计学和心理学就属于这一类学科。心理学家艾伦·班欧(Alan Boneau, 1990)调查了心理学教科书的作者,请他们列出学生在学习心理学时需要掌握的最重要的术语和概念。在所列出的术语及概念中,频率最高的100个词汇中有接近40%属于统计学和方法论的范畴。不精通统计和概率的人不可能成为称职的心理学家(Evans, 2005; Friedrich, Buday, & Kerr, 2000)。
不可否认,本书的一个目的就是要使心理学的研究能为广大读者所接受。然而,心理学进行理论建构所依靠的实证方法和技术与统计学是如此密不可分(这一点和其他很多领域一样,如经济学、社会学和遗传学),以至于没有一个人可以在对统计学毫无知晓的情况下精通心理学。因此,尽管这一章对于统计思维介绍得相当粗略,但它的主要目的是要凸显另外一个对于理解心理学至关重要的专业领域。
和大多数学科一样,心理学研究所得出的是概率式的结论——大多数情况下会发生,但并非任何情况下都发生。虽然这些结论并非是100%准确的(就像其他科学中的情况一样),但根据心理学研究及理论所做出的预测仍然是有用的。阻碍人们理解心理学研究的一个原因就是,人们很难用概率的术语来思考。在这一章里,我们讨论了几个相当精彩的研究实例,这些例子表明大多数人如何与概率推理背道而驰:当人们遇到具体的、具有鲜活性的证据时,就把概率信息抛到一边了。他们没有考虑到,较大的样本能够提供对于总体数值更为精确的估计。最后,人们表现出赌徒谬误(把原本无关的事件看成是有联系的)。赌徒谬误源于下一章将要讨论的一个更为普遍的倾向:未能认识到偶然性在决定结果时所起的作用。