几年前,在中国台湾地区曾开展过一次大规模的研究,目的是调查哪些因素和人们对避孕工具的使用有关。一个由社会学家和内科医生组成的大型研究团队收集了有关环境和行为变量方面的大量数据。研究者比较感兴趣的是,哪种变量能够最准确地预测避孕方法。数据收集上来之后,研究者发现,有一个变量和使用避孕工具的相关最强,这就是:家庭中家用电器(烤箱、风扇等等)的数量(Li, 1975)。
这个结果恐怕不会促使你提出这样的建议:在高中发放免费的烤箱以解决青少年的怀孕问题。但是,你为何不会有这样的想法呢?电器和避孕工具使用之间的相关性很高,在众多被测量的变量中,这个变量是唯一最准确的预测因子。我希望你的回答会是:问题关键在于这两个变量间关系的“性质”而非“强度”。开展“免费烤箱计划”预示着这样一种观念:烤箱导致人们使用避孕工具。而实际上我们会将这种建议视为一种荒唐的方案,至少在上面所举的这个显而易见的例子中,我们会认识到,这两个变量可能有相关,但不是因果关系。
在这个例子中,我们可以猜想,这种关系之所以存在,是因为“避孕工具的使用”和“家庭中家用电器的数量”这两个变量通过与这两种变量都相关的其他变量联系起来。教育可能会是中介变量之一。我们知道,教育水平与避孕工具使用和社会经济地位都有关系。现在我们所需要的就是这样一个事实:经济水平高的家庭会拥有更多的家用电器,我们都会有这样的联想。当然,其他的变量也可能会在二者的关系中起到中介作用。但是,无论“家用电器的数量”和“避孕工具使用”之间的相关有多么强,这种关系都不能说明它们之间存在因果关系。
避孕方法的例子很容易让我们理解这一章的主旨:有相关,并不意味着必然有因果关系。本章中我们将会讨论阻止我们做出因果推论的两大问题:第三变量问题和方向性问题。我们还将会讨论选择性偏见是如何导致第三变量问题的。
相关性证据的局限性并不都像“烤箱”例子那样容易被识别。当因果关系对我们来说显而易见时,当我们抱有根深蒂固的偏见时,或者当我们的解释被理论定势所主宰时,就会很容易地把相关当作因果的证据。
在20世纪初期,数以万计的美国南部民众罹患并死于一种叫做糙皮病的疾病(大约每年100000人死亡)。糙皮病被认为是由一种不明微生物引发的传染性疾病,其主要症状是头晕、嗜睡、溃疡、呕吐和严重腹泻(Chase, 1977, p.205)。此后,许多来自全国糙皮病研究学会的医生都认同这样的证据:糙皮病和卫生条件有关。这并不令人吃惊。家在南卡罗来纳州斯帕坦堡的人们似乎总是远离糙皮病的困扰,因为他们有自来水管道和良好的污水处理设施。这种相关恰好验证了这样的观点:由于糟糕的卫生条件,传染性疾病是通过糙皮病患者的排泄物传播开来的。
一位叫约瑟夫·戈德伯格(Joseph Goldberger)的医生对这种解释非常怀疑,在美国公共卫生部部长的指示下,戈德伯格针对糙皮病开展了许多研究。他认为糙皮病是由于营养不均衡的饮食引起的,简而言之,是美国南部普遍的贫困造成的。许多的患者赖以生存的都是高碳水化合物、蛋白质含量极低的饮食,如很少量的肉类、蛋类、牛奶,以及大量的谷类、燕麦和玉米粥。戈德伯格认为污水处理条件和糙皮病之间的相关在任何一个方面都无法反映因果关系(和烤箱控制生育的例子一样)。他认为根本原因在于,拥有清洁管道的家庭通常也都是经济状况良好的家庭,经济上的差异也会反映在他们的饮食上,经济状况好的家庭在其饮食中包含更多的动物蛋白。
但是,请等一下!为什么戈德伯格的因果推断就一定是对的呢?毕竟,两派人马都是坐在那里,根据相关数据推论什么才是造成糙皮病的原因的。为什么医学会的医生们不能说戈德伯袼的相关同样也是误导性的呢?为什么戈德伯格能够推翻别人的假设——一种微生物通过糙皮病患者的排泄物传播,而这种传播是因为不完善的污水处理设施造成的?戈德伯格对糙皮病的判断还涉及一个小细节,这个细节我刚才没说:戈德伯格吃下了糙皮病患者的排泄物。
戈德伯格有一类这样得来的证据:研究者不仅观察相关性,还靠真正地操纵关键变量来收集数据(有关控制操纵,将在下一章进一步讨论)。这种方法经常要创造一些通常极少会自然出现的条件——说戈德伯格设计的特殊条件不会自然出现,无论怎样强调都不会过分。
戈德伯格确信糙皮病是不会传染的,也不会通过患者的体液传播,他给自己注射了一名患者的血液,还吃进一名患者喉咙和鼻子内的分泌物。此外,他还选择了两个病人:一个有皮癣症状,另一个有腹泻。他从皮癣处刮掉鳞屑,然后和该病人的4毫升采液混合到一起,然后再加上相同数量的液体排泄物,最后与4小撮面粉揉在一起做成小药丸。戈德伯格、戈德伯格的助手以及戈德伯格的妻子自愿服下这些药丸。(Bronfenbrenner & Mahoney, 1.975, p.11)
无论是戈德伯格,还是其他的志愿者,都没有染上糙皮病。简言之,戈德伯格创造了这个传染疾病可能传播的所有条件,结果平安无事。
戈德伯格对其他人提出的因果机制进行了操作,结果显示该机制是无效的,尽管如此,对他自己提出的因果机制进行检验仍然非常必要。戈德伯格选择了来自密西西比州监狱农场的两组犯人,这些人都是没有患糙皮病的,并且都是自愿参加实验。其中的一组人被给予高碳水化合物、低蛋白质的食物,这种类型的食物是戈德伯格怀疑引起糙皮病的原因。另一组被试被给予(营养成分)更均衡的饮食。5个月后,低蛋白质的这一组患上了糙皮病,而另一组却没有丝毫的患病迹象。戈德伯格的理论遭到了一些人的反对,这些人出于政治动机而否认贫困的存在。经过长期的抗争,戈德伯格的假设终于被人们所接受,因为他的假设与实验证据的契合程度是其他任何假设所不能比拟的。
糙皮病的历史说明,如果依据相关研究来制定社会和经济政策,必将使人类付出惨痛的代价。但这并不是意味着我们永远不要使用相关研究的证据。恰恰相反,在许多场合,我们必须用到相关(见第8章),而在某些情况下,只要有相关就够了(例如,当我们的目标是预测而不是决定原因的时候)。科学家们经常不得不使用不充分的知识来解决问题。重要的是,我们在运用相关性证据的时候要谨慎小心。像“糙皮病-污水”这样的案例,在心理学研究的每个领域内都频频发生。这个例子也揭示了“第三变量问题”:事实上两个变量之间的相关——这个例子中是糙皮病的发病率和污水处理条件——并不意味着这两个变量之间有直接的因果关系,相关之所以产生,是因为这两个变量都分别与第三变量相关——这里是饮食——而这个变量没有被测量。像这种污水处理条件和糙皮病之间的相关,我们通常称之为“虚假相关”:相关的产生不是因为两个变量之间存在一个可以测量的直接的因果联系,而是因为这两个变量都与第三变量相关。
下面我们来看一个发生在现实生活中的例子。多年以来,有关公立学校和私立学校教学质量的争论甚嚣尘上。从这场争论中得出的一些结论,很生动地展示了从相关证据推出因果关系的弊端。私立学校和公立学校的好坏是一个实证性问题,可以使用社会科学中的调查研究方法来辨别真伪。但是,这并不意味着只要这个问题是个科学问题、有可能获得解决,就是一个非常简单的问题。所有鼓吹私立学校优越性的人都潜在地意识到这一点,因为他们在维护自己的观点时,常常引用这样一个经验性的事实:私立学校学生的成绩要好过公立学校。尽管这个事实无可辩驳——各种研究中有大量一致的教育统计数据,但问题在于,用这些学生的成绩数据就推出结论,即私立学校的教育本身导致了较高的分数,这么做是否合适?
考试成绩是许多不同变量的函数,这些变量彼此之间又是相关的。为了评估公立学校和私立学校的好坏,我们需要进行更为复杂的统计,而不仅仅是学校类型和学业成就之间的相关。例如,学业成就和家庭背景中许多不同指标都有关系,如父母的教育程度、父母的职业、社会经济地位、家中藏书的数量以及其他一些因素。这些特征都与是否把孩子送到私立学校有关系。因此家庭背景是一个潜在的第三变量,可能会影响到学业成就和学校类型之间的关系。简言之,学业成就可能和学校质量没有任何关系,而结果可能是:家境优越的孩子学习更好,更有可能进入私立学校。
幸运的是,还有许多复杂的相关统计方法,例如多元回归、偏相关、路径分析(统计学的发展部分要归功于心理学家),这些复杂的统计方法能够去除其他变量的影响、提出公因子或定义协变量之后重新计算两个变量之间的相关。来自杜克大学的艾利斯·佩奇和蒂莫西·凯斯(Ellis Page & Timothy Keith, 1981)则使用更为复杂的统计技术,分析了一系列关于高中生教育的统计数据,这次统计数据的收集是在国家教育统计中心(NCES)的资助下进行的。他们发现,当反映学生家庭背景和一般智力能力的变量被排除后,学业成就和学校类型之间几乎就没有一点关系了。其他研究者也确认了他们的研究结果(Berliner & Biddle, 1995; Carnoy, Jacobscn, Mishel, & Rothstein, 2005)。
因此,很明显,鼓吹私立学校能够提高教育成就,就跟讨论节制生育需要用“烤箱”一样没什么分别。学业成就和私立学校相关,不是因为任何直接的因果机制,而是因为私立学校中学生的家庭背景和一般认知水平与那些进入公立学校的学生相比是不一样的。
这些较为复杂的相关统计方法,能够排除第三变量的影响,但并不总是会削弱原有相关的强度。有时候,在排除第三变量之后,两个变量之间的原有相关仍然存在,这个结果本身就能提供一些信息。这样的结果说明,原有相关并不是由第三变量所导致的虚假相关。当然,并不排除其他变量也会导致虚假相关。
托马斯、亚历山大和埃克兰德(Thomas, Alexander, & Eckland, 1979)提供了数据分析方面的一个好例子。这些研究者发现,高中生是否进入大学和这个学生的家庭社会经济地位有关。这是一个重要发现,足以动摇我们这个社会的核心价值——实现目标靠的是个人能力。它表明,一个人的成功取决于这个人的经济地位。但是在下这个结论之前,我们必须首先考虑一下其他假设。这就是:升入大学和社会经济地位之间的相关是一种假象。其中一个非常明显的第三变量就是学业能力,它可能与升入大学和社会经济地位都有关系,如果这个变量被排除出去,这两个变量之间的相关就会消失。在学业能力被排除后,研究者计算出的数据发现,升入大学和社会经济水平的相关仍然显著。因此,高收入阶层的孩子更容易进入大学不能完全归因于学业能力的不同。当然,这个发现不能排除这种可能性:其他一些变量导致了升入大学和社会经济水平之间的相关,但是能够用这样一种再分析来排除学业能力对两者相关的影晌,这本身就在理论及实践方面具有很重大的意义。
安德森等(Anderson & Anderson, 1996)描述了他们是如何来检验关于暴力的地区差异理论的,他们通过检验一系列不同的理论看其是否能够对所收集的数据做出解释。他们采用偏相关技术来进行此项研究。曾有研究表明美国南部地区的暴力犯罪高于北部地区,他们检验了“热假设”——令人不适的高温增强了侵犯性动机和攻击性行为(p.740)。他们发现城市平均气温和暴力犯罪率之间存在相关,这并不令人奇怪。但是从统计上控制一些变量,如失业率、个人平均收入、贫困率、教育程度、人口规模及其他一些变量之后,气温和暴力犯罪之间的相关仍然显著。这就使得“热假设”理论的可信度大大提高了。
如果能够采用某种方式操纵变量,并能够因之做出科学的因果推断,就没有理由仅凭相关证据做出因果推论。而让人苦恼的是,当涉及心理学主题时,仅根据相关就得出结论的做法却是普遍存在的现象,在心理学知识对解决社会现实问题愈发重要的今天,这种倾向所造成的损失也与日俱增。在教育心理学界,一个广为人知的例子很好地诠释了这一点。
自从100年前关于阅读的科学研究开始以来,研究者们就知道,眼动模式和阅读能力之间存在着相关。阅读能力差的人,其眼动轨迹是不规则的,表现为更多的回扫(从右向左的运动),在每一行上的注视时间(停顿)更长。基于这种相关,一些教育工作者假设,眼球运动技能的缺失是造成阅读问题的原因,因此许多“眼球运动训练计划”在小学生中展开和实施。在查明这一相关是否真的说明“不规则的眼球运动会导致低下的阅读能力”之前,这些训练计划已经开展了很长时间。
现在已经清楚了,眼球运动与阅读能力的相关反映了一种与之前所想象的完全相反的因果关系。不规则的眼动并不导致阅读障碍(Rayner, 1998),相反,是缓慢的单词识别和理解困难导致了不规则的眼动。当教会儿童有效地识别单词和更好地理解文字后,他们的眼动轨迹变得平顺了。训练儿童的眼球运动和提高其阅读能力是没有关系的。
最近十几年以来,研究者们已经明确指出,文字解码和语音加工方面的语言问题是阅读障碍存在的根源(Rayner, Foorman, Perfetti, Pesetsky, & Seidenberg, 2001, 2002; Snowling & Hulme, 2005; Stanovich,2000; Vellutino, Fletcher, Snowling, & Scanlon, 2004),而几乎没有眼动模式导致阅读障碍的案例。但是,如果到大部分中等规模以上的学校的储藏室里仔细翻一翻,都能找到布满灰尘的眼球运动训练仪器,这表明数以千计的买设备的钱被浪费了,这就是把相关视为因果证据的后果。
第1章中讨论过一个类似的例子。在教育和社会服务领域里有一个非常流行的观点:学业成就问题、药物滥用、青少年怀孕以及其他一些问题行为都是低自尊造成的。这一说法假定,此因果关系的方向很明显:低自尊导致行为问题,高自尊带来高的学业成就和其他领域的成绩。这种方向性因果关系假设为许多提高自尊的教育计划提供了动力,这个问题和眼球运动那个例子是一样的:仅仅因为存在相关就推出一个方向性的因果假设。事实证明,就算真的存在因果关系,自尊和学业成就之间的关系更可能呈相反的方向;高学业成就(包括生活中其他方面)导致高自尊(Baumeister, Campbell, Krueger, & Vohs, 2003; Stout, 2000)。
到目前为止,我们的讨论主要围绕变量间相关所涉及的两种误区。其中一种叫做方向性问题,已经通过眼球运动和自尊的例子进行了阐述。当变量A和变量B之间存在相关时,在断定A的变化引起B的改变之前,我们必须清楚因果关系的方向可能是相反的,即从B到A。第二种是有关第三变量的问题,此问题已经通过糙皮病的例子(以及烤箱—节育和私立学校—学业成就的例子)加以论述。两个变量之间的相关并不能预示任何方向上的因果,因为当这两个变量都和第三变量相关时,该相关还是会出现。
在一些情境下,虚假相关很容易出现。这也正是选择性偏差非常容易出现的原因。“选择性偏差”这个术语指的是特定主体和环境变量之间的关系,当不同生理、行为、心理特点的人们选择不同类型的环境时,就有可能出现选择性偏差。选择性偏差造成环境特征和行为-生物特征之间的虚假相关。
让我们通过一个例子来了解选择偏差是如何产生虚假相关的。请快速说出一个州名,在这个州里,由呼吸系统疾病导致的死亡率高于平均水平。当然,答案之一是亚利桑那州。什么?等等!难道亚利桑那州没有清洁的空气吗?难道洛杉矶的烟雾弥漫得如此之远?难道凤凰城的郊区环境已经变得那么差了吗?不是,肯定不是!让我停下来想一想。可能亚利桑那州的确有清洁的空气,可能患有呼吸疾病的人都愿意搬到这里,然后他们死在了这里。这样就对了。如果我们不够认真,就会出现上面所说的那种情形:我们可能会受到误导,认为是亚利桑那州的空气害死了这些人。
但是,选择性偏差并不总是那么容易辨别。尤其是当我们事先就期望看到因果联系时,这种偏差经常会被忽略,就像在“自尊”的例子中那样。充满诱惑的相关性证据加上固有的偏见,就能够欺骗最聪明的头脑。下面让我们看一些事例。
从关于“美国教育质量”的全国性讨论中可以很容易地看到选择性因素的重要性,这场讨论已经在美国全国范围内持续了近二十年。在这场辩论中,公众被各种教育统计数据所淹没,但研究者却没有提醒公众,警告他们避免从相关数据去推论因果关系,因为相关数据内含有大量具有误导性的选择性偏差。
纵观这场辩论,许多怀有政治目的的人试图不断地提出证据,用以说明教育质量和教师的薪资水平、班级规模是没有关系的,尽管已有许多研究表明这二者都非常重要(Ehrenberg, Brewer, Gamoran, & Williams, 2001; Finn & Achilles, 1999)。他们所提到的证据当中,有一个是50个州的SAT(学术能力评估测试)的成绩。这个测试的参加者是有意升入大学的高中生,测试中的学生平均分确实表明,学生成绩和教师薪资水平、教育的支出是没有关系的。即使有关系,其趋势看起来也与期望的方向相反。在许多州,教师薪资水平很高,但是SAT的测试成绩很低,有些州教师的薪资水平在全国工资水平排行垫底,而学生的SAT测试成缋却很高。对这组数据的仔细审视给我们上了另外一课:
选择偏差导致虚假相关是多么容易。
举例来说,在进一步的检验中,密西西比州学生在SAT考试中的得分高于加利福尼亚州学生(Powell & Steelman,1996; Taube & Linden, 1989),而且差异是非常显著的,密西西比州比加州的平均分要高出100分。而密西齿比州的教师薪资水平在全国是最低的,这无疑会让那些鼓吹削减教师工资的人们弹冠相庆。但是,请等一下!密西西比州的学校真的好于加利福尼亚州?前者的教育水平真的高于后者?当然不是。几乎任何一个客观的指标都显示,加利福尼亚州的学校更好(Powell & Steelman, 1996)。但是如果这是真的,那么SAT的成绩又该如何解释?
这个问题的答案要用选择性偏差来解释。SAT和学校通常选择的那些标准化考试不同,在标准化考试中,所有学生一律都要参加。但SAT并不是所有的高中生都参加的,因而存在选择性偏差(Hauser,1998; Powell & Steelman, 1996; Taube8cLinden, 1989; Wainer, 1989)。只有那些希望进入大学的学生参加这个考试。这个因素就能够解释州与州之间的平均分为何存在差异,同时解释了为什么一些州有最好的教育体制,在SAT考拭中的平均分却很低。
选择性因素在两个方面操纵了SAT的得分。首先,一些州立大学需要ACT(美国大学考试)的成绩,而不是SAT分数。所以这些州中,只有那些打算去州外读大学的学生才会参加SAT考试。比起那些平均水平的学生,这些学生中的大部分最有可能拥有更好的家庭条件或者更高的学术才能。这种情况也发生在密西西比州和加利福尼亚州的考试中。密西西比州仅有4%的高中生参加SAT,然而加利福尼亚州却高达47%(Powell & Steelman,1996)。
第二个选择性因素则更加微妙。在那些教育质量高的州里,许多学生在高中毕业后,更倾向于继续接受教育。在这些州,参加SAT考试的学生比例高,这其中也包括一些学习成绩较差的学生。而在那些有着高辍学率、低教育质量的州中,想继续接受大学教育的学生比例很低。在这些州中,最终参加SAT考试的学生代表的是这些州中学习成绩比较好的那些人。因此,他们的平均成绩自然要高于那些大部分人都参加升学考试的州。
关于SAT分数的这个例子也为我们提供了一个反面教材,那就是:公众如果缺乏本书所教授的简单方法论和统计思维技能,想纠正那些误导性的数据是何等地困难。在写于1983年的本书的第一版中,我就将SAT分数的错误使用源于选择性偏差这个例子收录进来。在十多年以后,也就是1994年的第四版中,我谈到了一篇文章,这篇文章是印第安纳州的教授布赖恩·鲍威尔(BrianPowell,1993)写的,文章分析了由政治专栏作家乔治·威尔(George Wel1)在1993年所写的一篇专栏文章,你可以猜测一下文章的内容……威尔反对公共教育支出,因为在SAT测试中取得高分的州,并没有高的教育支出。鲍威尔(1993)指出,威尔挑出的那些SAT分数特别高的州——爱荷华州、北达科他州、南达科他州、犹他州和明尼苏达州——参加SAT考试的学生比率分别为5%、6%、7%、4%和10%,然而在美国参加SAT考试的总比率是40%以上。原因就是,在以上这些州中,要想进入公立学校,必须参加ACT考试,只有那些计划去州外有名望的私立学校读书的学生才参加SAT考试(Powell, 1993, p.352)。与之相反,在威尔列举的新泽西州,SAT分数很低,教育支出却很高,其中有76%的高中生参加了这个考试。显然,相比新泽西州,在南、北达科他州参加SAT考试的学生配称得上是一支“精锐之师”。
在《教育研究者》(Educational Researcher)杂志中,心理测量学家霍华德·维纳(Howard Wainer, 1993)分析了一篇文章,此文是美国传统基金会所做的一个研究,发表在1993年6月22日的《华尔街日报》上。这个基金会是一个带有强烈意识形态倾向的智库,一贯反对教育投入——你猜是为什么呢?——SAT分数低的州往往是教育投入较高的。维纳的文章不仅揭示出选择性偏差引发的这种后果,还证明了如果测试使用有代表性的样本,而不是自我选择的样本来分析(National Assessment for Educational Progress, NAEP),这种关系就会呈现相反的情况:教育花费高的州有高的SAT成绩。
鲍威尔和斯蒂尔曼(Powell & Steelman, 1996)利用先前提到过的偏相关技术证实了这种关系。他们发现,一旦在统计上控制了每个州参加考试的学生在比例上的差异,那么每个学生的教育支出每增加1000美元,这个州的SAT考试平均成绩就会提高15%。尽管大多数的证据都无可辩驳地表明,如果不进行统计校正,选择性偏差会让州与州之间SAT成绩的比较变得毫无意义,但媒体和政客们仍在继续使用未校正的分数来达到他们的政治目的。
来自临床心理学的例子可以表明,选择性偏差问题是多么地具有欺骗性和违背常理。研究数据有时会显示,接受心理治疗的人在各种成瘾症——如肥胖、吸毒、吸烟——的治愈率方面,要低于那些没有接受过心理治疗的人(Rzewnicki & Forgays, 1987; Schachter, 1982)。你想知道原因吗?原因并不是因为心理疗法使得成瘾的行为更加难以改变,而是因为那些寻求心理治疗的人的成瘾问题更复杂和棘手,而且很少能够自愈。
维纳(Wainer, 1999)给我们讲了一个二战期间的故事,这个故事提醒我们选择性偏差违背常理的一面。他提到一位飞机分析师,这个分析师一直试图通过分析飞机被子弹击中的弹孔分布,来确定飞机上的哪个部位是应该放置加固防弹层的位置。他最后的决定是:把加固防弹层放在返航机上没有弹孔的地方。他的理由是,子弹袭击飞机各个部位的几率是均等的,所以,如果一架飞机能返回,就表示这架飞机被子弹击中的地方必定不会对飞机造成致命损伤。那些没有弹孔的地方,看来都是要害,因为该部位如果被击中,飞机可能就不会返航。因此加固防弹层应该安装在返航机没有被击中的部位!
总之,这一章提供给读者的规则很简单:提防选择性偏差的发生;当只有相关时,应避免因果推论。不可否认,复杂的相关数据里确实存在着有限的因果关系。同样不可否认的是,相关的证据有助于证明假设的聚合效度(见第8章)。然而对于心理学知识的消费者来说,宁可站在怀疑的角度,也不要被那些错误地暗示了因果关系的相关所蒙蔽。
本章的主旨是想传达这样一个理念,两个变量之间仅仅存在相关,并不能保证一个变量的变化就会导致另一个的变化,也就是说,相关并不意味着因果关系。在第三变量问题里,两个变量之间的相关并不意味着它们之间存在直接因果路径,因为相关的产生可能是由于这两个变量或许都与未被测量的第三变量有关。事实上,如果潜在的第三变量也经过了测量,就可以用相关统计,如偏相关(第8章将会讨论)来评估第三变量是否决定了这种关系。让相关统计的解释变得困难的另外一个原因,就是方向性问题。实际上,如果两个变量有直接的因果关系,因果关系的方向是不能根据相关来判断的。
在行为科学中,选择性偏差是造成诸多虚假相关的罪魁祸首。事实上人们在一定程度上选择他们的环境,并人为创造了行为特性和环境变量之间的相关。正如戈德伯格的例子所阐述的那样(在接下来的两章中我们将会进一步讨论),确保选择性偏差不会捣乱的唯一方法,就是在操纵所有变量的情况下进行真正的实验。