前两章讲述了实验逻辑的原则,现在我们可以思考一下心理学经常面对的一些批评。比如很多人认为科学实验没有价值,因为它是人为发生的,和“真实的生活”不一样。我们将对这一观点进行详细探讨。由于心理学实验常常遭到类似的批评,因此理解这种批评的不合理之处,将有助于我们更好地了解心理学。
从第6章的内容中,我们已经可以清楚地看到为什么这种批评是不合理的。正如上一章所述,科学实验的人为性并不是一种缺点,事实上,正是它使得科学方法具备了一种奇特的力量,可以让我们对世界进行解释。与人们通常所相信的观点不同,科学实验的人为性并不是偶然的疏忽,而是科学家故意为之。科学家之所以专门设置一些非自然发生的条件,是因为只有这样才可以将决定事件发生的许多相关变量区分开来。有时候,必要条件已经在自然状态中存在,比如斯诺和霍乱病的例子。但这种情况并不经常出现。科学家必须用新异的甚至有时比较奇怪的方法操控事件,比如戈德伯格和糙皮病的例子。很多时候,这些操作无法在自然环境中完成,于是科学家必须把所要研究的现象转移到实验室中,以便实施更精确的控制。例如在有关“重力和运动”的早期研究中,使用了一些特制的物体,其目的就是为了创造一些特殊条件,以便观察物体运动。因此,为了分析一种现象,经常需要创设非自然的极端条件。
事实上,如果科学家完全禁锢在“自然”条件下观察,那么一些现象就不可能被发现。探索物质本质特征的物理学家们建造巨大的加速器来诱发基本粒子之间的碰撞。碰撞中产生的一些副产物是存在时间不到十亿分之一秒的新粒子。然而,这些新粒子的属性却有助于解释原子结构理论。许多新粒子在世界上一般是不存在的,即使存在,我们在自然状况下也没有机会观察到它们。因此,几乎没有人质疑物理学家们的研究方式。为了对宇宙有更深刻的理解,即使采用一些不常见的甚至是怪异的方法,也是合情合理的。但不知为什么,物理学家用起来合理的方法,心理学家使用起来,就常被认为是不合理的。
由于公众没有意识到创造特殊条件的重要性,各类科学家都曾遭到过误解,而心理学家是这种误解的最大受害者。许多心理学家在向外行人展示关于某一行为的实验证据之后,都听到过这样的叹息:“可惜这不是真实的生活”。对这种批评的进一步讨论,通常可以让我们了解到大众的一些观念,比如,只有研究自然条件才能获得知识,心理学的实验室研究是怪异的,还不足以成为一门科学。
心理学家使用的许多技术在公众看来是怪异的,很多人都不知道这些技术并非心理学领域所独有,只不过心理学家把这些科学方法应用到人类行为的研究上而已。事实上,在每一个学科的调查研究中,都能看到人们用一些类似的怪异方式来获取关于世界的知识。心理学家却遭受了双面夹击。对科学方法的无知使得许多人相信心理学永远不可能成为科学,于是,当心理学家像其他所有的科学家一样创造必要的特殊条件来对心理现象进行更有力、更精确的解释时,却遭到了诽谤。
禁锢于真实生活条件会妨碍我们发现许多新事物。例如,生物反馈技术现在被广泛应用于各种领域,比如用于控制周期性偏头痛和紧张性头痛、治疗高血压,以及放松训练(deCharms et al., 2005; Maizels, 2005; Miller, 1985)。研究表明,如果通过视觉或听觉的反馈能够监测到体内正在进行的生理过程,那么人类就能学会在一定程度上控制这些过程。这项研究促进了上述生物反馈技术的发展。当然,因为人类本身并不具备通过外部反馈来监测自身生理功能的能力,所以,如果不是在特殊的实验室条件下,人们将很难发现人类有能力控制自己的生理过程。自然条件下的观察是永远无法发现这一点的。
然而有时候,类似“这不是真实的生活”的抱怨源于对心理学实验研究目的的另一种误解,产生这种误解的原因是非常容易理解的。媒体的宣传使许多人对调查研究开始熟悉起来,特别是选举中的民意调査。现在人们对选举投票的一些重要特征越来越了解。具体而言,为了保证民意测验的准确性,媒体对随机取样、样本代表性等概念更加关注。这种关注导致许多人错误地认为,随机取样和代表性是所有心理学调查研究的必要条件。因为心理学研究很少使用随机的被试样本,如果根据外行人所相信的随机取样标准,那么许多心理学的研究成果都会遭到诋毁,那些批评心理学研究无法反映真实生活因而是无效的论点也会受到强化。
但只要想一下其他科学的情况,就很容易理解这种想法的荒谬。化学家从没尝试过抽取化合物的随机样本,生物学家也不曾用细胞或组织的随机样本进行实验。用于医学研究的老鼠和猴子也不能完全代表其物种。而这些研究都是在与这些动物生活的自然环境完全不同的实验室中进行的。事实上,这些条件通常很独特。然而,所有这些研究得到的结果都可以帮助我们理解人体生物学。大部分心理学研究也是同样的道理。并非每一个心理学调査研究都需要使用随机样本。因此,我们在此需要强调的重点是:随机取样和随机分配(见第6章)不是一回事。
随机分配和随机取样两个词里都包含“随机”,因此许多人以为它们所指的是一回事。事实上,它们是非常不同的概念,唯一相似之处在于它们都采用了随机生成数字这一点。然而其目的却大相径庭。
随机取样涉及的是如何选择被试进行研究。如前所述,并不是所有研究都要求随机取样,但当它成为必要条件时(例如在调査研究、市场调查或是选举时的民意调查中),我们则需要用一种方法从总体中抽取一个样本,这种方法要确保总体中的每一个成员都有同等机会被选为样本,被抽中的样本就成为随后调査研究中的被试。有一点非常重要,这种随机抽样的调查研究既可能是相关研究,也可能是一个真实验。只有使用了随机分配的方式,才有可能成为一个真实验。
随机分配是真实验所必需的条件。实验人员将被试分为实验组和控制组,当每一名被试被分到实验组的机会和被分到控制组的机会相等时,则实现了随机分配。为了达到这一点,常会用到像掷硬币这样的随机化手段(更常用的是一种特殊的随机化数字表格)——因为它在给被试分组时没有任何偏向。
随机分配和随机取样不是一回事,牢记这一点的最好方法是弄清楚四种组合:非随机分配的非随机样本,随机分配的非随机样本,非随机分配的随机样本,以及随机分配的随机样本。大部分心理学实验没有使用随机样本,因为没有这个必要。正如下一章将讲到的,研究可以检验理论,我们所需要的只是一个方便取得的样本。如果一个研究中使用了随机分配的方法,那么它就是一项真实验,如果没有使用,那么它是一项相关调查。许多使用随机取样的研究没有使用随机分配,那是因为它们只是调查性研究,旨在寻找关联——也就是说,这些研究属于相关调查研究。然而,一些研究既使用了随机取样,又使用了随机分配,那么它们肯定是真实验。
弗吉尼亚大学心理学家道格拉斯·穆克(Douglas Mook)阐述了不同类型的研究要求的不同类型的预测。许多应用研究的目的是把研究结果直接与生活中的特殊情境联系起来。对应用研究而言,预测必须是:研究与现实生活有“一对一”,亦即穆克称作“类比”的关系,应用研究的结果必须都能直接应用。选举投票中的民意测验就是应用研究的一个例子。研究目的是预测一个特定情境下的特定行为,在这个例子中,就是选举日的投票结果。由于研究结果是要直接应用于现实的,因此,样本的随机性和情境的代表性问题很重要。
然而,把应用型心理学研究看做典型的心理学研究是错误的。心理学(或其他学科,就这一点来说也是如此)的大部分研究都有着不同于应用的目的。大多数研究的预测层次是从理论到特定研究情境的预测。大多数研究的结果只能间接通过理论修改而被应用,这些理论与其他科学规律共同应用于一些实践性问题(Nickerson, 1999)。简而言之,大部分理论研究追求的是对心理过程的理论验证,而不是把研究结果推广到现实中的某一特殊情境中去。
主要目的为理论验证的研究通常被称为“基础研究”。应用研究的目的是把数据直接应用于现实生活,但是基础研究则专注于理论验证。然而,仅仅根据某项研究是否有实践性应用来区分基础研究和应用研究,很可能会产生错误,因为这一差别常常会随着时间的增长而逐渐消失。应用研究的结果会很快得到应用。但是没有什么能比普遍的、准确的理论更具有实用性了。尽管很多科学家进行理论或实证研究的初衷并非解决具体的实践性问题,但他们发展出的科学理论或研究结果最终都解决了现实世界的许多问题。这样的例子在科学史上不胜枚举。
罗伯特·克里斯和尼古拉斯·萨米奥斯(Robert Crease & Nicholas Samios, 1991)在一个处于领先地位的物理学研究中心——布鲁克海文国家实验室(Brookhaven National Laboratory)工作,他们在一篇论文中介绍了一些有关基础研究拥有应用价值的例子。比如威尔赫姆·伦琴(Wilhelm Roentgen)的故事,他“发现了一件奇妙的事情,当他把焚光屏放在他的仪器附近时,荧光屏就会意外地发光;结果发现了自然界的一个新现象,他称之为X射线。三个月之后,X射线已经被人们用来检查骨折”(p.82)。再来看霍华德·弗洛瑞(Howard Florey),他和一个同事一起研究抗菌机制。“青霉素是他们所研究的微生物之一,这种微生物是几年前才偶然发现的,但它的抗菌功能一直没有被发现。现在的许多药物都是在一些对应用没有特别兴趣的学术研究发现的基础上研制出来的。”(p.82)
西莫尔·凯迪(Seymour Kety, 1974)也谈到了气丙嚷这一治疗精神分裂症的特效药物是如何在一些看似没有关联的科学研究中被发现的。凯迪强调,几乎所有应用于精神分裂症治疗方法的发现都与精神分裂症毫无关系!历史一再证明,(通过让科学家解决特殊的实践性问题而)试图控制科学发展方向只能阻碍发展进程而非促进。具有讽刺意味的是,急于让科学家们解决实际问题,而不让其考虑“其他事情”(基础研究)的做法,被证明是最不切实际和目光短浅的。
通向实际应用的道路是非常曲折和不可预料的。为了研究关节炎,德克萨斯西南大学医药研究中心的一组研究人员试图通过遗传的方式培养一批患有关节炎的老鼠。出乎意料的是,这些老鼠同时也患上了肠炎(Fackelman, 1996)。这个研究团队“偶然创造出了有溃疡性肠炎的老鼠,从而为科学家们研究人类疾病提供了动物模型”(Fackelman, 1996, p.302)。无论这些科学家是否在关节炎(原本想研究的问题)上取得了进展,现在看来他们似乎在溃疡性肠炎的治疗上做出了巨大的贡献。
简言之,我们必须意识到,虽然一些研究是为了直接预测某一特殊情境而设计的,但大多数科学研究仍然是用于验证理论的基础研究。怎样把研究结果应用到现实生活中呢?从事应用研究和从事基础研究的研究者们对此有不同的回答。前者会这样回答:“直接应用,只要实验情境和将来要应用的情境有相当程度的相似性就可以了。”因此,被试的随机取样和实验情境的代表性都会影响结果的应用。然而,进行理论检验的研究人员是这样认为的:研究结果不会直接应用于现实生活,进行理论研究的目的也不是为了将结果用于具体的环境条件。因此,这类科学家并不关心研究的被试与其他群体有多相似,也不关心实验情境是否反映出某些真实生活的环境。那么,这是否意味着这些研究结果对现实世界没有意义呢?不是的。这些研究结果不直接应用于某一特殊情境,而是应用于理论。这种理论,也许在将来的某一天,可以和其他科学规律相结合,共同解决某一特殊问题。
在心理学的一些领域里,这种将理论间接应用于现实生活的研究十分常见。例如,许多年前手机刚刚面世,许多认知心理学家立即开始担心安全问题——人们边开车边接听手机怎么办。心理学家立即预测手机的使用可能会导致交通事故增多——不仅仅是因为接听电话的时候一只手会离开方向盘,此外,他们还担心接听电话会转移司机的注意力。有一点很重要,我们应该意识到,心理学家提出这些担忧远远早于真正用移动电话来做的实验研究(见Strayer & Johnston,2001)。心理学家通过理论预测手机事故问题,而这个例子中的注意力有限加工理论早在几十年前就已经存在了(如,Broadbent, 1958; Kahneman, 1973)。这一信息加工理论是通过大量的实验验证(上百个实验室研究)建立起来的,开车使用手机提供了一个机会,正好可以用这一理论来预测其可能造成的危害。事实也是如此,后来使用移动电话进行研究,结果证实了心理学中注意理论的预测:移动电话的使用确实是引发交通事故的一个原因(Insurance Institute for Highway Safety, 2005; Mc Evoyetal., 2005; Redelmeier & Tibshirani, 1997, 2001)。
道格拉斯·穆克(Douglas Mock, 1983)就一个例子阐述了心理学中通过实验来验证理论的观点以及间接应用的性质。20世纪30年代,塞里格·海奇特(SeligHecht)在《普通实验心理学手册》(Handbook of General Experimental Psychology)(Murchison, 1934)里发表了一系列有关视觉敏感度的研究,谈到了暗适应的现象。你可能有过暂时性“失明”的经历,比如当你走进一个漆黑的电影院时。但是,当你在位置上坐了一会儿之后,应该就能注意到椅子、人以及其他物体慢慢变得可以看见。如果你继续关注这个现象,你会发现视敏度不断升高的这个过程会持续几分钟之久。
这种现象叫做暗适应,它会经历两个阶段:首先是在进入一间漆黑的屋子时,视敏度迅速小幅度地升高,之后缓慢大幅度升高。海奇特把两部分的升高曲线和视网膜上的两种感光细胞联系起来。密集分布在中央窝中心(视网膜的一部分,用于聚光)的视锥细胞,对红光非常敏感。分布在中央窝外围的视杆细胞,没有那么密集,而且对红光不是很敏感。海奇特根据这些事实建立了一个理论,即暗适应的最初阶段(视敏度小幅地快速升高)源于视锥细胞的适应,第二阶段(在更长的一段时间内视敏度大幅升高)源于视杆细胞的适应。
穆克(1983)提醒我们考虑一下海奇特的实验环境是完全非自然的。(非随机取样的)被试在暗室里进行反应,根据他们是否察觉到微弱的红色闪光,回答“是,我看得见”或者“不,我看不见”。正常情况下,我们不会在日常生活中对微弱的红光作“是”或“否”的反应。然而由于海奇特并不考虑将自己的研究成果推广到那些在暗室里对红光做“是”或“否”的反应的个体中去,所以现实生活中这种情况是否真的发生过无关紧要。海奇特所关心的是,如何根据实验室中建立的事实来验证相应的理论,从而能解释视觉系统所特有的一些基本过程,如暗适应。他并不关心他的实验情境是否符合现实世界的情况,而是关注是否能充分分离出他想研究的特殊视觉过程。
海奇特的研究发现之所以具有普遍性,并不是因为他的实验情境的性质是人工的或是自然的,而是因为根据这些研究结果可以建立一个有关基本视觉过程的理论,而这个理论可以与许多视觉现象相关联。他的研究揭示了人类视觉系统中各个部分之间的功能关系,而这恰恰是因为他的研究情境经过了人为的精确控制。如果这一理论模型是正确的,那么它应该能广泛地应用于各种情境,可以用来解释许多行为现象,即使所处的情境与发现这一理论的情境完全不同。换句话说,海奇特的研究结果通过对理论的影响而产生了间接的应用价值。例如,海奇特的研究结果促进了对夜盲症的治疗,改善了X射线的识别问题(Leibowitz, 1996; Mook, 1982)。更引人注目的是,二战期间,英国飞行员在闪电战中等待希特勒轰炸机的夜间袭击时,戴上了红色的飞行眼镜(因为视杆细胞对红光不够敏感,可以保持暗适应;见Mook, 1982)。从在实验室里判断小红点到辨别伦敦上空危险物体的移动,这一鸿沟是由理论跨越的,而不是通过把海奇特的实验室改造成喷气式战斗机得出的。
一旦我们明白了大部分研究的目的是发展理论而不是预测具体环境下的事件,以及大部分研究的结果是通过理论间接应用的,而非在具体环境条件下直接应用,那么我们就会顺理成章地发问:究竟心理学中有多少理论可以在现实中得到应用。也就是说,心理学理论的普遍性得到验证了没有?
对于这一点,我们必须承认以往的记录是参差不齐的。但也必须清楚地意识到,这与心理学的多样性息息相关。一些领域中的研究确实在应用方面进展甚微,然而,其他一些领域则已经取得了十分瞩目的成绩,通过实验已经推导出了许多具有解释能力以及预测效力的原理(见Buss, 2003; Byrnes, 2001; Davidson & Sternberg, 2003; Gazzaniga, 2004; Hilton, 2003; Sunstein, 2002; Wilson & Keil, 1999; Zimbardo, 2004)。例如,在咨询、教育、临床、心理治疗等应用领域,理论导向的基础研究结果也获得了大量实际应用(Davidow & Levinson, 1993; Garb & Schramke, 1996; Lilienfeld, Lynn, & Lohr, 2003; Lilienfeld, Wood, & Garb, 2000; Mahrer, 2000; Siegert & Ward, 2002)。
想想经典条件反射和操作性条件反射原理。这些原理及其详细论述的规律,几乎完全是从非人类被试的实验发展而来的,比如鸽子、老鼠,其实验情境也是高度人为化的实验室环境。然而,这些原理已经成功地用于解决人类各式各样的问题,包括自闭症儿童的治疗、大量事实材料的教学、酗酒和肥胖症的治疗、精神病院的病号管理以及恐惧症的治疗等等。这仅是一小部分而已。
这些应用所依靠的原理之所以能够被准确地提炼出来,是因为在实验室条件下,研究者们能够精确地细化环境刺激和行为之间的关系,而这一点在自然条件下是无法做到的,因为在自然情境下,许多行为之间的关系可能会同时起作用。至于非人类被试的使用,是因为在许多案例中,从动物的反应得出的理论和规律为我们提供了与人类行为非常相近的数据(Vazire & Gosling, 2003)。人类研究发现,人类的行为规律与从动物行为得出的规律非常相似。当人类疾病治疔方面的每一次医学进步都源自动物研究数据的时候,这些发现也不应该再让我们感到惊奇了。举例来说,动物研究促进了很多领域的发展,包括行为医学、压力缓解、心理治疗、受伤或者残疾人士的康复、衰老对记忆力的影响、帮助人们克服神经性肌肉紊乱的方法、药物对胎儿发育的影响、药物滥用、失忆、交通安全、慢性疼痛的治疗(Domjan & Purdy, 1995; Gosling,2001; Kalat, 1995; Miller, 1985b; Zimbardo, 2004)。最近,关于狗的研究为理解人类焦虑障碍的基本原理起到了实质性的推动作用(Groopman,1999)。
事实上,“这不是真实的生活”的批评被错误地用来诋毁动物研究的成果——这种做法经常是由于政治的缘故。例如,那些为重度污染企业效劳的政客们总是否认致癌因素风险评估报告的有效性,他们的理由是,这些报告是以动物研究为基础的,不能应用到人类风险评估上。然而,一组科学家在1988年进行的一个对23种致癌物质(苯、石棉,等等)的研究中发现,由动物研究计算出来的死亡率与由人类流行病学研究计算的结果非常相近(Rnkel, 1996)。
心理学家对知觉过程的研究取得了令人印象深刻的进展,从中得出的规律和理论已用于解决各种各样的问题,比如雷达监测系统、街灯照明以及飞机驾驶舱的设计(Nickerson,1992; Swets, Dawes, & Monahan, 2000; Wickens, 1992)。关于衰老对认知的影响,我们已经积累了许多新的认识(Salthouse, 2004),而这些新知识有可能会直接帮助我们设计出帮助认知丧失者恢复其能力的训练方案(Dixon & Backman, 1995)。
判断和决策的心理研究已经应用于医学、教育和经济等领域的决策制定(Gigerenzer, 2002; Gilovich, Griffin, & Kahneman, 2002; Hilton, 2003; Kahneman, 2003; Kahneman & Tverslgr, 2000; Swets, Dawes, & Monahan, 2000; Tetlock, 2005; Zweig, 2001)。一项令人兴奋的发展是认知心理学家更多地参与到法律体系中,这使得在信息搜集、证据评估和做出判决等方面,给认知理论的应用带来了大量机会(Kassin,Tubb,Hosch, & Memorx,2001; Koehler, 1993; Kuhn, Weinstock, & Flaton, 1994; Redding, 1998; Wrightsman, 1999; Zimbardo, 2004)。而且从20世纪80年代中期开始,阅读教学中的理论和实践开始受到认知心理学的影响(Rayner, Foorman, Perfetti, Pesetsky, & Seidenberg, 2001, 2002; Snowling & Hulme, 2005; Stanovich, 2000; Veilutino, Fletcher, Snowling, & Scanlon, 2004)。此外有关儿童在法律程序中提供的证词(Ceci & Hembrooke, 1998)和受虐儿童所“恢复”的记忆是否准确(Brainerd & Reyna,2005; Bremner, Shobe, & Kihlstrom, 200; Clancy, Schacter, Mc Nally, & Pitman, 2000; Gardner, 2006; Loftus, 1997; Lynn, Loftus, Lilienfeld, & Lock, 2003; Mc Nally, 2003; Pezdek & Banks, 1996; Spanos, 1996)等这些公众争论不休的问题方面,心理学家都提供了重要的科学依据。美国心理学会开设了一个网站:www.psychologymatters.org。你可以在此网站上看到更多有关心理学知识的实践性应用。
许多人质疑心理学研究成果的代表性,他们过于关注研究的被试,而不关心实验设计的细节。然而,心理学的许多领域中,研究结果更多受到后者的影响而非前者,例如知觉基本过程的研究。在基本的信息加工过程、大脑的基本结构以及视觉系统的特征方面,美国蒙大拿州的人和佛罗里达州的人都非常相似。另外,这些特征和被试的父母是不是修补匠、裁缝或者教授没有任何关系。
所有学科都假设某些因素对最终的结果没有影响。生物学家一般不担心培养皿厚度的细微差异会显著影响里面的细菌。当然,这些差异可能会产生影响——每一种科学假设都不是绝对的——但是生物学家必须把精力放在他们认为更有可能产生影响的变量上面。与此相似,海奇特假设暗适应跟人的宗教无关,因此他不问被试是路德教派的,还是罗马天主教的。
我们面临一个问题,有时人们叫它“大二学生问题”;即,因为大二学生在大量的心理学研究中做被试,因此这些研究所得出的结果是否具有可推广性受到了质疑。心理学家关心这一问题,是因为它在某些研究领域中的确是个问题。尽管如此,我们还是要正确地看待它,并且应该知道心理学家对这一批评有几种合理的辩解。以下列出三点:
1.这种批评不能说明研究结果无效,只是需要更多的研究来证明理论的可推广性。由于我们先前收集了大二学生的数据,即使从其他人群中获得了相反的数据,从而必须对理论做出相应的调整,也只会使理论更加精确,而不会完全否定它。即使在比较极端的情况下,重复的实验没有得出相同的结果,我们也只能说,建立在大二学生数据基础上的理论不够全面,而不能说该理论一定是错误的。
2.在心理学众多领域里,大二学生问题不构成一个问题,因为所研究的心理过程是非常基本的过程(例如视觉系统),几乎没有人相信视觉系统的基本构造跟被试样本的人口分布特征有关。
3.许多研究结果得到了重复,这使我们确信这些结果在很大程度上可以推广到不同的地理分布中,并且在较小程度上,也能推广到具有不同社会经济因素、家庭变量以及早期教育经历的人群中去。50年前的大学生被试样本恐怕基本来自于精英团体,如今却完全不同,现在大学生的家庭背景能够代表各阶层的群体。
然而,不承认大二学生问题在心理学研究的某些领域里的确是个问题,这也是不明智的(Peterson,2001)。尽管如此,心理学家正在尽力矫正这个问题。例如,发展心理学家几乎都很关注这个问题。这一领域中每年都有成百上千的研究人员,将众多用大学生被试得出的理论和发现,在其他不同年龄的被试身上重新验证。
用不同年龄组的人做被试并不总是能重复用大学生被试得出的结果。要是那样的话,发展心理学就会变得很无聊了。但是一大堆心理学家都致力于在心理学理论中建立一个年龄因素,以证明这个因素的重要性,这一领域的研究也确保了心理学的宏大理论不是只建立在从大学生那里收集的有限数据基础之上。
许多发展过程的研究都是以北美儿童为被试进行的,为了评估这些研究结果的可推广性,发展心理学家也进行跨文化的研究。例如,史蒂文森等人(Stevenson et al., 1985)让中国、日本和美国孩子完成大量的认知任务,然后得出结论,“三种文化下的儿童在这些任务中所表现出的认知能力非常相似”(p.727〉。其他认知能力的跨种族和跨文化比较研究也证实了相同的结果(Demetriouetal., 2005; Mc Bride-Chang & Kail, 2002)。对于其他心理学特征,跨文化研究里有许多例子也显示了相似的趋势(例如,Day & Rounds, 1998; Rozin, Lowery, Imada, 1999)。但是,也有不少跨文化研究没有得出与美国大二学生相似的结果(例如,Nisbett, 2003)。但是当出现这些差异时,这些研究仍然提供了一些重要信息,让人们了解到这些理论和结果会因文化和背景的不同而不同(Chang, 1996; Menrichetal., 2004; Medin & Atran, 2004; Nishett, 2003; Yates, Lee, & Shinotswka, 1996)。
正如先前提到的,认知心理学的研究成果通过了重复验证。信息加工的许多基本规律在全世界许多实验室中得到验证。人们可能不太知道,如果密歇根大学的一名心理学家获得一项重要的研究成果,那么类似的实验将很快在斯坦福大学、明尼苏达大学、俄亥俄州立大学、剑桥大学、耶鲁大学、多伦多大学等大学进行。通过这种检验,我们将很快知道这项结果是不是由于密歇根州被试的独特性或特殊的实验环境所造成的。
教育心理学家也提出过大二学生问题。例如,教育心理学家联合发展心理学家以及其他教育研究人员,构建了测量基本认知技能的内容,这些内容能在一定程度上准确预测学业成绩,例如阅读习得率。这些内容的预测准确度不受社会经济地位和种族的影响,也不受地理分布和校区的影响。
大二学生问题和关于代表性的批评大部分针对的是社会心理学,社会心理学经常用大学生被试在实验室情境中进行研究,并试图建立真实社会情境中的社会交往、群体行为和信息加工等理论(Kimda,1999)。然而,即使在心理学的这一领域,也有证据表明,实验室得出的成果和理论,实际上确实预测出了不同类型的个体在各种情境下的行为。
例如,几年以前,莱昂纳德·伯克维茨(Leonard Berkowitz),威斯康辛大学的一名心理学家证明了所谓的“武器效应”——如果一件武器出现在手边,会使得某个人更容易做出攻击性反应。这个发现源于实验室,是一个无代表性情境的典型例子。由于这一结果是人为情境的诱导产物,因此常被强烈地批评其具有误导性。但事实是这样的,各种实验条件下得出的结果都一样,用不同的方法测量攻击性所得的结果一样,在欧洲和美国获得的结果一样,研究儿童和成人的结果一样,在实验室之外的现场研究中,被试不知道自己是在参与实验,得出的结果也一样(Berkowitz & Dormerstrein, 1982; Turner, Simons, Berkowitz, & Frodi, 1977)。研究人员甚至提取出了武器效应背后的认知机制。在语义记忆中,它是一个自动启动的过程(见Anderson, Benjamin, & Bartholow, 1998)。这个效应是如此之强,以至于安德森等人(Anderson et al., 1998)把文章题目定为“是手枪自己扣动扳机的吗?”
认知、社会和临床心理学家也研究了人类的各种决策行为。这个研究领域里大部分原始的研究都是在实验室里完成的,使用大学生作被试,而且采用高度人为化的任务。然而,从这些研究中得出的决策行为原则在很多非实验室环境中都得到了重现,包括银行家对股票价格的判断、赌场赌博、精神病医生对病人行为的预测、经济市场预测、军事情报分析、全美橄榄球联赛的下注、工程师对修理时间的估计、房地产经纪人对房价的估计、商务决策以及医生的诊断——这些原则现在也应用于个人理财咨询的实践领域(Bazerman, 1999, 2001; Belsky & Gilovich, 1999; Goldstein & Hogarth, 1997; Hammond, 1996; Tassoni, 1996; Zweig, 2001, 2002)。
伯尔尼鲍姆(Birnbaum, 1999)用互联网来解决心理学中的大二学生问题。他在实验室里通过互联网招募了一批参与者,并进行了一系列有关决策问题的实验。实验室中得到的结果全部在互联网样本中得以重现,而后者的取样范围要比前者广泛得多——包含来自44个国家的1224名参与者(见Jaffe, 2005; Mc Graw, Tew, & Williams, 2000)。高斯林等人(Gosling et al., 2004)研究了大量互联网参与者的样本(361703人),并将之与发表过的510个传统样本的参与者比较,发现互联网上的被试在性别、社会经济地位、地区和年龄方面有着更广泛的分布。重要的是,他们发现,心理学众多研究领域的研究结果,例如人格理论,用互联网实验和传统方法的研究所得出的结果非常相似。
这些例子说明,心理学研究结果的稳定性和普遍性程度经常被低估了(Cheng, 2001; Gage, 1996; Rosenthal, 1990)。安德森、林德西和布什曼(Anderson, Lindsay, & Bushman, 1999)对实验室研究和现场研究的效果进行了系统检验。从验证攻击性、领导力、抑郁症等多种主题的研究中,安德森等人(1999)发现了高度的聚合性——几乎所有不同的研究环境总是产生相似的结果。
当然,并不是所有的心理学研究成果都能重现(见Carroll & Nelson, 1993)。相反,结果无法重现的实验经常出现,而它们往往比结果可以重复的实验更具指导意义。但是,在认知心理学中,重复实验的失败几乎很少是被试的独特性造成的。相反,大部分是因为实验刺激和方法的细微差异。通过仔细地分析要产生一个现象究竟需要哪些实验条件,科学家们对现象有了更精确的理解,这为建立一个更精确的理论奠定了基础。
但是,如果实验结果没有被重现,那么心理学的研究成果如何应用?如果科学家们没有在所有的细节上达成一致,知识和理论并不完全站得住脚,那么如何证明这些结果的应用是合理的呢?这种对心理学发现的担心是很常见的,因为人们没有意识到,在其他科学中,结果和理论经常在完全确立之前就开始应用了。当然,第2章中已经清楚地阐述过,所有的科学理论都有可能被修订。如果我们在应用科学研究结果之前必须确定知识是完全正确的,那么应用就不会发生了。所有领域的应用型科学家尽最大努力使用最准确的信息,同时也会意识到这些信息有可能是错误的。
本章提到了几个焦点问题,此外有一点很重要,就是我们应该清楚什么是我们说过的,什么是我们没说的。我们证明了对心理学研究的频繁抱怨源自一个基本的误解,不是针对心理学,而且针对涉及所有科学的一个基本原则。我们看到人们质疑心理学家为什么不在所有研究中都使用随机样本,并且解释了这种担心是多余的。最后,我们看到,大二学生问题本来是一种合理的关注,但它有时被夸大了,尤其是当人们对心理学研究的广泛性和多样性不太熟悉时(见第1章)。
尽管如此,心理学家应当始终注意他们的实验结论不要太过依赖于某一种方法或某一特殊被试群体。这一点将在下章讨论。事实上,心理学的一些领域确实被大二学生问题折磨得够呛(Jaflfe, 2005; Peterson, 2001; Wintre, North, & Sugar, 2001)。作为大二学生问题的一剂良药,跨文化心理学仍然是一个亟待发展的领域。然而,研究型心理学家对于自我批评的高度重视,给了我们一个对此持乐观态度的理由(见第12章; Anderson & Gunderson, 1991; Henriques, 2003, 2004,2005; Jaffe, 2005; Kimble, 1999; Machado, Lourenco, & Silva, 2000; Proctor & Capaldi, 2001)。事实上,许多心理学家因为将“批判”作为其本职工作而享誉学界(Leary, 2001; Robinson, 2001)。每年的各类科学杂志上,都会有文章提醒心理学者注意其方法上的漏洞,或是指出大二学生问题。后者在心理学中是一个受到广泛关注的问题,没有心理学者尚未意识到这一点。因此,尽管我们不应忽视这一问题,同时也应正确看待它。
一些心理学研究属于应用型研究,它们的目标是把研究结果直接应用于特定情境。在这样的应用研究中,研究的目的是要将结果直接推广到自然情境中,样本的随机化和条件的代表性就显得尤为重要,因为研究结果将会直接得到应用。然而,大多数心理学研究不属于这种类型,而是属于基础研究,用以验证有关行为潜在机制的理论。在大部分基础研究中,研究结果通过理论上的修正得到间接应用,从理论产生到应用于某些实践性问题需要一段时间。在这种类型的基础研究中,被试的随机取样和情境的代表性不是关键问题,因为这类研究的重点在于验证理论的普遍性。实际上,在用于验证理论的基础研究中,人为的环境条件是有意创设的,因为(正如前一章所描述的)这有助于把研究的关键变量从所要控制的无关变量中分离出来。因此,心理学实验“不像是真实的生活”这个事实其实是一种优势而非缺点。