第3章操作主义和本质主义——“但是，博士，这到底是什么意思？”

物理学家真正理解地心引力是什么吗？我的意思是真正。他们知道“地心引力”这个术语的真正含义是什么？它的内在本质是什么？说到地心引力时最终所要表达的意思是什么？说到底，它究竟是什么？

类似这样的问题反映了一种科学观点，哲学家波普尔称其为“本质主义”。这种观点认为：从内在本质或者本质属性的角度对现象做出最终解释，才算得上是好的科学理论。支持这种观点的人通常也相信，无法对现象做出最终解释的任何理论都是无用的，这样的理论不能反映真实的内在情况，不能反映世界存在方式的本质。本章，我们将讨论为什么科学不去回答本质主义者的问题，而是通过对概念进行操作性定义得以进步。

为什么科学家不是本质主义者

事实上，科学家并不企图获得本质主义者所追求的那类知识。从这一意义上讲，对于本章一开始提出的问题的正确回答是：科学家不知道地心引力是什么。科学并不试图回答关于宇宙的“终极”问题，彼得·米德瓦（Peter Medawar, 1984）曾写道：

（确实存在）那些科学不能回答并且在科学发展的可预见的范围之内也不可能得到答案的问题。比如那些孩子们会提出的问题——“终极问题”……我能想到的这样的问题有：世界是如何开始的？我们来到这世间是为了什么？生活的意义是什么？（p.66）

（然而，）即使科学不能回答终极问题，但也不意味着必须接受其他的答案；也不能理所当然地认为，既然这类终极问题能被提出，就一定能够被回答。就我们目前的理解力而言，这类问题是无从回答的。（p.60）

（但是，最终）就它能回答的那类问题而言，科学的潜力是无穷的……没有什么可以阻挡或中止科学的发展，除了诸如缺乏勇气之类的道德方面的缺陷。（p.86）

科学家之所以质疑那些自称为终极问题给出绝对答案的人、理论或者观念体系，一个原因就是科学家认为终极问题是无法回答的。科学家并不会宣称他们可以提供完美的知识；科学的独特优势并不在于它是一个不会犯错的过程，而在于它提供了一种消除错误的方式，它能不断消除我们认识中的错误。再者说，自称完美或绝对知识的主张及做法，却往往会阻碍人们的探索。自由而开放地探索知识是科学活动的一个先决条件。科学家们总是在怀疑那些号称已经找到问题最终答案的言论。

本质主义者喜欢咬文嚼字

本质主义者的态度通常有一种表现：在探求知识之前，过于关注术语或概念的定义。“但是我们必须首先界定我们的术语”是本质主义者常用的一个口号。“某理论性概念的真正含义是什么？”这种理念似乎意味着，当一个词被当做理论中的概念使用之前，我们必须对这个词的使用所涉及的所有潜在语言问题有一个全面而且清晰的理解。事实上，这正好与科学家的工作方式相反。在对物理世界开展研究之前，物理学家不会花费气力讨论如何使用“能量”一词，或者当我们讨论物质的基本组成时，“粒子”一词是否真正表达了我们要表达的本质含义。

在科学领域里，确定某概念的意义，是在与该术语有关的现象得到一定程度的研究之后，而非研究之前。一个精确的概念性术语来自科学过程中固有的那种数据和理论间的相互作用，而不是关于语言用法的辩论。本质主义者让我们陷入无休止的文字争论，而许多科学家坚信这样的文字游戏使我们脱离了事物的实质。例如，对于“生命一词的真正含义是什么”这个问题，两个生物学家的回答是“没有什么真正的含义，它只是足够好地满足我们生物学家工作需要的一种用法，并不是争论或辩驳的主题”（Medawar & Medawar, 1983, pp.66-67）。总之，科学家的目的是解释现象，而非对措词进行分析。在所有的科学学科里，进步的关键在于放弃本质主义，接受操作主义。这正是本章中我们探讨的主题。没有别的学科比心理学更能说明这个问题了。

操作主义者将概念和可观测事件联系在一起

那么，如果不是来自于语言文字的争论，科学中概念的含义又来自于哪里呢？正确使用某一科学概念的标准是什么？为了回答这些问题，我们必须讨论操作主义。它对于在科学领域中建构理论至关重要，尤其对于评估心理学中的理论及观念具有重要作用。

尽管操作主义形式多样，但是对于科学信息的使用者来说，用最广泛的思路去思考操作主义是最有效的。“操作主义”只是这样一种思想：科学理论里的概念必须立足于可观测事件，或与可观测事件相关联，而这些可观测事件是可以被测量的。将概念与可观测事件相联系的是概念的操作性定义，这使概念公开化了。操作性定义使得概念从个人化的感觉和直觉中分离出来，并且允许任何实施可测量操作的人对概念进行检验。

例如，把“饥饿”这个概念定义为“我胃里不好受的感觉”，并不是一个操作性定义，因为它与个人对于“不好受的感觉”的体验相联系，因此不能被其他观察者知悉。相反，涉及一些可测量的食物剥夺时间或者像血糖水平这样的生理指标的定义才是操作性的，因为它包含了任何人都可以实施的可观测的测量。同样，心理学家不同意将“焦虑”定义为“我不时会感到的不舒服和紧张”，而是必须用像问卷和生理指标测量这样的操作来定义概念。上述那个定义是个人对身体状况的解释，他人无法复制；而后者则是把概念放在公共科学领域进行解释。

在科学领域里，定义一个概念靠的是一系列操作，而非单独的行为事件或任务，意识到这点非常重要。相反，一些差别细微的任务和行为事件通常聚合在一个概念上（在第8章我们将会更多地讨论聚合性操作）。例如，教育心理学家根据利用诸如“伍德库克阅读能力量表”之类（Woodcock，1998）的标准化工具测得的成绩来定义“阅读能力”这个概念。该量表测出的阅读能力总分包含了一些不同分量表测得的能力指标。这些分量表测查的能力稍有不同，但全都与阅读相关。例如，阅读一篇文章、想出一个合适的单词在文章中填空、写出一个词的同义词、独立拼读一个较难的词，等等。所有这些任务上的表现综合地定义了“阅读能力”这个概念。

操作性定义促使我们认真地、经验性地思考我们如何定义一个概念，所谓经验性，是指要根据我们对真实世界的观察。试想我们要给一个看起来相当简单的概念“打字能力”下一个操作性定义。想象一下你这么做是为了比较两种打字教学方法的优劣。思考一下你所要做的所有决定。当然，你想要测量“打字速度”。但是要打多长的一段文章呢？仅有100个单词的文章可能太短，而10000个单词的文章又似乎太长。那么到底多长才算好呢？打字速度维持多久才最符合我们对打字能力这一概念的理论建构？用什么类型的文章来测试呢？文章是否要包含数字、公式和不常见的间距？我们如何处理错误？当我们测量打字能力的时候，时间和错误似乎都应被考虑在内，但是，如果把这两个指标同时考虑进去的话，要如何来计算一个总分呢？我们想要让时间和错误具有相同的权重，还是一个比另一个更重要？寻求一个好的操作性定义会迫使你认真考虑所有这一切；它会让你对如何将“打字能力”进行概念化做一番透彻的思考。

信度和效度

概念的操作性定义要想有用，必须同时具备信度和效度。信度是指测量工具的一致性。如果你对同一概念进行多次测评，是否能够得到相同的测量结果。信度的科学概念很容易理解，因为它与常识中的定义以及字典里的定义非常相似：“任何总能够产生相同结果的系统所具备的一种属性”。

试想一下，一个外行人士会如何评价一件事是否可信呢？想象一个每天早上要赶公共汽车从新泽西去曼哈顿上班的人。按照时间表，公共汽车每天应该在上午7:20到达此人等车的站点。在一个星期中，如果公共汽车到达的时间分别是7:20、7:21、7:20、7:19和7:20，那么我们就可以说在那一周汽车的到达时间是可信的，如果下周汽车到达的时间分别是7:35、7:10、7:45、7:55和7:05，那么我们就可以说在那一周汽车的到达时间是非常不可信的。

在科学领域中，一个操作性定义的信度以类似的方式来评估。如果我们多次测量同一概念得到的结果是近似的，那么我们就说测量工具表现出较高的信度。如果在同一星期的周一、周三和周五，用同一IQ测验的不同版本测量同一个人的智力，得到的分数分别是110、109、110, 那么我们可以说这一IQ测试是非常有信度的。相反，如果三个测试分数分别是89、130和105，那么我们就可以说这一IQ测试没有显示出高的信度。有一些专门的统计方法可以评估不同类型的测量工具的信度，所有标准的方法论入门教材中都有介绍。

但是请记住，信度仅仅是指前后一致，而不包括其他内容。对于一个操作性定义而言，仅有信度是不够的，信度是一个必要而非充分条件。作为一个好的操作性定义，操作必须被证明对于概念来说是有效的测量。“结构效度”这个术语是指一个测量工具（操作性定义）是否测量了它本应测量的内容。保罗·考兹比教授（Cozby, 2006）在其所著的方法论教材中为我们讲述了一个只有信度而没有效度的搞笑例子。假设你想测测自己的智力，测试者让你站到一个类似鞋码器的测试仪器上，然后仪器给出一个读数。当然，你会认为这是一个笑话。但是请注意，这个测量工具可以显示许多类型的信度，而这些信度在方法论教材中都会讨论到。这个仪器在星期一、星期三和星期五会呈现出相当一致的读数（这称之为“重测信度”），并且无论谁操作它，它都会给出一样的读数（称之为“评分者信度”）。

用鞋码器来测量智力，其问题不在于信度（这是有信度的），而在于效度。它不是一个测量它本应测量的概念（智力）的合理方式。断定它不是测量智力的有效方式的证据之一，就是我们发现它和其他一些被认为与智力相关的变量无关。鞋码器的测量结果与学业成就无关，与脑功能的神经生理学测量无关，与职场成功无关，与认知心理学家提出的信息加工效率的指标无关；相反，真正的智力测验与所有这一切都有关（Deary, 2000; Geary, 2005; Lubinski, 2004）。在心理学领域，真正的智力测验要兼顾效度与信度，而智力的鞋码器测验只有信度而没有效度。

在这一点上，你可能想知道信度和效度的其他组合方式是否可行。因此，让我来重申一下我们的立场。在操作性定义中，我们寻求信度和效度兼备，因此高信度和高效度结合才是理想的目标。我们刚刚讨论了鞋码的IQ测试，目的是论证高信度和低效度是没用的。第三种情况是低信度和低效度，这绝对没有用，因此不值得讨论。但是你可能想知道第四种，也就是最后一种可能的组合方式：如果高效度和低信度又怎么样呢？答案是，和低效度和高信度的例子（鞋码器例子）一样，这种组合也是没用的。事实上，更准确的说法是，这类情况压根儿不可能出现。因为，如果不能进行可信的测量，你根本无法宣称测量是有效的。

直接和间接的操作性定义

概念和可观测的操作之间的联系，在直接和间接性程度上变化很大。很少有科学概念几乎完全是通过可观测的操作来定义的。大部分概念的定义采用更为间接的方式。例如，一些概念的使用既取决于一系列的操作，又取决于它和其他概念之间的特殊关系。最后，还有一些概念不通过可观测的操作直接定义，而是通过它与另外一些概念间的关系来定义的。这种概念有时被称为“潜在概念”，在心理学中非常普遍。

举个例子来说，许多研究关注所谓的A型行为模式，因为它与冠心病的发病率有关（Austin & Deary, 2002；Curtis & O\' Keefe，2002; Matthews, 2005；Smith, 2003; Suls & Bunde, 2005）。在第8章中，我们将会更加详细地讨论A型行为模式。但是，这里重点要说的是，A型行为模式实际是通过一系列二级概念来定义的：强烈的竞争欲望、潜在的敌意、赶时间行为、达成目标的强烈驱力等等。然而，每一个用于界定A型行为模式特征的概念本身也都需要操作性定义。事实上，研究者们已经为对每个概念进行操作性定义而付出了很多努力。我们讨论的要点是，A型行为模式是一个复杂的概念，它并不是被操作所直接定义的。相反，该概念与其他一些各自具有操作性定义的概念联系在一起。A型行为模式提供了一个间接操作性定义的例子。尽管不同的概念与可观测操作的联系程度各有不同，但所有的概念都在一定程度上通过其与可观测操作之间的联系来获得意义。

科学概念的演进

一个科学概念的定义并不是固定不变的，而是随着相关观测结果的不断丰富而发生变化。意识到这一点非常重要。如果一个概念的原始操作性定义在理论上被证明是无效的，那么该定义就会被抛弃，以另外一套定义的操作取而代之。这样，随着相关知识的积累，科学概念不断演进，其抽象性逐渐增加。例如，在一段时间里，人们认为电子是一个围绕原子核旋转的带负电的微小球体。而如今，电子被视做在特定实验条件下，具有似波特性的概率密度函数。

在心理学领域，智力概念的发展提供了一个类似的例子。起先，智力仅有一个严格的操作性定义：智力是通过心理功能测验所测到的东西。随着实验证据的不断积累，智力被证明与学业成就、学习、脑损伤、神经生理学及其他行为和生物学变量有关，这一概念在逐渐丰富的同时又得到了提炼（Deary, 2000, 2001; Geary, 2005; Lubinski, 2004; Sternberg, 2000; Sternberg & Grigorenko, 2002; Sternberg & Kaufman, 1998; Unsworth & Engle, 2005）。现在看来，在定义智力概念时，最好用一种高等级的建构，通过多种更为具体的信息加工操作来定义。当然，这些假设的信息加工过程应该具备更为直接的操作性定义，可以用可测量的指标来表述。

人类记忆理论中的概念也以同样的方式发展。现代心理学家很少使用类似“记忆”或“遗忘”这样的笼统概念；相反，他们测量那些可以进行明确定义的记忆子过程，如短时听觉记忆、符号存储、语义记忆以及情景记忆。传统的“记忆”或“遗忘”的概念通过更加明确的操作性概念得到了细化。

因此，理论术语的用法在科学实践中不断演进，而不是在针对文字意义的争论中获得发展。这是科学的操作态度和本质主义者在追求绝对定义之间最显著的区别。神经病学家诺曼·格什温德（Geschwind, 1985）将这种区别描述如下：“我认为，从医学发展的历史中，你能够了解一件事，那就是：许多人认为，研究一个问题的方式就是首先定义这个问题然后再去研究它。这种想法被一次次地证明是错误的，因为你发现，只有先知道了答案，才能正确定义问题”（p.15）。

哲学家保罗·邱吉兰德（Churchland, 1988）强调，在科学中，对概念的定义不是源于文字界定，而是源于与之相关的观察和其他概念：

要想完全理解“电场”这个概念，我们就必须熟悉这一表述所处的理论原则体系，它们会共同告诉我们，电场是什么、做什么。这是一个典型的例子。通常来讲，理论性术语的意义不是从单一的、具体描述其所适用的必要充分条件的定义中获得的，它们往往通过所在的理论原则体系而被间接地定义。（p.56）

随着科学概念的演进，概念常常与许多不同的理论体系交织在一起，并且获得多种操作性定义。这种情况的出现并不是因为概念本身出了问题。例如，许多人认为心理学不可信，因为心理学中许多重要的理论概念——例如智力，可以用不止一种方法来操作化和概念化（Sternberg, 2000）。但这种情形并非心理学所独有，也不是一件令人绝望或束手无策的事情。事实上，在科学领域里，这种情况是普遍存在的。例如，“热”既可以从热力学理论，也可以从动力学理论的角度来概念化。物理学并未因此遭到贬斥。想想电子，它的许多特性都是以波的概念来解释的。可是，如果将其视为粒子，它的另外一些属性则更好理解。到目前为止，还没有一个人会因为物理学中存在着这些多重概念化现象就提出要抛弃它。

心理学领域的操作性定义

许多人在思考物理学或化学的时候，能够理解操作主义的必要性。他们知道，如果科学家准备谈论某一类型的化学反应、能量或者磁场，就必须有相应的方法来测量。不幸的是，当人们谈到心理学的时候，却经常无法认识到操作主义的必要性。为什么人们没有同样地认识到这一显而易见的事实：为了成为科学理论中有用的解释体系，心理学术语必须被直接或间接地操作化定义？

人们对心理学产生误解的原因之一，就是心理学上所说的“预设偏见”。在第1章中我们提到过这个问题。人们不会出于执着于某种关于岩石性质的信念来研究地质学，而在心理学中，情况就大为不同了。我们每个人都有关于人格和人类行为的直觉理论，我们用它们来“解释”我们自己以及其他人的行为。我们所有的个人心理学理论里都包含着理论性概念（例如聪明、攻击和焦虑）。因此很自然人们会发问：为何我们必须接受一些其他的定义。尽管这种态度从表面上看来是合理的，但对于任何致力于理解人类行为的科学来说，它都是一个巨大障碍，也是公众对心理学产生困惑的一个原因。

误解产生的最主要原因，也即媒体在准确呈现心理学成果方面最大的障碍，这就是，心理学中的许多专业概念都是用日常用语来表达的。这些日常用语为大量误解的传播敞开了大门。外行人很少意识到，当心理学家把“智力”、“焦虑”、“攻击”、“依恋”等词语当作理论性概念来使用时，它们的含义和大众平常所说的意思不一定相同。

从之前关于操作主义的讨论中就能看出这种区别的本质。当在心理学理论中使用如“智力”、“焦虑”这些术语时，它们直接或间接的操作性定义决定了它们的正确用法。那些定义常常具有高度技术性，通常具有特定意义，并且在许多方面都不同于这些术语在日常生活中的运用。例如，当我们听到“对大样本的认知任务进行因素分析所得到的第一个主成分”这段话时，许多人都意识不到它是术语“智力”的操作性定义。

同样，如果是外行人使用术语“抑郁”，那么就意味着“感觉糟透了”。相反，在《精神疾病诊断与统计手册》（Diagnostic and Statistical Manual of Mental Disorders）中，对抑郁症的专门定义占用了超过12页的篇幅（American Psychiatric Association, 1994），并且与“感觉糟透了”有着很大的区别。临床心理学家所谓的抑郁，并不等同于外行人所说的抑郁（Hollon, Thase, & Markowitz, 2002）。在其他科学领域也都存在同样的问题，尽管可能没有心理学这么严重。回想一下前面对“生命”概念的讨论。正如米德瓦等（1983）指出的，问题在于，像科学中的其他专业术语一样，“生命”一词出自人们的日常用语，但在科学场合中的含义已远不同于日常谈话中的用法（p.66）。

物理学家丽萨·兰道（Randall，2005）曾讨论过这类问题如何阻碍了公众对物理学的理解。她指出爱因斯坦相对论中的“相对性”一词被公众理解为“绝对是不存在的，因为任何事物都是相对的”，而事实上，该理论的意思正好相反！兰道指出，实际上爱因斯坦的相对论认为：“尽管测量的实施者在测量时需要依赖他的参考物和参考系，但事实上他所测量的物理现象总有一个恒定的属性，这一属性超越了观察者的特定参考系”。爱因斯坦的相对论实际上是寻找物理现象的恒定属性的。事实上，爱因斯坦也认为他的这一理论如果被命名为“恒定论”会更加贴切。但是，“相对性”一词的地位在当时已经太过深入人心而难以改变了（p.13）。

兰道继续指出，即使在物理学中，“模糊的词语选择也是造成某些误解的根源，科学家经常使用一些口语化的术语。他们为这些用语赋予特定意义，但没有经过正规训练的人是不可能想到这种意义的”（p.13）。在心理学里也是如此。当心理学家和外行人用同一词语来表达不同含义的时候，他们之间常常产生误解。如果有新的词语产生出来用以描述心理概念，这样的困扰可能会少一些。有时会有这样的词语出现，正如物理学家有了“尔格”和“焦耳”一样，心理学家有了“失调”和“编码”，这些词不是凭空编造的，但在日常用语中比较生僻，从而可以防止混淆。

“但是，”外行人可能提出这样的反对，“为什么心理学家这样折磨我们？为什么有这么多新的术语、高度专业性的定义、生僻的词语？为什么我们需要这些？为什么我对‘智力’概念的定义得不到他们的认可呢？”

在这里，我们来看一个对心理学研究有严重误解的例子——这一误解经常出现在关于心理学研究的媒体报道中。一份全国性的报纸以“你能用一般人听得懂的话重新说一遍吗？”为标题报道了1996年美国心理学会的一次会议，并说“心理学家所用的语言只有他们自己能听懂”。该文嘲讽了在会上报告的一份题为《用Gf-Gc理论解释对和KAIT的联合因素分析》的论文。尽管记者表示他“不敢贸然猜测这个标题的真正意思”，但几乎所有接受过培训的心理学家都能理解这个标题是有关智力测验理论方面新进展的。的确如此。Gf-Gc理论是智力理论方面的一个技术性进展，记者没有理由听到过这个概念——就如同我们不会期望该记者知道物理学家最近刚发现的一种基本粒子的细节一样。可是，有时候，记者对科学术语的无知（这是完全可以理解的）却对现代心理学造成了负面影响。

我们来看看问题的症结所在。解决它的第一步，就是强调我们已经讨论过的一个观点：操作主义不是心理学所独有的，它是所有科学门类的特征。大多数情况下，我们很容易接受它，理解它的显而易见的本质。如果一个科学家是研究放射性的，我们会理所当然地认为他肯定有办法测量此种现象——其他研究者也能使用该方法获得相同的结果。操作定义因此导致科学的公开化，而公开化是科学的关键特征之一。如果两个科学家对同一个操作性定义达成一致，其中一个人就可以用它去复制另一个人的结果。但是，在其他情况下看来显而易见的事情，在我们谈到心理学的时候却不怎么明晰了。人们经常意识不到“智力”和“焦虑”这些概念的操作性定义的必要性，因为我们总是在使用这些术语，难道我们还不“知道”它们是什么意思吗？

答案是：“是的，我们确实不知道它们是什么意思”——不是从科学家必须知道的意义上，而是从公众的意义上。一个科学家必须通过如下方式“知道”智力是什么意思：他必须精确地定义一种方法，使其他实验者能够以完全相同的方法测量这一概念，并且得到有关此概念的相同结论。就其明确性和精确性来说，这与日常交谈中为了实现相互理解而使用的模糊语言间有很大差别。

作为人性化力量的操作主义

如果过分依赖于我们“知道”的东西，肯定会产生问题，这个问题同样困扰着所有的直觉（非经验）信仰体系。关于某个事物你所“知道”的和张三、李四所知道的可能并不一样，我们如何决定谁是正确的呢？你或许会说“我强烈地感觉到我所知道的是正确的”，但是，如果张三的观点和你有出入，但比你拥有更强烈的感受呢？李四的观点与你俩都不同，也宣称自己是正确的，因为他的感受甚至比张三还要强烈。

讲这个简单的小段子，仅仅是想阐述科学知识的一个基本特点，它在人类历史中是一股重要的人性化力量：在科学中，知识的正确与否并不取决于个体提出主张时自己的肯定程度。所有建立在“直觉”基础上的信念体系都有一个共同的问题，即当出现矛盾观点时，它们缺乏一种机制来判别哪个是对的，哪个是错的。因为人人都凭直觉认为自己是对的，但当大家的直觉观点发生冲突时，我们该如何决定谁正确呢？令人悲哀的是，历史表明，这种冲突的结果通常是权力斗争。

一些人错误地宣称，心理学的操作取向使人们丧失了人性，而且我们应该把我们关于人类的观点建立在直觉基础之上。心理学家唐纳德·布罗德本特（Donald Broadbent）在1973年论证说，真正人性化的观点是将关于人类的理论观点建立在可观测的行为基础上，而不是以理论者的直觉为基础：

除非我亲眼看到别人在特定情况下亲自做了或说了什么，否则无法对别人做出判断……实证主义的方法是一种调和差异的方式。如果拒绝这一方式，那么处理争论的唯一方式就是面红耳赤的争辩了。（p.206）

因此，科学中人性化的力量就是让知识公开化，让任何有冲突的观点都能以一种双方都接受的方式得以检验。回想第1章中提到的“重复”的概念。这让我们可以通过一种大家都事先同意的、平和的方式来从理论中进行选择。科学的公共性本质在很大程度上依赖于操作主义的理念。通过对概念操作化的界定，概念进入了公共的领域——任何人都可以对其进行批判、验证、改进或否定。

心理学概念不能以某些人的个人定义为基础，因为这类定义可能是不常见的、个人化的或者模糊的。由于这个原因，心理学必须摒弃所有对概念所做出的个人化定义（就像物理学拒绝对能量的个人化定义，气象学拒绝对云的个人化定义），而坚持公众可以知悉的定义，这种定义用操作来界定概念，并确保了任何一个接受过适当训练并拥有适当设备的人都可以实施这些操作。就摒弃个人化定义而言，心理学并没有将外行人拒之门外，而是将这一领域向公众敞开，就像所有学科那样，以期寻求所有人都可以共享的、普遍的、公众可以利用的知识。

只有当概念以操作性定义为基础，并且不关注于本质主义者所讨论的文字意义时，这类具有公众可用性的知识才能够用来解决人类的问题。例如，蒙克（Monk，1990）描述了二战期间“创伤性休克”这个概念是如何在医学领域产生问题的。一些医师对此症状的诊断依据是过高的血红细胞浓度，并认为其原因在于血液中的血浆渗透到了组织中。其他医师诊断“创伤性休克”则根据低血压、皮肤苍白和脉搏过速。换言之，医生们对这一概念的操作性定义是不一致的（甚至是带有个人色彩的），因此，英国医学研究会的格兰特（Grant）医生建议说，“创伤性休克”这个概念应该被抛弃，并且对伤者进行详细观察时也不使用这个术语……由于在诊断方面缺乏共同的基础，无法对各种治疗措施的效果进行评估”（Monk, 1990, pp.445-446）。换句话说，这种概念弊大于利，因为缺乏一个获得普遍认同的定义使之成为公共知识（也就是被广泛地分享与认同）。

有时候，在科学领域中，概念意义的改变会导致对这一概念的科学理解与外行人士的理解产生冲突。法伯和邱吉兰德（Farber & Churchland, 1995）讨论过一个关于“火”这一概念的情况。经典的概念是这样定义火的：“不仅是含碳物质的燃烧，而且还包含了太阳及各种星体上的活动（实际是核聚变）、闪电（实际上是电引起的白热化现象）、北极光（实际是光谱发射）、萤火虫的闪光（实际上是发出磷光）。在现代概念体系中，这些现象都与氧化无关，因此和木材燃烧不属于同一类型。另外，有一些现象原本认为是与燃烧没有任何关系（由于那时放热被认为是燃烧的本质特征）的过程——如生锈、锈蚀和新陈代谢——却被证实属于氧化现象”（p.1296）。总之，氧化的原则使得篝火和生锈联系了起来，而将闪电与它们区分开来。对于科学家而言，这也许是一个进步的标志，但却让外行人士感到迷惑和无所适从了。

本质主义问题和对心理学的误解

许多人在接触心理学时放弃操作主义观点的另一个原因是，他们想为这些问题找出本质主义的答案。这样做到底是因为心理学新近才从哲学中分离出来，还是因为公众对心理学了解得比其他学科少，尚不得而知。然而从某种意义上讲，这并不重要。最终的结果是一样的。人们期望心理学可以就其他学科所不能回答的这些复杂问题给出终极答案。

回想本章开头提出的问题：“地心引力”这个术语的真正含义是什么？它的内在本质是什么？在谈到地心引力一词时，我们到底指的是什么呢？大部分人认为这些问题需要绝对性的知识，需要理解现象的潜在本质，而物理学当前的理论不能对这类问题提供答案。对关于物理科学近几百年来发展的通俗读物比较熟悉的人都能意识到，地心引力是一个高度复杂的理论建构，并且其概念性和操作性关系也处在不断变化之中。

可是，如果将上述问题中的“地心引力”全都换成“智力”，奇迹就出现了。现在那些问题立刻被赋予了重大意义。它们看起来是那么自然和富有深意，它们就是在寻求一个终极答案。可是当心理学家给出和物理学家一样的答案，即“智力是一个复杂的概念，它的意义是由测量它的操作以及它与其他概念之间的理论关系来界定的”时，却会被鄙视和指责为回避真实问题。

心理学所面临的一个难题就是，公众要求心理学去回答本质主义问题，而通常其他科学家并不需要回答类似的问题。这类要求常常导致人们贬低心理学领域已经取得的进步。尽管这类要求不能阻止这一领域自身的发展——因为就像其他科学家一样，心理学家无视本质主义问题并继续他们的工作，但那些问题成了公众理解心理学的障碍。当一个不了解情况的批评家声称心理学没有取得进步时，公众就会迷惑了。这类责难极少遇到挑战，这也反映了本书序言中所述的不幸事实：对于心理学领域所取得的科学成就及其意义，公众的了解是极度匮乏的。当我们仔细审视那些对心理学的批评，不难发现它们通常归结于一点：心理学至今没有为它提出的问题提供终极答案。对于这种指责，心理学毫不犹豫地低头认罪——像所有其他科学学科一样。

一些人可能会很不舒服地发现，包括心理学在内，没有任何科学可以对本质主义问题做出回答。霍尔顿和罗勒（Holton & Rolkr，1958）讨论过，当外行人被告知物理学不能够回答本质主义问题时所表现出的那种不安。他们谈论的是与放射性衰变有关的现象：发生衰变的放射性元素的原子数量与时间是呈指数函数关系的。可是，这种函数并不能解释为什么放射性衰变现象会发生。这个问题的解决将可能再次涉及另一个数学函数，但是它还是不能告诉外行人什么是真正的放射性衰变。霍尔顿和罗勒告诉我们：“我们必须平静地接受现代科学的局限性，它并没有声称可以发现‘事物究竟是什么’”（pp.219-220）。科学作家罗伯特·怀特（Wright，1988）解释说：

伊萨克·牛顿的地心引力理论有些地方不尽人意……毕竟，“在一定距离外作用”如何实现？牛顿回避了这样的问题……自从牛顿开始，物理学家们一直在仿效他的做法……物理学家们不再尝试解释为什么事物必须遵守电磁学规律或地心引力规律。（p.61）

同样，如果那些为人类本性问题寻求本质主义答案的人求诸于心理学，注定将会失望。心理学不是宗教，它是一个试图对所有行为做出科学解释的广阔领域。因此，心理学现在的解释是对行为的暂时性的理论建构，就目前来说，这些建构在解释行为方面优于其他解释。这些建构在将来注定会被更好的、更接近事实的理论概念体系所取代。

操作主义和心理学问题的措辞

在评估一个心理学理论的可证伪性时，操作性定义的理念是一个非常有用的工具。概念有没有直接或间接地建立在可观测操作的基础上，是识别不可证伪的理论的重要线索。没有建立在可观测操作基础之上的概念，通常是为了拯救那些不能被数据印证的理论。所以，那些不严格的概念——理论学家不能为它们提供直接或间接的操作性联系——都应该引起怀疑。

与之相关的是科学家称之为“节省”的原则。节省原则是指，当两个理论有同样的解释能力的时候，较为简单的理论（涉及更少的概念和概念性关联）胜出。原因是，拥有较少概念性关联的理论在将来的检验中会更具可证伪性。

深刻理解操作主义的原则，也有助于我们识别不具备科学意义的问题。例如，在我的电脑文件夹里，有一篇来自于国际联合出版社的在线服务文章，标题为《动物会思考吗？》。这篇文章讲述了动物行为方面最新的实验。文章中所引述的研究没有任何错误，但是，显然这个标题仅仅是一个玩笑。这个标题的问题在于没有科学意义，没有关于“思考”的操作性标准。许多报纸的标题中存在类似的问题，比如“计算机会思考吗？”没有操作性标准的话，这个问题也没有科学意义，但在鸡尾酒会上倒是可以大派用场。

实际上，观察人们在后面这个问题上的争论具有启发意义，因为这样的一个争论为我们亲眼见证先前讨论过的心理学中的“预设偏见”问题提供了机会。大部分人都有一个强烈的预设偏见，不希望计算机能够思考，为什么呢？出于各种原因，外行人认为“思考”这个概念与“人类”这个概念紧密联系，许多人在情感上不能接受非人类的物体（例如，计算机或看起来不像地球人类的外星生命形式）也能思考。

可是，尽管大部分人对会思考的计算机这一设想表示强烈反对，但他们并没有认真思考这一问题，也没有对“思考”做出一个更好的定义，使其能包含大部分人类（例如，婴儿）而排除所有计算机。有时，那些不熟悉人工智能进展的人提出的定义听起来颇为滑稽，因为他们总是选择了计算机能够做的事情作为标准。例如，许多人提出以“从经验中学习的能力”为标准，但一些计算机和人工智能已经达到这个标准了（Churchland，1995; Clark, 2001; Mc Corduck, 2004; Pfeifer & Scheier, 1999）。预设偏见的力量在这种情况下显而易见。会有人这样反应吗？“哦，我不知道。既然有些计算机符合我提出的‘思考’的标准，那么我不得不说至少有些计算机是能够思考的吧！”通常大家是不会做出这样理智而诚实的反应的。更常见的情况是，人们开始寻找另一种标准，并期望计算机不能满足该标准。

通常人们的第二选择是“创造性”（“想出一些有用而且没有人想到过的东西”——我们先不管大部分人是否满足这个标准）。当被告知大多数专家都认可计算机能够达到这个标准时（Boden, 2003；Pfeifer & Scheier, 1999），人们仍然不愿承认机器思考的可能性。人们常常不会想到要做出一个操作性定义，转而提出计算机是不可能思考的，因为“是人类制造了计算机并且设计了程序；计算机只是执行程序而已”。

尽管这是反对机器思考的最古老的观点之一（Mc Corduck，2004, Robinson, 1992; Woo Uey, 2000），但它还是错误的。预设偏见让许多人认识不到，这些辩解与要讨论的问题毫不相干。几乎每一个人都认为思考是发生在自然世界中的一个过程。现在请注意，我们在讨论其他过程时，并不涉及“起源”的问题。考虑一下食物加热的过程。想想这个问题：“炉子能加热吗？”我们会说：“炉子不能加热，因为炉子是被人类制造出来的。因此只能说是‘人’在加热。真正加热的不是炉子。”或者，什么是“举重”？起重机能“举重”吗？我们的答案是否仍旧为“起重机不会举重，因为起重机是由人造出来的。因此，我们只能说是‘人’在举重。起重机真的不能举重”？当然不能这样说。一些事物的起源与它执行某一特定任务的能力是完全不相关的。思考的过程也是如此。一个事物能否思考并不依赖于这个事物的起源。

因为人们无法理性地接受机器有思考的能力，著名的计算机科学家艾伦·图灵（Alan Turing）设计出著名的“计算机能否思考”的实验。图灵设计的实验是一个操作性的实验，这对于我们的讨论是非常重要的。1950年，图灵在题为《计算机器与智能》的著名文章中写道，“我建议去考虑‘机器可以思考吗？’这个问题。”他不想在鸡尾酒会那样的场合随意谈论这个问题，也不想如本质主义者那样无休止地讨论“思考”是什么意思，而是提出一个严格的操作性测试。他的想法是：如果计算机能够进行智能对话的话，那么就可以说它是有思考能力的。

图灵这一设想中的创造性在于，他提出一种方式将问题变得可操作化，同时又防止了“预设偏见”的干扰。图灵对于检验计算机是否可以进行智能对话的测试逻辑进行了严格的限定。这个测试并不是让测试者通过键盘和屏幕与计算机互动，然后由测试者判断计算机有没有进行智能对话。图灵没有采用这种设计，因为他很担心“预设偏见”的干扰。图灵确信，一旦一个人坐到计算机、键盘和屏幕（显然是一些机器）之前，无论这个机器做什么，这个人都会否认它有思考能力。因此，图灵提出应控制与思考能力无关的外在因素。其著名的实验设计是让测试者通过两个键盘对话（一个和计算机相连，另一个和人相连，并且都在视线之外），然后再判断哪个是人，哪个是机器。如果被试不能以大于随机水平的正确率猜出哪一个是人，那么我们就有理由推断计算机具有同人一样的对话能力，而对话能力正是“思考”的操作性定义。

图灵的主要思路“与交响乐团选拔乐师的试听面试的思路是一样的，试听面试时，在评委与面试乐师之间放置一个不透明的屏幕，前者要隔着这个屏幕来判断乐师演奏的好坏。很显然，评委关心的是音乐能力，而且也仅仅是音乐能力而已。性别、头发的长度、皮肤颜色和体重等都是完全不相关的……图灵认为，人们对智力的判断可能同样受到对方是否拥有柔软的皮肤、温热的血液、面部特征、手和眼睛等那些明显不是智力本质的因素的影响”。（Dennett, 1998, p.5）图灵的测试启发我们，如果我们想要理性地讨论心理学概念，那么操作性定义是必需的；我们要以一种有条理的方式进行判断，而不仅仅根据我们自己对某个问题的偏见。

观察人们讨论人工智能问题时所展示的思维方式，就能发现科学和非科学思维方式之间的区别。科学的方式是先发展一种合理的操作性定义，然后看我们可以从中得出哪些关于思考、计算机和人类的结论。与之不同的是，预设偏见主导了大多数人的思维。他们已经得出了某一结论，并且对于计算机和人类的表现之间已被发现的差异并不感兴趣。相反，一旦形成定势，他们就会绞尽脑汁地去找出各种理由，来巩固自己的这些想法，避免发生改变。于是，我们看到，正是预设偏见和非操作性的本质主义态度，让人们认定他们“就是知道”思维到底是怎么回事。这种态度使大多数人的直觉心理理论无法证伪，因此完全无用。也正是这种态度说明了为什么我们需要科学心理学！

小结

操作性定义是利用可测量、可观察的操作来表述的概念定义。我们确信某个理论具有可证伪性的主要途径之一，就是确定理论中的关键概念具备可用可重复性很强的行为观察来表述的操作性定义。操作性定义是让科学知识变得公开可检验的主要机制。这样的定义被置于公共领域，使其所界定的理论性概念能够接受所有人的检验，而不是像“直觉的”、非经验性的定义那样，只属于特定个体，检验它的机会并不向所有人开放。

由于心理学使用一些来源于日常生活的词语，如智力和焦虑，许多人对于这些术语的含义有着预设的想法，因此往往意识不到对这些术语进行操作性定义的必要性。心理学和所有其他科学门类一样，也需要对其术语进行操作性定义。可是，人们常常要求心理学家回答本质主义的问题（有关概念的纯粹深层本质的问题），而其他科学家就不必回答这类问题。没有科学能够回答这样的终极问题。心理学和其他科学门类一样，正在试图不断地完善其操作性定义，使理论概念能够更加准确地反映真实世界的原貌。

第3章 操作主义和本质主义——“但是，博士，这到底是什么意思？”