一个待解决的 bug:「智能」缺一个定义

1950 年,图灵面对一个工程难题:如果造出会思考的机器,怎么判断它真在「思考」?

「思考」「理解」「意识」都是黑箱内部状态,无法直接观测。图灵的方案极其工程化——绕开内部状态,只测行为。这就是图灵测试(模仿游戏):若一台机器在文字对话中能让人类裁判无法把它与真人区分开,我们就没有理由拒绝说它「会思考」。

这是一次漂亮的接口抽象:把「智能」从形而上学问题降级为可操作、可压力测试的黑箱接口,输入输出达标即可,内部实现不予追究。它在哲学上对应功能主义(Functionalism)——心理状态由其功能角色(输入、输出、与其他状态的因果关系)定义,而非由物理基质定义。「痛」就是「由损伤触发、引起躲避和呻吟」的那个功能态;它跑在碳基神经元还是硅基电路上,无关紧要。

塞尔的反例:句法骗过了图灵,却骗不过理解

1980 年,塞尔在《心灵、大脑与程序》中对这套抽象做了一次精准的反驳,构造出中文房间

设想我(完全不懂中文)被锁在房间里,手握一本英文规则手册。门缝塞进写满中文符号的纸条,我按手册查表:「见到这串符号,回写那串符号」。我对符号毫无理解,纯做形状匹配。但只要手册足够好,房外的中文母语者会确信房里坐着一个懂中文的人。

这个房间通过了图灵测试。塞尔反问:房间里有谁理解中文? 我不懂——只在搬符号;手册不懂——它是死纸;整体也不懂——它只是「我 + 纸」。系统执行了完美的句法操作,却没有任何一处掌握语义。

论证内核可压缩成一行:

句法(syntax)不足以产生语义(semantics)。

形式符号操作只关心符号的形状变换规则,而理解关心符号指向什么。程序本质是纯句法的:它规定符号如何变换,却从不规定符号「意味着」什么。所以无论程序多复杂、表现多逼真,运行程序本身永远跨不过从句法到语义那道坎。这是塞尔对强人工智能(主张「正确编程的计算机即拥有心灵」)打下的一个否决补丁——注意他并不否认机器能有智能行为,他否认的是「程序 = 心灵」。

压力测试:系统回应与当代 LLM

中文房间并非无懈可击。最有力的反驳是系统回应(Systems Reply):你(CPU)确实不懂中文,但**「你 + 手册 + 纸笔 + 房间」这个完整系统懂——正如单个神经元不懂中文,而整个大脑懂。塞尔的反击是「把手册全部背下,在野外操作」,消去房间、让系统内化进一个人脑,他坚称此时仍无理解。但这一步是否合法,至今争议未决——一个未关闭的边界 case**。

把压力测试推到今天,张力被拉满。大语言模型在受限对话中已能骗过不少裁判,甚至显现出训练目标之外、被称作涌现(emergence)的行为(这一说法本身仍有争议)。但从架构看,LLM 干的恰是中文房间的事:在语料统计规律下做下一个 token 的概率预测——一种极精巧的符号变换。老问题原封不动复活:

  • 功能主义者说:理解就是把功能角色扮演到位;若系统在所有任务上的行为与理解者无法区分,「它其实不懂」便是不可验证、因而空洞的断言。
  • 塞尔(生物自然主义,Biological Naturalism)说:意识与理解是大脑特定生物因果力的产物,是被「生成」的,不是被「实现」的;硅基符号搬运再像,也只是在模拟理解,如同气象程序模拟暴雨却不会把人淋湿。

难问题:测试覆盖不到的盲区

更深的裂缝由查默斯(Chalmers)指出。智能的多数问题是易问题(easy problems):信息如何整合、注意如何分配、行为如何生成——原则上都能用功能机制解释。但还剩一个难问题(Hard Problem)

为什么这些信息处理会伴随主观体验?为什么「红」不只是触发了一组分类输出,还**「感觉起来是那样」**?

图灵测试、行为、功能角色,覆盖的全是易问题。哪怕造出行为上完美的智能体,它内部是否「亮着灯」(有第一人称体验,即 qualia),仍是行为测试无法触达的盲区。这是一道目前没有任何理论给出收敛解的开放边界。

小结:一个尚未关闭的 issue

理一遍版本演进:图灵把智能抽象成可测的行为接口;塞尔用中文房间证明通过接口 ≠ 拥有内部语义(句法 ≠ 语义);当代 LLM 把这道反例摆进现实工程层;查默斯则指出,最硬的那块——主观体验——可能根本不在行为测试的覆盖范围内

东方早有一条平行直觉。庄子「子非鱼,安知鱼之乐」点破了从外部行为推断内部心灵的根本不可达;禅宗「如人饮水,冷暖自知」则把体验刻画成只能亲证、不可外传的第一人称事实——与难问题遥相呼应。无论东西,落点一致:我们能从外部完整验证一个系统的「行为」,却无法从外部登录进它的「体验」。 强 AI 能否有意识,至今是一个仍然开放、未被关闭的 issue