意识智能体:大模型的下一个进化方向?:计算意识理论综述II
日期:2025-09-09 14:24:52 / 人气:7

导语
本文聚焦于AI意识,尤其是大型语言模型(LLM)是否具备意识以及AI意识的必要和充分条件。内容译自《Survey of Consciousness Theory from Computational Perspective——At the Dawn of Artificial General Intelligence》一文的第10章,关于第1 - 9章和第十一章可查看「通用人工智能的黎明:计算视角的意识理论综述」,同时集智开展了相关读书会。
1. 背景
大语言模型与意识思考
近年来,大型人工智能模型发展备受关注,人们开始思索其中是否存在意识。AI智能体属于一般计算智能体,AGI(通用人工智能)智能体是其中最强的,具备与人类兼容的智力能力,而要具有意识还需满足多个属性。本文主要讨论LLM,对模型语言进行意识评估更为直接。
LLM与哲学僵尸及缸中之脑
LLM与哲学僵尸思想实验相关,有时其生成的答案与人类结果高度一致,让人觉得它可能像人类一样有意识。然而,研究人员将LLM与缸中之脑思想实验相比较,认为LLM虽语言能力出色,但与现实世界脱节。它基于海量文本库中的模式生成反应,无法在符号(单词)和现实世界的实体之间建立联系,缺乏现实基础,这阻碍了其理解训练数据之外的新概念。并且,人类智慧和意识与感官体验及与世界的实际互动紧密相连,而LLM缺少创造新奇经验并转化为正式知识的最初行动过程。
关于LLM意识的观点与问题提出
David Chalmers在2022年11月28日的NeurIPS会议上演讲,认为当前LLM有很小几率(<10%)是有意识的。关于LLM意识,提出了一系列问题,如当前的LLM是否有意识及有无证据支持,建立有意识计算模型的原因,利用transformer架构和自我注意机制建立有意识的LLM是否理论上可行,以及建立有意识计算模型所需的必要组件等。
意识相关的模型能力
模型被视为有意识有几个关键方面,包括自我完善、自我改进和自我解释。自我完善是指LLM通过自我评价对自身产出提供反馈,并利用反馈完善产出;自我改进是LLM通过思维链提示和自我一致性评估,为无标签问题生成高置信度输出;自我解释是构建AGI系统的必要组成部分,要求智能体预测输出及其不确定性,还对输出的解释和对解释的自信有要求。若不能满足这些能力,会降低计算模型作为潜在意识模型的可信度。
2. 注意力机制
LLM中的注意力机制
大语言模型在语言建模任务中表现出色,采用Transformer架构,其中的注意力机制可捕捉复杂的语言依赖关系,让模型对输入序列的不同元素赋予不同程度的重要性,从而生成连贯且与上下文相关的语言。这些模型在语言翻译、文本生成等多种NLP任务中性能卓越,促进了语言理解,重塑了人机交互和信息检索的未来。
人工与生物注意力的联系与区别
生物注意力
生物注意机制具有感知注意(如视觉处理中选择性关注特定刺激,提高相关神经元信噪比,影响神经元局部活动和脑区交流)、好奇心是驱动力(新奇刺激吸引注意力,相关皮层通过适应机制减少对熟悉输入的反应)、解决注意力冲突(大脑有多种注意形式,视觉系统局部回路整合多种信号,水平连接介导竞争)、奖励的影响(获得过奖励的刺激即使不再提供奖励也会吸引注意力)以及生物注意力的局限性(分心虽看似是特征,但注意环境中的潜在威胁有益,注意闪烁现象存在)等特性。
人工注意力
人工注意力机制在NLP领域常见,早期用于翻译任务,如《注意力就是你所需要的一切》论文代表了重大转变,Transformer采用“自我注意”机制,对句子中的单词并行编码,生成注意力权重,简化了训练且性能优于以前的模型。注意力调配方面,尝试直接模仿生物注意力,如Scanpath模型预测人类的注意点,他人的注意力会影响注意力引导,强调联合注意力的重要性。
两者关系探讨
人工注意机制与生物注意机制在注意力机制、注意力内存、内隐统计学习、记忆检索、注意力与学习等方面存在关联与差异。生物注意力模型更具概念性,难以用计算机程序实现,机器学习领域研究人员应关注神经科学中的概念化注意力机制,为其建立计算模型。
3. LLM涌现智能的能力 - 图灵测试
图灵测试用于确认机器是否能表现出与人类无异的智能行为。虽该测试存在争议,但近期LLM取得成功后,人们发起了用图灵测试验证LLM的大规模社会实验,如“人类与否”实验。结果表明,被测试者分辨聊天对象是人工智能还是人类的正确率平均为68%,但未显示出LLM在图灵测试中的全部能力,因为人们区分时采用的策略多与对话者的智力水平无关,而是从其他角度对当前版本的LLM不利,这些训练偏差可通过改变训练过程解决,从而使图灵测试的LLM版本更强、更难与人类区分,由此认为LLM已非常接近甚至可能已经通过了图灵测试的智力水平。然而,镜像假说认为LLM可能只是反映对话者智力水平的镜子,该假说通过不同提示下模型答案的差异来证明,对话者自身的智力水平会影响LLMs,构成反向图灵测试。
4. 大语言模型的意识
人工意识相关理论与条件
对计算模型有意识的条件进行一般性讨论,分析Chalmers提出的人工系统具有意识的充分必要条件。人工意识分为意识的模拟(弱形式)和实例化(强形式),以往开发人工意识的工作基于意识理论建立计算模型,但模仿人类意识理论表述不能说明人工系统具有类似人类的意识,检验人工系统是否存在意识的标准仍是未决问题。
人工意识的充分条件和必要条件方面,Chalmers认为人工系统具有意识的充分条件是若一个计算模型具有X,那么它就是有意识的,但关键是确定X是什么,实践中更关注必要条件。如果一个计算模型是有意识的,那么它就会有X,观察到更多必要条件中的X会让我们更相信计算模型是有意识的,反之,若证明计算模型没有意识,若一个计算模型缺乏X,那么它就不是有意识的。
对LLM意识的具体探讨
自我报告
从肯定角度看,若计算模型满足所有必要条件,那么该模型很有可能是有意识的,必要条件包括自我报告/自我意识、貌似有知觉、对话能力和一般智力能力。对于自我报告,向ChatGPT询问其自身意识,其回答通常是否定的,但当提示句暗示其有意识时,GPT - 3.5声称有“模拟意识”,GPT - 4能坚持自己没有意识。自我报告未必是评价LLMs意识水平的良好标准,因为LLM的训练基于互联网数据统计证据,若大多数人确信LLM有意识,训练数据会支持这一观点,LLM就可能做出肯定回答,且自我报告验证有效的假设是LLM会忠实地报告自己,存在反例,所以自我报告能力并不构成模型意识的必要组成部分。
对LLM的人格评估
研究LLM的人格特征对揭开意识之谜有意义。多项研究采用不同方法和理论评估LLM的人格维度,如“机器人格量表”(MPI)、大五人格(Big Five)、Myers–Briggs类型指标(MBTI)等。结果表明ChatGPT可以评估人类的人格,但可能无法真正理解回答背后的逻辑,未来需深入探讨LLM回答背后的机制。镜像测试中,GPT - 4能通过,GPT - 3.5则不能,从镜像假说角度看,人格测试结果可能存在偏差,且对于LLM是否真的拥有真实人格存疑。
否定LLM有意识的证据
从否定的角度看,若计算模型有意识的必要条件不满足,则该模型没有意识。证伪有意识的计算模型的潜在条件包括缺乏生物学基础、感官和具身化、世界模型和自我模型、循环处理和记忆、全局工作空间、统一的能动性等。目前大多数LLM的架构存在争议,如Transformer模型不像递归神经网络那样明确维持递归处理组件,没有长期外部记忆,长时间对话中保持一致性的能力较差,没有明确的全局工作空间来选择信息流,且可能缺乏自我建模和统一的能动性,但并非所有意识理论都要求能动性。
最后推荐了集智俱乐部读书会「后ChatGPT时代:从通用人工智能到意识机器」中张江老师的讲座,以及「从神经动力学到意识:跨尺度计算、演化与涌现」读书会,该读书会跨越微观、介观与宏观视角,探讨意识与智能的跨尺度计算、演化与涌现,参与者可获得前沿视野、跨学科社区交流以及相关理论与工具。
作者:杏耀注册登录平台
新闻资讯 News
- 意识智能体:大模型的下一个进化...09-09
- 从马拉松女护士事件看职场归因与...09-09
- 基金费率改革攻坚,动了谁的蛋糕...09-09
- 特朗普宣布准备对俄实施第二阶段...09-09