- N +

具身智能的哲学反思③|吴静:智能正义视角下的具身智能

近期,大模型和人形机器人备受社会各界关注,很多人在思考:如何让二者有效“融合”切实推动具身智能的发展?顾名思义,具身智能是具有“身体”的人工智能。具身智能为大模型的应用提供了更广阔的平台,使之从“赛博空间”走向物理世界;具身智能让机器人变得更“聪明”,与人类的交流更为顺畅。具身智能的发展给哲学反思带来不少挑战,本组笔谈聚焦具身智能的定义、本质特征、类型和实现的可能性等基本理论问题,以期推动该领域研究的进一步发展。吴静认为,具身智能的发展不仅需要有效改变现有大模型发展路径的离身限制,还必须能够构建更具有智能正义的世界模型。

本系列文章原刊《福建论坛(人文社会科学版)》2025年第4期,澎湃新闻经授权转载。

【摘要】基于认知计算主义的生成式人工智能虽然取得了巨大进展,但其忽视具体语境和模拟信息的底层逻辑也造成了很多隐患。在对其进行反思的基础上,具身智能理念应运而生。具身智能中的“身体”并非人类肉身,而是能获取感性经验的实体,它试图重塑人工智能理解世界的模式,但依然面临身体如何构建的难题。空间智能作为具身智能的一个阶段,通过视觉标注为三维空间建模,连接物理与数字世界。然而其发展也面临三大挑战:一是泛化困难,需要跨越“语义鸿沟”;二是以视觉中心主义为基础的图像标注体系缺乏多样性;三是人类的视觉空间认知模型与智能体身体多样性可能相悖。因此,具身智能的发展需要哲学与技术的协同合作,以构建更合理的空间认知和世界模型,实现智能正义。

引言

当下,无论是OpenAI推出的GPT、Sora,还是谷歌研发的Gemini、Gemma,以及那些被称作多模态大模型的生成式人工智能,大多是围绕脱离具体语境信息构建的符号系统展开处理。这种发展路径的背后有着欧美流行的认知计算主义的理论支撑,其底层逻辑认为数字信息的价值远高于与实际场景紧密相连的模拟信息。认知计算主义认为,人类的认知就像计算机的计算过程,是对抽象符号的操作。在这种观念下,数字信息因其具有精确性、可编码性和便于计算处理的特点,被视为具有更高的价值。例如,在计算机程序中,所有的数据都被转化为二进制数字进行存储和运算,这种数字化的表示方式使信息处理变得高效和准确;在人工智能研发中,人们倾向于将各种信息——无论是文本、图像还是声音——都转化为数字形式的符号,然后通过复杂的算法进行处理。

在生成式人工智能的发展历程中,这种基于认知计算主义的发展路径取得了显著的成果,如GPT系列在自然语言处理任务上表现出色,能够生成连贯的文本、进行智能问答,而谷歌的图像生成技术也能创造出逼真的图像作品。但由于忽视了具体语境和模拟信息,生成的内容可能出现不符合实际场景的情况,缺乏真实世界的“常识”。这种信息实体论不仅重塑了人们对现实的认知,还使得人工智能技术的研发过度聚焦于人类过往的经验文本(如文字、影像、图表等),却忽视了具身智能交互性的发展。

早在1986年,罗德尼·布鲁克斯就从控制论的专业视角出发,指出智能应当是具身化、情境化的。他认为,传统的以信息表征为核心的经典人工智能发展路径存在着偏差,想要突破这种信息表征带来的局限,就需要制造出基于实际行为获取信息的机器人。苏黎世大学人工智能实验室的前主任罗尔夫.普菲弗和加拿大佛蒙特大学的乔希.邦加德进一步提出,通过强化智能体“身体”与外部环境的交互,可以建立全新的学习反馈机制,以此来塑造出更能适应复杂世界的智能。那么,“身体”对于人工智能到底意味着什么呢?对此有必要展开进一步分析。

一、哲学史视域中从离身认知到具身认知的转变

在当代哲学史的结构性嬗变中,语言哲学的式微与新唯物主义的兴起构成了认识论坐标系的双重运动,其内在逻辑需要置于对经验主义传统的解域化重构中进行考察。语言分析范式将经验主义的知觉中心主义置换为语义先验主义,通过命题逻辑的拓扑学构建起认识论的语言牢笼,这种逻各斯中心化的操作最终导致经验世界被符号系统的递归性所吞噬,文本更是成为高光之下的符号学表演场。“从20世纪初对语言如何与世界相联系的反思,到20世纪70年代对文本解构分析的巅峰之作,在本世纪的大部分时间里,语言一直是最重要的焦点。但是,在许多年轻学者中,人们常常感到,在哲学和社会理论中仅仅关注文本问题已经达到了批判的极限。”这种忧患意识同时也影响到对认知领域的范式反思。因为当数字化使得经验主义的知觉内容被压缩为图灵机离散的电子信号时,吉尔·德勒兹和费利克斯·加塔利所关注的经验生成的物质性基础——“条件”——也正在被符号化和离身化。

新唯物主义的认识论革命正源于对这种符号暴力的反叛。当20世纪末的系统论、复杂性科学(如自组织理论、量子力学、混沌理论等)等揭示了物质世界的非线性、动态关联性后,哲学不得不面临重新思考物质的“活性”和关联性的命题。新唯物主义通过重返斯宾诺莎式的物质单义性存在,希望将被后结构主义简化为“符号效果”的物质性和主体性从话语和权力建构的重压下拯救出来,从而将经验主义的感知基底重构为物质能动性的拓扑学网络(或者也可以说是拉图尔意义上的行动者网络)。

这种认识论转型的深层逻辑在于:新唯物主义将经验主义的知觉优先性转化为物质实践的优先性,通过引入复杂系统理论等后经典科学范式,构建起动态的“经验—物质连续体”。在此视域下,卡伦·巴拉德的“现象本体论”将测量装置的物质性置于现象构成的中心位置,彻底解构了观察者与被观察者的笛卡尔式二分,这种认识论的“物质转向”本质上是对经验主义的量子化改造。当语言哲学将意义封闭在能指链的差异游戏中时,新唯物主义通过重返实验室中的物质操演,在经验主义的地基上重建了认识论的实在论维度。这种认识论革命既是对分析哲学传统的内在批判,也是对现象学传统的物质论超越,并且以批判—建构的方式回应了生态危机、技术革命和后人类境遇的迫切问题。

同时,语言哲学和新唯物主义对计算认知主义的形塑与解构,既构成了当代认识论转型中一个不可忽视的辩证维度,也深刻地改变了在计算认知主义基础上发展起来的人工智能底层技术。这种影响既体现为分析哲学传统为计算主义提供的“概念脚手架”,也表现为后期维特根斯坦学派对其理论预设的颠覆性批判,最终在新唯物主义框架下演化为对符号计算范式的本体论重构。有趣的是,尽管语言哲学一直声称反本质主义的立场,却有力地影响了信息实在论对信息本质的理解,使信息被看作对应客观事物或概念的实体。正如结构主义语言学强调语言系统内部的结构关系决定了其意义,信息实在论也将信息视为具有内在结构的实体,信息元素之间的关系模式赋予信息特定的价值和功能。这种观点直接影响了后来“赛博格设想”中的信息通道问题,“这种设想……把信息视为某种无形的实体,可以在以碳元素为基础的有机部件和以硅元素为基础的电子部件之间相互流动,从而使碳和硅就像在同一个系统中运行”。在语言哲学的形式化范式为数字化的计算模型提供了理论基础之后,奥斯汀与塞尔的言语行为理论通过揭示语言的使用维度,动摇了计算认知主义的符号本体论。当塞尔用“中文屋论证”揭露纯句法操作无法产生语义理解时,实际上已经在逻辑而非经验的基础上论证了具身认知:感知性的“身体”绝不是符号表征的剧场,认知活动本质上是身体—环境耦合的具身实践,而非离身的符号演算。不过,新唯物主义并未完全否定计算认知主义的遗产,而是希望通过引入“物质实践”重塑物质能动性从而恢复世界的统一性和发展性。吉贝尔·西蒙东以“缔合环境”概念为核心所阐释的技术物的进化机制就可以被视作新唯物主义反对单一还原论和决定论的动力发展机制的体现。它有效地反驳了符号秩序架构物质实践乃至知识生产的事实,极力避免“一旦不再被思考,差异就要消散于非存在之中”的符号霸凌。

在这种理论反思的基础上,从离身认知到具身认知的转变不但促使认知科学本身走向与经验实证科学的跨学科联合,同时也为人工智能发展的不同模式和路径提供了技术模型。生成式人工智能的知识生产通过算法塑造了一种纯粹的认识形式的领域,“纯认识形式的领域被孤立了,在与所有经验知识的关系中,既获得了自律,又获得了主权,使得对具体加以形式化并不顾一切地去重构纯科学这样的设想得以诞生和无限再生”。大语言模型的认知操作建立在符号的统计共现性上,其“理解”本质上是词向量空间中的拓扑相似性映射。然而,这种模式完全剥离了情境的生成机制。从哲学认识论视角来看,这种普遍性和理性已然超脱于经验表象的范畴。经验表象作为人类认知与外界交互的初始层面,是主体对客体的直接感知呈现。而算法凭借其自身的内在结构,不再对现实的多元面向保持开放态势,而只是接纳数字化所形塑的内容。在符号学与知识论的关联框架内,当词与话语被算法所设定的符号秩序重新塑造时,这一过程实际上触动了知识的内在肌理。生成式人工智能和大模型技术依赖的数据集存在结构性的缺陷,这成为当前智能发展道路上难以跨越的障碍。即便多模态大模型扩充了文本来源类型,情况依旧不容乐观。其根本原因就在于,全球不同文本生产技术的发展水平参差不齐,会产生各式各样的意义模式。这些文本一旦脱离原本的语境被转化为通用符号,便与真实的生活产生了隔阂。有研究显示,部分数据在参与模型训练一段时间后,反而会干扰大模型的正常表现。

具身认知为突破这种困境提供了具有启发性的路径。当休伯特·德雷福斯指出复杂性的技能必然依赖身体对情境的“直接应对”(Coping),而非符号表征的规则推理,他其实已经前瞻性地描绘出了具身智能的两个重要因素:身体以及身体与环境的适应性。从这个意义上来说,具身智能的确算不上新的理念,那么问题就在于:如何为人工智能装上身体以及装上什么样的身体呢?

二、“身体”与“肉身”:具身性的限度与可能性

梅洛-庞蒂曾提出过两个相互联系但又有所区别的概念:“身体”和“肉身”。身体更多地带有一种与客观世界相对的主体维度的意味,是我们感知世界、与世界互动的基础。身体与世界的关系更多地表现为一种主体对客体的作用和认知关系。此时的身体强调的是作为一种具有感知、行动等功能的主体存在,是行动者在世界中存在的载体,它与世界之间存在着一种相对明确的界限,肉身则更加强调一种存在的原初性和交融性。肉身不仅仅是生理意义上的身体,更是一种主体与客体、自我与世界紧密融合的存在状态。它不是一个孤立的实体,而是一种更为深层、更为基础的存在层面。世界通过肉身而展开,肉身也在世界中不断生成和变化。对于这两个概念,梅洛-庞蒂都强调它们的具身性,反对传统哲学中将心灵与身体相分离的二元论观点,认为人类的认知、感知和存在离不开身体或肉身这个基础。

基于这一基础,反观从以大语言模型为基础的生成式人工智能,到以“空间智能”为代表的具身人工智能的尝试,就可以发现具身智能与现有的认知型智能体发展方向截然不同。具身智能强调让人工智能拥有“身体”,以形成感觉、认知和判断的基础,从而获得适应环境、辨别多种感觉刺激乃至综合理解的能力。当然,这里的“身体”并非简单的外在形式,更不是人类的“肉身”,而是具备获取感性经验能力的实体性存在,是造成认知差异以及情感—价值判断不同的重要因素。正如人类依靠感官收集、处理信息来认知世界一样,具身智能也试图让人工智能在与其所处情境的实时交互中,逐步构建对符号的理解。它把认知过程融入具体环境里,形成持续进化的反馈机制。更简单地说,具身人工智能不再像传统人工智能那样,只是机械地对预设条件作出固定反应,也不再单纯通过模仿神经网络的方式来形成判断。它更希望以接近人类理解世界的模式重塑从经验感知到抽象理解的过程,借助传感设备获取声音、影像、触觉、温度、表情等多维度的一手环境信息,构建起实时且动态的完整符号模型。其认知和理解过程不是“离线”(去情境化)进行,而是始终处于与外界环境持续交互的状态。基于这种心智仿真结构形成的智能体,是一个与具体情境深度融合的开放网络。但“肉身”本身的存在论特质无法被简化为物理特质或算法逻辑,它不是一个简单的仿生工程任务,更不是人工意识的物质基础。

如果人类身体可以被视作思想这一复杂装置的载体或运行场域,那么象征意义上的生产性问题则在于:如何为人工智能设计一个与其认知和能力相称的身体?神人同形同性论与“恐怖谷效应”之间的互搏最终会将智能体的发展带向类人化还是超人化?因为具身性的理论基础正在于将身体—环境的“装配”(Assemblage)视作相互作用的立场,而不是由事先预设的准则和条件形成的线性对应。正如休伯特·德雷福斯在批评离身认知的底层逻辑时所说的:“思想并不在信息元的基础上运作,而是在直觉的和假设的塑形基础上运作。它接受不准确的、模糊的材料。这样的材料不像是根据预定阅读的编码或者能力被选择的。它不会忽视一个情况的旁角和边缘。”从这个意义上说,具身性的要求与在方法论上对于直接经验的强调是联系在一起的,它不仅需要将多模态的信息输入转译成符号逻辑,更需要借助模糊逻辑与生成对抗网络(GANs),以容忍认知中的不确定性。但问题在于,与人类身体或主体同步于经验—感知的事实不同,人工智能的“身体”是缺失的,这种缺失并非是指缺少由现有的人工智能驱动的“实体性存在”(如传感器与机械装置),而是以“身体图式”为交互依据与环境共同形成的感知—行动回路。这意味着具身智能绝不是在现有生成式人工智能的基础上创造出的某种身体,而是重建智能体知识生产的认知框架,并在此基础上建立行为,甚至形成可逆性模拟,即能够从结果“反思”中总结并建立规则,而非通过算法的预设给定规则。

然而,即便从这些原则出发,具身性依然面临着如何对智能体的身体进行想象的难题。“这些象征性问题始终以某种方式面临着英国经验主义中最重要的喀迈拉问题:我们是否真的能想象出某种先于感觉的东西,换句话说,即不是由感性知识(这种感性知识是关于我们平常的人类身体和世界的知识)衍生出来的东西?”科幻小说在突破神人同形同性论上作出了巨大努力。斯坦尼斯拉夫·莱姆在《索拉里斯星》中创造出来的胶质状海洋就是通过量子纠缠的方式直接作用于观察者的神经网络,这显然是对非人形有机体或智慧体的一种探索。

不过,具身智能对身体的思考还无须走到那么远。只是,当后人类身体本身已经成为可编码和增强的界面和场域时,对于智能身体的建构一方面面临着对解剖学常规的无限突破可能,另一方面却又依旧要试图接近人类从经验感知到综合判断的认知进路。这使得它在超越类人形式的想象方面必须持续地进行思想和实践的双重探索:如何通过身体形态学的无限可能来解构和重塑人类认知的常规框架,在人类可以理解、共鸣、交互的范围内探索超越人类经验的感知方式,正如摄影机镜头的发明和运镜形式的多样化重新勘定了视觉的界限和可表达性一样。因为相较于肉眼观察世界的直观性和外在性,镜头语言具有更明显的粗暴性和侵入性,它破坏了客观世界的自然秩序,以无限的运动可能粗暴地干涉对象世界,并以电影语言(蒙太奇)的方式加以重组。这如同一场技术奇点来临前的预演,使得德勒兹的“无器官身体”的隐喻在数字技术、机械自动化和生物工程的共同作用下得以不断挑战认知科学的规则,并且除了模拟感觉信息处理和运动控制结构外,具身智能的系统研究还应当将行为经济学、动态系统方法和适应性决策纳入其中,以解决目前AI系统在实时响应中决策仍依赖离散的时间切片的问题。

三、空间智能与智能正义

美籍华裔学者李飞飞深入讨论了大语言模型与世界模型的根本差异。她认为,作为生成式人工智能技术基础的大语言模型(LLM)关注的是表达和交流,是基于已有的抽象数据形成的知识生产;而担当具身智能(她所提出的空间智能也是具身智能的一个阶段)技术底层逻辑的大世界模型(LWM)关注的则是感知和行动,是基于视觉的空间感知。两种模型在根本上是不同的模态。而李飞飞的实验室所探索的空间智能之所以能够联结和理解物理世界和数字世界,并为AI应用开辟新的可能性,正在于其通过视觉标注为三维空间建模,从而使智能体与像素世界产生互动。

因此,我们可以将大世界模型理解成为智能行动体的空间性具身行为提供建模和推理依据的基础建设。在一篇关于AI行动体的预印文本研究报告中,李飞飞的研究团队直截了当地阐述了其研究旨向:“为了加快基于智能的多模态智能的研究,我们将‘人工智能行动体’定义为一类交互式系统,它可以感知视觉刺激、语言输入和其他基于环境的数据,并能够产生有意义的具身行为。”显然,“空间智能”中的空间性并非单纯的几何空间或传统虚拟现实中的3D搭建,而更多的是梅洛-庞蒂意义上的“身体空间性”,身体并非处于空间中的一个物体,而是行动体寓居于空间的方式。身体通过自身的运动和感知不断地与周围空间进行互动,从而赋予空间以丰富的意义。空间性是身体通过运动投射意义的能力。当盲人的手杖被身体“整合”为知觉的延伸时,这一现象揭示了身体作为动态综合体的特性。通过手杖的触碰和移动,盲人能够感知到周围环境的空间布局。这种感知并非像在几何空间中那样通过抽象的计算形成,而是身体直接的体验。它使得身体的感知范围得以扩展,从而在空间中自由地行动。

为了实现这个目标,从二维视觉到三维视觉的转换尤为重要。只有在此基础上,才能建立可以对空间几何与物理过程进行精准建模、理解与推理的“世界模型”。这也是为什么李飞飞将大型图片数据库ImageNet视为朝着全面理解人类所处的视觉世界迈出的重要一步,它通过为二维图像中的像素添加标签来链接物理三维世界与数字三维世界,使智能体能够通过理解标注发展出对身体空间性而非纯粹的外在空间的理解。ImageNet之所以重要是因为它弥补了目前以大语言模型为基础的人工智能发展路径在空间推理上的显著失能。即使是最先进的多模态大模型,虽然在语言理解和一般视觉任务上取得了显著进展,但在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。

尽管以李飞飞为代表的不少研究者都将空间智能看成智能体实现自主具身决策的逻辑支撑和技术实现,但其仍然面临着重大的理论挑战和可行性困难,甚至有可能对智能应用的公平性和多样性产生影响。

首先是空间智能泛化的挑战。世界模型在本质上是要建立一个具有“通用性”的空间范式,这一范式不仅要与虚拟空间适配,还要与物理空间适配。然而,实现这种与具身智能行动能力匹配的通用空间模型,要比实现大语言模型的通用性困难得多。大语言模型因为是直接在已经具备一定通用性基础上的抽象语言层面进行学习和泛化,相对比较容易,但空间智能需要从传感器获取的原始信号中学习,这意味着要跨越从原始数字信号到人类语义符号的“语义鸿沟”,不仅需要大量的标注数据,还要对传感器获取的原始信号进行精确标定,以确保其具备绝对物理尺度上的度量,这比从互联网获取海量图像文本数据要困难得多。更关键的是,具身智能所面对的还不是纯粹的物理空间,而是与身体感知能力相关的“身体的空间性”,这就要求除了从视觉、力觉、触觉及嗅觉等高维感知信号中获得通用性之外,还要发展出由智能体和环境对象共同定义出的具身决策的“行为空间”。其泛化的要求更增加了对不同范式的学习难度。

其次是以视觉中心主义为理论基础的ImageNet的图像标注体系的多样性问题。李飞飞本人曾不止一次地强调,机器学习的成败不仅在于模型,更在于数据的复杂度和规模是否能够有效地驱动模型学习。相关学者也承认,真正的“空间智能”其实不受感官模式限制。例如,前面提到的盲人可以通过别的方式感知空间,因为色盲或色弱的视障人士的空间感受也会和常人有所不同。但由于李飞飞研究团队选择了将更为普遍的图片和视频数据作为基础,因而其“空间智能”的着眼点侧重于“视觉空间智能”。就技术应用的普遍性和可行性而言,这种策略是可以理解且更为经济的。然而,这种以视觉为中心的模式忽略了特殊人群的认知差异问题。此外,即便同样是以视觉为强势认知,部分残障人士借助视觉获得的基于空间的认知和判断也和普通人不同,毕竟身体的空间性首先要面对的不是均一的物理空间,而是与身体密切相关的空间,甚至还包括社会交互空间。如何通过丰富数据类型来解决或改善该问题,是研究团队的顶层设计需要关注的。更重要的是,智能正义本身是AI伦理和社会公平关注的目标,而如果仅仅作为一项商业项目,解决该问题的投入和其经济效益之间未必形成正比,对它的支持可能需要更多的社会力量来推动。

最后是人类中心的视觉空间认知模型与智能体身体的多样性之间可能产生的悖反。本雅明在讨论画家与摄影师的差别时曾指出,画家在作品中同现实保持自然距离,借助经验来判断现实。但是摄影师就像是外科医生,可以从镜头的无穷角度刺入现实的织体。这两种对待现实世界截然不同的态度和手段,反映出摄影技术的全部辩证性:摄影的创造深度完全取决于它对于世界的改造程度,现实世界越是被肢解得彻底,影像世界才越能多姿多彩。同样地,当智能体的具身性突破了类人构造,其感知世界的方式也将发生根本性的转变。人类视觉中空间的划分、物体的重要性判断等都是基于观看的特性和日常经验,但对于依靠热感应来感知世界的智能体来说,温度的高低才是判断物体重要性和空间分布的关键因素。此外,智能体对空间的判断标准也与人类大相径庭。人类在判断空间是否适宜行动时会考虑自身的身体尺度、运动能力以及视觉所及的安全性等因素,而智能体的行动决策更多地基于其自身的设计目标和感知能力。比如,专为狭小管道检测设计的微型智能体,它对空间的“宽敞”则以自身的设计为标准。

人工智能的发展史是人类在数字世界展开的持续试错实验,更是哲学与工程学交织的巨型思想沙盘。从以视觉为基础,到世界模型的提出,再到视觉空间智能乃至具身智能构想的发展进路,并不是一条坦途,它所面临的挑战和争议会一直存在。如何构建更能发挥智能体多样性优势的空间认知和世界模型,是人工智能发展中的顶层设计问题,它需要哲学和技术的双重在场。

返回列表
上一篇:
下一篇:

发表评论中国互联网举报中心

快捷回复:

    评论列表 (暂无评论,共6人参与)参与讨论

    还没有评论,来说两句吧...