

作者 | 李飞飞
中文翻译 | 黄鑫
来源 | 清华大学科学博物馆
编者按:
ChatGPT、文生图、大模型这一波浪潮,让机器第一次大规模"听得懂、说得明白"人类语言。可越往前走,我们越会发现一个尴尬的现状:只会"说话"的AI还远远不够。它可以写方案、改代码,却依然很难真正安全地开车、灵活地做家务、在医院里辅助医生看病、在实验室里帮科学家做实验——它对我们所处的三维世界,其实并不"理解"。
作为计算机视觉与人工智能领域的重要人物,美国国家工程院院士李飞飞在一篇新文中抛出了一个非常关键的方向:空间智能(Spatial Intelligence)。简单说,就是让AI不只理解文字,还能理解"世界"——理解物体的形状与位置、事件在时间中的发展、物理规律如何约束一切,从而在脑海中搭建起一个可以推理、可以想象、可以生成的"世界模型"(World Model)。
这篇文章从人类和动物如何感知空间讲起,一路串联起神经科学、机器人学、三维视觉、生成式AI等研究进展,讨论了以下问题:
为什么当下的大模型在很多真实环境任务里依然靠不住?
具身智能、世界模型这些听起来很"学术"的概念,和自动驾驶、机器人助手、数字孪生城市、科研模拟有何关系?
如果AI真正拥有空间智能,它会怎样改变创作工具、教育方式乃至我们的工作形态?
在技术加速的同时,人类如何守住价值观,让AI成为"增强人"的工具,而不是替代人或控制人的系统?
如果你关心下一阶段AI的技术路线图,或者在思考"文字AI之后,行业的下一个机会在哪里?",非常值得你完整读一遍李飞飞2025年11月10发表的这篇文章,关于"从Words 到 Worlds"的思考。
From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
(以下是原文)
1950年,当计算机仍停留在自动化算术与简单逻辑的早期阶段时,艾伦·图灵(Alan Turing)提出了一个至今仍回响在科技与哲思领域的根本性问题:机器能够思考吗?要洞悉他当时所见的可能性,需要非凡而深邃的想象力。他敏锐地意识到,智能或许有朝一日可以被"构建",而非单纯由自然孕育。正是这一洞见,开启了后来被命名为人工智能(Artificial Intelligence, AI)的漫长科研征途。如今,我在AI研究领域已走过二十五年,仍不断被图灵的远见所激励。然而,我们如今距离这一愿景究竟有多近?这一问题远比看上去更为复杂。
当代领先的AI技术,例如大语言模型(Large Language Models, LLMs),已经开始重塑我们获取与处理抽象知识的方式。然而,它们依旧像是黑暗中雕琢词句的匠人——词语运用娴熟,但缺乏经验;知识储备丰富,却未真正扎根于现实。相比之下,空间智能(Spatial Intelligence)有望真正改变我们创造世界、理解世界并与之互动的方式,深刻影响叙事、创意、机器人技术、科学研究等一系列关键领域。这正是AI迈向未来的下一处前沿。
自进入这一领域以来,对视觉智能与空间智能的追寻始终是我科研道路上的"北极星"。因此,我曾倾注多年心力构建ImageNet——首个具备大规模视觉学习与基准测试能力的数据集。它与神经网络算法以及诸如图形处理器(GPU)等现代计算能力共同奠定了现代AI兴起的三大基石。基于同样的理念,我在斯坦福大学(Stanford University)的实验室在过去十年的研究中持续探索计算机视觉与机器人学习的深度结合。一年多以前,我与联合创始人贾斯汀·约翰逊(Justin Johnson)、克里斯托夫·拉斯纳(Christoph Lassner)、本·米尔登霍尔(Ben Mildenhall)共同创建了World Labs,首次尝试将这一愿景系统化、全面化地付诸实践。
在这篇文章中,我将阐述空间智能的内涵、它为何举足轻重,以及我们如何构建能够释放这一能力的世界模型(World Models)。这些模型将重新定义创造力、具身智能与人类发展的轨迹,进而深刻影响我们的未来。
01 空间智能:人类认知的脚手架
AI的发展从未像今天这样令人振奋。生成式AI模型,如LLM,已从研究实验室走入寻常生活,成为数十亿人用于创造、生产与交流的工具。它们展现出曾被视为不可能的能力:能够生成连贯的文本、海量的代码、逼真的图像,乃至短小的视频片段。如今,关于AI是否会改变世界这一命题已不再值得讨论——按任何合理定义,它已经改变了世界。
然而,仍有大量能力远在我们触及范围之外。自主机器人的愿景依然令人着迷,却更多停留在猜想层面,距离未来学家所描绘的日常景象仍十分遥远。关于疾病治疗、新材料发现与粒子物理等领域的科研能否被大幅加速的梦想,多半尚未真正实现。AI能否真正理解并赋能人类创造者——无论是学习分子化学复杂概念的学生、可视化空间的建筑师、构建世界的电影制作者,或是任何渴望沉浸式虚拟体验的人——这一承诺亦尚未兑现。
要理解这些能力为何迟迟未至,我们必须回溯空间智能的演化历程,并审视它如何塑造我们理解世界的方式。
在人类智能中,视觉长期被视为一项基石功能,但视觉的力量源自更为根本的能力。在动物尚不具备筑巢、照看幼崽、依赖语言交流或建构文明之前,最简单的感知行为便已悄然点燃了一条通往智能的进化道路。
这种从外部世界中提取信息的朴素能力——无论是一束光的闪动,还是某种触感——成为连接感知与生存的一座桥梁,而这一桥梁随着世代演进愈加坚固、精细。神经元一层又一层地在其上生长,构成可以解释世界、并协调生物体与环境互动的神经系统。因此,许多科学家推测,感知与行动之间的循环正是推动智能演化的核心机制,是自然塑造我们物种的基础,而人类正是"感知、学习、思考与行动"的终极体现。
空间智能在我们与物理世界的互动中扮演着根本角色。日常生活中,我们在最寻常的行为里依赖它:倒车入位时预想保险杠与路缘之间逐渐缩小的距离;接住被抛来的钥匙;在人群中穿行而不碰撞他人;甚至在睡意朦胧时也能把咖啡准确倒入杯中。在更极端的环境中,消防员则需在浓烟与坍塌中迅速判断稳定性与逃生路径,依靠手势、身体语言与一种难以言传的专业直觉彼此沟通。而儿童在学会语言之前,几乎将所有时间用于通过与环境的交互来探索世界。这一切皆是直觉式、自动化的过程,是机器至今仍远未掌握的流畅能力。
空间智能同样构成我们的想象力与创造力的根基。讲故事的人在心中建构丰富的世界,并通过各种视觉媒介将其传递给他人——从古代洞穴壁画到现代电影,再到沉浸式电子游戏。无论是在海边堆沙堡的孩子,还是在电脑上玩《我的世界(Minecraft)》的玩家,基于空间的想象正是现实与虚拟环境中互动体验的基础。对于众多行业而言,对物体、场景与动态交互环境的模拟更是支撑工业设计、数字孪生、机器人训练等大量关键应用的核心。
历史中不乏以空间智能为核心的文明转折时刻。在古希腊,埃拉托色尼(Eratosthenes)通过观察影子的变化建立几何关系:在亚历山大测得七度的夹角,而此时赛恩城正好无影,从而计算出地球的周长。哈格里夫斯(Hargreave)的"珍妮纺纱机(Spinning Jenny)"通过空间上的巧妙布置——在一个框架中并列排列多个纺轴——使单一工人即可同时纺出多股纱线,将生产力提升八倍。沃森(Watson)与克里克(Crick)则通过搭建三维分子模型、不断试验金属片与金属丝的空间组合,最终揭示DNA的结构。在这些案例中,科学家与发明家都必须操纵物体、可视化结构并理解空间关系,而这些活动并不能仅靠文字来捕捉。
空间智能是支撑我们认知的脚手架。无论是被动观察还是主动创造,它始终在发挥作用;它塑造我们的推理与规划,即便主题再抽象也不例外。空间智能也是我们彼此之间、以及我们与环境互动方式的核心。即便我们无法每天都像埃拉托色尼那样揭示世界的深层真理,我们依然以相同的方式思考——通过感官理解复杂世界,再以直觉掌握其物理与空间逻辑。
遗憾的是,当今的AI尚未具备这样的思维方式。
过去数年间,我们确实取得了巨大进展。以海量多模态数据训练的多模态大语言模型(Multimodal LLMs, MLLMs)已具备初步的空间意识,能够分析图像、回答相关问题,并生成逼真的图像与短视频。借助传感器与触觉反馈技术的突破,最先进的机器人也开始能够在高度受限的环境中操纵物体与工具。
然而必须坦言,AI在空间能力方面与人类之间仍存在巨大差距,而且这一差距在最基本的任务中便暴露无遗。最先进的多模态模型在估计距离、方向与体积,或在脑中"旋转"物体以从新角度重建等任务上,表现往往不比随机猜测更好。它们无法穿越迷宫、不懂捷径,也不具备预测基本物理行为的能力。即便是最新的视频生成模型——尽管精彩而令人惊叹——也常常在数秒后就失去连贯性。
当今最先进的AI在阅读、写作、研究和识别数据模式上表现突出,但在表征或与物理世界交互方面,却存在根本局限。人类理解世界的方式是整体性的:我们不仅看到事物的表象,还理解其空间关系、语义意义与重要性。通过想象、推理、创造与互动来把握世界,而非仅凭描述,这是空间智能的力量。缺乏它,AI便与它试图认识的物理现实相脱节。它无法可靠地驾驶汽车、在家庭与医院中引导机器人、创造真正沉浸式的学习或娱乐体验,也无法加速材料科学或医学中的重要发现。
哲学家维特根斯坦(Wittgenstein)曾说:"我的语言的界限意味着我的世界的界限。"我虽非哲学家,但至少对于AI而言,我深知世界并不止于语言。空间智能代表着语言之外的疆域,是联结想象、感知与行动的能力,为机器真正增进人类生活提供了新的可能——无论是在医疗、创意、科学发现,抑或日常协作之中。
2 未来十年的AI:构建真正具备空间智能的机器
那么,我们究竟应如何构建具备空间智能的AI?要让模型能够以埃拉托色尼般的洞察进行推理,以工业设计师的精度进行工程构构造,以讲故事者的想象力进行创造,并以急救人员般的流畅性与环境互动,我们应走上一条怎样的道路?
要实现真正的空间智能,AI必须迈向比大语言模型更为宏大的方向,即世界模型——一种全新的生成式模型。与当今的大语言模型相比,世界模型必须具备理解、推理、生成并与语义、物理、几何及动态高度复杂的世界(无论真实或虚拟)进行交互的能力,这些能力远远超出当前模型的范围。这个研究领域仍处在萌芽阶段,现有方法从抽象推理模型到视频生成系统皆有所涉猎。World Labs正是基于这一信念在2024年初成立:基础方法尚在形成之中,而空间智能将成为未来十年AI的关键挑战。
在这一新兴领域中,最重要的任务是确立指导研究的基本原则。对于空间智能,我将世界模型界定为具备以下三项核心能力:
①生成能力(Generative):能够生成具备感知、几何与物理一致性的世界
要真正开启空间理解与空间推理,世界模型必须能够生成自己的模拟世界。这些模型需要能够创造数量无穷、种类多样的模拟环境,既能遵循语义或感知层面的指令,又必须在几何、物理与动态属性上保持一致性,无论它们代表的是现实世界还是虚拟空间。研究界正在探索,这些模拟世界应以何种方式呈现:是建立在隐式的几何结构上,还是采用显式的世界表示?此外,我认为,一个通用的世界模型除了具备强大的潜在表示能力外,还必须能够在诸多应用场景中生成明确且可观测的世界状态。尤为关键的是,它对当前世界的理解必须与过去保持连贯——清楚地理解哪些过往状态导致了当前局面。
②多模态能力(Multimodal):世界模型本质上是多模态的
如同人类与动物一样,世界模型必须能够处理多种形式的输入,这些输入在生成式 AI 中通常被称为"提示(prompts)"。当模型只获得部分信息时——无论是图像、视频、深度图、文本指令、手势,或动作——它都应能够尽可能完整地预测或生成世界状态。这要求模型能以近似真实视觉的忠实度处理视觉输入,同时以相同的熟练度解释语义指令。如此一来,无论是自主智能体还是人类,都能以多样的方式与模型交流,从而获得同样丰富多样的输出。
③交互能力(Interactive):根据输入的动作生成世界的下一状态
最后,当动作或目标被作为输入提供给世界模型时,其输出必须包含世界的下一状态,这一状态可以是显式的,也可以是隐式的。当输入仅包含一个动作(可能伴随或不伴随目标)时,模型应能够生成与世界先前状态、潜在目标以及语义意义、物理规律和动力行为相一致的结果。随着空间智能世界模型的推理与生成能力不断增强,我们有理由相信:对于某些目标,模型将不仅能够预测世界的下一状态,还能基于新状态推断"下一步应该采取的动作"。
世界模型的挑战规模,远超AI以往面对的一切。
语言是一种纯粹由人类认知生成的现象,而"世界"则受制于复杂得多的规律。在地球上,重力决定运动模式,原子结构决定光与色的关系,无数物理定律塑造每一次交互行为。即便是最富想象力的虚构世界,也必须由遵循物理与动力规则的空间物体与行动主体构成。要在语义、几何、动力与物理层面实现一致性,需要的是全新的方法与理论框架。一个"世界"的维度远比语言这样的单维度、序列式信号复杂得多。要构建具备类似人类普适能力的世界模型,必须跨越多个艰巨的技术壁垒。
在World Labs,我们的研究团队正致力于在这些方向上取得根本性进展。以下是我们当前关注的一些研究主题:
一种用于训练的全新通用任务函数:
在LLM中,"预测下一个词元(next-token prediction)"是一种简洁而优雅的通用任务函数。为世界模型定义一种具有同样普适性与美感的任务函数,一直是该领域的核心目标。然而,由于世界模型在输入和输出空间上都远比语言模型复杂,要找到这样的任务函数本身便是一项极具挑战的工作。尽管仍有大量问题亟待探索,但这一目标函数及其相应的表示方式必须反映几何与物理的规律,忠实体现世界模型的根本属性:它们既是植根现实、亦能承载想象的世界表征。
大规模训练数据:
训练世界模型需要的数据复杂度远超文本整理。然而,令人欣慰的是,海量的数据源已经存在。互联网规模的图像与视频集合构成丰富且易于获取的训练材料。真正的挑战在于如何开发算法,使其能够从二维图像或视频帧(即RGB信号)中提取更深层的空间信息。过去十年的研究表明,在语言模型中,数据规模与模型规模之间存在强大的"缩放定律(scaling laws)"。对世界模型而言,关键在于构建可充分利用现有视觉数据、并在相近规模上进行训练的模型架构。此外,我也不会低估高质量合成数据以及深度图、触觉信息等额外模态的力量。它们在训练过程的关键阶段补充互联网级数据。然而,进一步的发展取决于更先进的传感器系统、更稳健的信号提取算法,以及更强大的神经模拟方法。
新的模型架构与表征学习方式:
世界模型的研究必将推动模型架构与学习算法的进一步演进,尤其是在超越当前的MLLM与视频扩散模型范式方面。现有方法通常会将数据词元化(tokenize)为一维或二维序列,而这种处理方式会让一些本应简单的空间任务变得不必要地困难,例如在一段短视频中数清不同的椅子数量,或在一小时后仍准确记起房间的原貌。替代性的模型架构或许能够带来突破,例如能够在三维或四维层面上处理词元的标注方式、上下文建模方式与记忆结构。举例来说,在World Labs的最新研究中,我们提出了一个名为RTFM(Real-Time Generative Frame Model)的实时生成式帧模型,它展示了这一方向上的重要转变。RTFM使用具备空间基底的帧作为一种空间记忆,使其在保持生成世界持续性的同时,实现高效的实时生成。
显然,在通过世界建模全面释放空间智能之前,我们仍面临诸多艰巨挑战。然而,这项研究绝非理论层面的空想,它正是新一代创造与生产工具的核心引擎。
在这一过程中,World Labs的进展令人振奋。我们近日向一小部分用户展示了Marble的初步能力——这是首个能够通过多模态输入进行提示,从而生成并维持一致性三维环境的世界模型,用户与创作者可在其中探索、互动,并在创作流程中进一步扩展他们的世界构建。我们正在全力推进,希望能尽快将其带给更广泛的公众。
Marble只是构建真正具备空间智能的世界模型的第一步。随着研究不断加速,研究者、工程师、用户与商业领袖们都开始意识到其中蕴藏的非凡潜力。下一代世界模型将使机器获得全新的空间智能能力——这些能力对于当今的AI系统而言仍大多缺失,却至关重要。

(截取自Marble生成的3D世界)
3 运用世界模型,为人类构建更美好的世界
推动AI发展的动机至关重要。作为帮助开启现代AI时代的科学家之一,我的动机始终清晰:AI的使命应在于增强人类能力,而非取代人类。多年来,我致力于推动AI在研发、部署与治理方式上与人类需求保持一致。如今的时代充斥着极端叙事:有的描绘科技乌托邦,有的渲染世界末日。然而,我始终坚持更为务实的观点——AI由人类创造,被人类使用,并由人类治理。它必须尊重人的自主性与尊严。AI的"魔力"在于延展我们的能力,使我们能够更具创造力、更紧密连接、更高效生产,并获得更充分的满足感。
空间智能所代表的,正是这样的愿景:AI应当赋能创造者、照护者、科学家与梦想家,使他们得以实现曾经无法想象的目标。正是这种信念,推动我将空间智能视为AI的下一片重要前沿。
空间智能的应用分布在不同的时间尺度中。创意工具正快速涌现——World Labs的Marble已经让创作者与叙事者能够亲手操控这些能力。随着我们进一步强化从感知到行动的循环,机器人技术代表了一个雄心勃勃的中期目标。最具变革性的科学应用则需要更长时间,但它们所承诺的,将是对人类繁荣产生深远影响的突破。
在所有时间尺度上,有几个领域因其重塑人类能力的潜力而尤为突出。实现这些愿景需要巨大的集体努力,远非单一团队或公司所能完成。这需要整个AI生态系统——研究者、创新者、创业者、企业乃至政策制定者——共同协作,追求共同的愿景。而这样的愿景,值得我们矢志不渝地追求。以下便是这一未来所涵盖的内容:
3.1 创造力:为叙事与沉浸式体验赋予"超能力"
"创造力是智力的乐趣。"这是我最喜欢的名言之一,出自我个人的偶像阿尔伯特·爱因斯坦(Albert Einstein)。
在人类拥有文字之前,叙事已然存在——我们在洞穴壁上绘画,将故事代代相传,并在共享叙事的基础上建立文化。故事帮助我们理解世界,让我们跨越时间与空间彼此相连,探索"何为人类"的本质,更重要的是,它帮助我们在生活与爱中找到意义。
如今,空间智能有潜力改变我们创造、体验故事的方式,使其能够不负叙事本身的深刻意义。其影响将从娱乐扩展到教育,从设计延伸到建造。
World Labs的Marble平台,将前所未有的空间能力与编辑自主权交到电影制作人、游戏设计师、建筑师以及各类叙事者的手中,使他们无需传统3D设计软件的繁重负担,就能迅速创造并迭代可自由探索的三维世界。创造这件事本身依旧如此重要、如此人性,而AI工具只是为创作者的能力增幅并加速成果的实现。这其中包括:
在新的维度中体验叙事:
电影制作者与游戏设计师正在使用Marble创造完整世界,不再受制于预算或地理限制,可以探索那些在传统制作流程中难以企及的场景与视角。随着不同媒介形式与娱乐方式之间的边界逐渐模糊,我们正接近一种全新的互动体验形态,它融合艺术、模拟与游戏——创造属于每个人的个性化世界,不再专属于大型工作室。随着更快速的方式将概念与故事板转化为完整体验,叙事将不再受限于单一媒介,创作者能够在不同平台与载体上构筑逻辑一致的世界。
通过设计构筑空间叙事:
几乎所有制造出来的物品或建造出来的空间,都必须在其物理成形前完成虚拟3D设计。这个过程高度迭代,既耗时又成本高昂。借助具备空间智能的模型,建筑师可以在投入数月设计之前迅速预览结构,并"行走"于尚不存在的空间之中——本质上,这是通过空间在讲述"我们可能如何生活、工作与聚集"的故事。工业设计师与时尚设计师也能将想象即时转化为形态,探索物体如何与人体和空间相互作用。
全新的沉浸式与交互式体验:
体验,可能是人类构建意义的最深层方式。在人类历史的绝大部分时间里,我们共享着唯一的一个三维世界:物理世界。而仅在最近几十年,随着电子游戏与早期虚拟现实(Virtual Reality, VR)的兴起,我们才开始窥见共享自我创造的"另一世界"的可能。如今,当空间智能与新的媒介形态结合——如VR设备、扩展现实(Extended Reality, XR)头显与沉浸式显示技术——这些体验被提升到前所未有的高度。我们正走向这样一个未来:走入一个完全建构的多维世界将像打开一本书一样自然。空间智能使"建构世界"这一能力不再只属于拥有专业制作团队的工作室,而是为个人创作者、教育者以及任何有愿景的人所共享。
3.2 机器人学:行动中的具身智能
从昆虫到人类,生物依赖空间智能去理解、导航并与其世界互动。机器人亦将如此。自这一领域诞生以来,具备空间感知能力的机器便一直是人类的梦想,也一直是我在斯坦福研究团队与学生及合作者们共同追寻的目标。这正是我对 World Labs所构建的新型模型倍感兴奋的原因——它们让这一愿景首次显得真正触手可及。
通过世界模型扩展机器人的学习能力:
机器人的学习进步有赖于一个可扩展的训练数据解决方案。面对机器人必须学习去理解、推理、规划与互动的庞大状态空间,学界长期推测真正可泛化的机器人需要三类数据的结合:互联网规模的视觉数据、高质量的合成仿真数据,以及来自真实世界的人类示范记录。然而,与语言模型相比,当今机器人研究能获取的训练数据依然十分匮乏。世界模型将在此扮演决定性角色。随着其感知精度与计算效率不断提升,世界模型生成的输出将快速缩小模拟与现实之间的鸿沟。这反过来将使机器人能够在无数状态、交互与环境的仿真中进行学习,获得难以依靠真实世界采集来完成的广泛训练。
作为伙伴与协作者的机器人:
作为人类的协作者——无论是在实验台旁辅助科学家,还是陪伴独居的老人——机器人都能在劳动力紧缺的时代扩展关键岗位的生产力。但要做到这一点,机器人必须具备空间智能:能够感知、推理、规划并采取行动,同时最重要的是,能够以同理心与人类目标和行为保持一致。例如,一台实验室机器人可以负责操作仪器,让科学家将注意力集中在更需要灵巧性或高阶推理的任务上;一位家庭助手机器人则可以在不剥夺长者自主与生活乐趣的前提下协助完成烹饪。真正具备空间智能的世界模型,能够预测下一状态,甚至可能预测与此期望一致的下一步动作,是实现这一愿景的关键基础。
拓展具身形式的疆界:
类人机器人在我们现有的世界中确实占据一席之地,但真正的创新价值,将来自更加多样化的设计:能够运送药物的纳米机器人、可以穿行狭窄空间的软体机器人,以及为深海或外太空环境设计的特化机器。不论形态如何,未来的空间智能模型都必须能够整合机器人所处的环境,以及其自身具身的感知与运动方式。然而,在如此广泛多样的具身形态中开展机器人研究,其关键挑战在于:缺乏足够的训练数据。世界模型将在这一领域发挥关键作用,提供仿真数据、训练环境以及用于评估的基准任务,从而推动更丰富形态的机器生命得以发展。
3.3 更长的地平线:科学、医疗与教育
除了创造性领域与机器人应用之外,空间智能的深远影响还将扩展到那些能够以拯救生命、加速发现的方式增强人类能力的关键领域。以下我着重列举三个具有深度变革潜力的应用方向。当然,空间智能的应用空间远不止于此,它将在无数行业中引发广泛革新。
在科学研究中,具备空间智能的系统能够模拟实验、并行检验假设,甚至探索那些对人类而言无法抵达的环境——从深海到遥远的行星。这样的技术将重塑气候科学、材料科学等领域的计算建模方式。通过将多维度仿真与真实世界的数据采集整合在一起,这些工具可以降低计算壁垒,扩展每一个实验室能够观察与理解的范围,使科学探索具备前所未有的尺度与速度。
在医疗健康领域,空间智能将重塑从实验室研发到临床照护的方方面面。在斯坦福,我和学生与合作者们多年与医院、养老机构以及居家患者密切合作,这些经历让我深信空间智能将在此领域产生颠覆性力量。AI 能够通过多维度建模加速药物研发,通过辅助放射科医师在影像中识别微妙模式来增强诊断能力,并构建支持患者与护理者的环境感知系统,而不取代医治所必需的那份人性连接。更不用说机器人在不同护理场景中对医护人员与患者的巨大潜力。
在教育中,空间智能能够创造沉浸式学习环境,使抽象或复杂的概念变得可触可感,通过迭代式体验强化认知与动作系统的联动,而这正是人类学习机制的本质。在 AI 时代,更快速、更有效的学习与技能再训练对于儿童与成人都至关重要。借助空间智能,学生可以以多维方式探索细胞机器的运作,或亲身"走过"历史事件。教师则能利用交互式环境实现教学个性化。专业人士——从外科医生到工程师——则能够在逼真的模拟中安全练习复杂技能。
在所有这些领域中,可能性都近乎无穷,而目标始终如一:构建能够增强人类专长、加速人类发现、放大人类关怀的 AI,而不是取代构成人类本质的判断力、创造力与同理心。
4 结语
过去十年,AI已成为全球现象,并在科技、经济乃至地缘政治层面形成关键转折点。然而,作为一名研究者、教育者,如今又是创业者,最激励我的仍然是艾伦·图灵在75年前提出的那个问题背后的精神。我依然与他共享那份惊奇之心——正是这种惊奇,让我在空间智能的挑战中每日获得新的力量。
在人类历史上,这是第一次,我们即将构建出与物理世界如此紧密契合的机器,以至于我们能够在面对最艰巨挑战时真正依靠它们成为合作伙伴。无论是在实验室加速我们对疾病的理解,还是在叙事方式上开启新的革命,抑或是在疾病、受伤或年老的脆弱时刻给予我们支撑,我们正站在一项能够提升人类最珍视之事物的技术门槛前。这是一种关于更深刻、更丰富、更具能动性生活的愿景。
距大自然在远古生物中点亮最初的空间智能已近五亿年,而我们恰恰生活在这样一个时代:这一代技术创造者可能很快便能赋予机器同样的能力,并有幸将这些能力用于改善全世界人们的生活。若缺少空间智能,我们对于真正智能机器的梦想便永远不可能完整。
—— · END · ——
华夏基石管理咨询集团
中国管理咨询的开拓者和领先者
彭剑锋、黄卫伟、包政、吴春波、杨杜、孙健敏领衔
战略丨营销丨研发丨生产丨运营丨品牌
企业文化丨组织人力丨AI应用

咨询合作扫码
感谢阅读和订阅《管理智慧》,为了便于您及时收到最新推送,敬请星标本公众号。


登录后才可以发布评论哦
打开小程序可以发布评论哦