广西新闻网 > 首页栏目 > 经济 · 生活 > 创新 > 正文

AI观察|具身智能进化不等人!“大脑”在争吵 身体已开跑

2026年01月13日 17:53 来源:广西云-广西日报 记者 付玮烨 实习生 周诗涵 罗国威 编辑:陶昌顺

童话《绿野仙踪》的“铁皮人”、电影《机器人总动员》的“瓦力”、漫画《铁臂阿童木》的“阿童木”……影视文艺作品中具有自主意识、友好能干的金属伙伴,描绘了人类对具身智能(机器人)的美好想象。

王靖/制图

走进现实,2025年冲入大众视野的具身智能,在飞速成长中遭遇不少质疑:功能是噱头,没了遥控能走多远,目前还属于昂贵的大玩具?岁序更替之际,2025智源具身Open Day圆桌论坛的思想碰撞、国家发展改革委关于具身智能产业的政策部署、上海财经大学《具身智能十大观察》报告的深度剖析等相继展开,或将帮我们抽丝剥茧,管窥2026年具身智能行业可能迎来的质变机遇。

数据“不够用、不好用”,如何破题?

数据是具身智能的“燃料”,但当前行业普遍面临“数据稀缺”与“需求旺盛”的矛盾——想要的高质量数据不够多,能用的数据又未必适配需求。在2025智源具身Open Day圆桌论坛上,嘉宾们对此展开热议。

“我们相信真实物理世界采集的数据,这是模型落地的根基。”招商局集团AI首席科学家张家兴说,在数字金字塔中,以人自身为本体采集的数据成本最低、量级最大,尤其适合用于预训练阶段,“真实场景的交互数据能精准反映物理世界的规律,这是合成数据难以完全替代的”。

在柳州市北部生态新区机器人产业园,柳州优必选智能科技有限公司量产工业人形机器人下线,它的名字叫“Walker S1”。通讯员 黎寒池 摄

这一观点得到了不少嘉宾呼应,清华大学交叉信息学院助理教授、星海图联合创始人赵行认为,数据策略需坚守“真实性、多样性、规模化”三大原则,“从真实机器人数据采集起步,深入各类真实场景拓展数据维度,再通过扩大采集规模、降低采集成本实现量化突破,让数据规模化反向驱动模型进化”。这种“场景全覆盖+数据全维度”的采集模式,能让机器人在训练中接触到不同环境、不同任务的复杂情况,从而逐步摆脱对人工遥控的依赖。

但真实数据的采集并非处处可行,北京大学助理教授、银河通用创始人王鹤将目光投向了合成数据的补位价值。他以人形机器人行走、灵巧手操作为例,指出这类复杂物理交互的底层控制,在仿真环境中学习效率更高,“模拟器能提供丰富的物理交互基础,为真实世界的数据飞轮转动打下基础,这正是合成数据的核心使命”。

上海财经大学《具身智能十大观察》报告通过英伟达机器人基础模型研发等案例,分析了合成数据在突破真实数据采集局限上的独特优势。在此背景下,2026年行业实践的融合路径或许是:在各类场景训练中,通过合成数据完成基础技能搭建,再以真实数据精准优化,让数据资源在互补中实现价值最大化。

国家发展改革委2025年11月底公布的数据显示,我国具身智能产业正以超50%的增速跨越式发展,2030年将达到千亿元市场规模。随着国家支持“仿真与真机数据融合”技术攻关的推进,数据“不够用、不好用”的困局或将逐步破解。

机器人的“大脑”会有统一标准吗?

具身智能搭载的大模型,就像是机器人的智慧大脑——它决定了机器人能不能听懂指令、判断环境、自主做事。但目前,关于这个“大脑”的技术架构尚未形成统一标准,分层模型、端到端VLA(视觉—语言—动作)等多种技术路径尚处于“百家争鸣”时代。

未来行业内能否形成,或是否有必要形成统一的具身智能“大脑标准”?

第22届东博会上,观众兴致勃勃地观看机器人格斗表演。广西云-广西日报记者 梁凯昌 摄

“具身智能得有自己专属的技术架构,不能照搬大语言模型发展路径。”张家兴就此保持中立态度,“人类的智能进化是先会动、再能看、最后才会说话,而现在主流的VLA架构,相当于在‘看’和‘动’之间加了‘说话’这一步,不符合实际操作本质。”

张家兴举例说,开车时我们是直接通过眼睛看路况就操控方向盘、踩刹车,并不需要先在心里把动作描述成语言再执行。他还透露,硅谷头部团队正探索“先看后动”或“边看边动”的新架构,2026年可能会出现更多不一样的技术创新,打破当前单一架构的主导局面。

智元机器人合伙人、首席科学家罗剑岚则认为,行业最终会形成一个整合多种技术的统一系统。“VLA的大方向是对的,但不会是现在的样子,它会和世界模型、强化学习等技术融合,既能通过世界模型预判接下来会发生什么,又借助强化学习在实践中不断优化,再配合真实场景的数据持续升级。”他解释说,这个统一系统不是“一刀切”的单一架构,而是“核心模块统一、场景适配灵活”的生态体系。

统一“大脑标准”的落地需要什么条件?智源研究院院长王仲远判断为“数据先行”。他补充解释,这也是智源布局多模态世界模型的重要原因,但统一架构的出现需要海量数据支撑,可能要等大量机器人在真实场景中累积足够多的数据后,才会真正落地。

在统一架构的具体形态上,赵行认为:“大概率是‘大型动作模型’,它会以动作能力为核心,先让机器人具备灵活运动的基础算法,再叠加视觉感知能力,最后融入语言交互功能,就像生物进化的自然规律。”他进一步解释,这种模型能实现“动作—反馈—调整”的实时优化,比如机器人抓取物体时,能根据物体的轻重、形状调整力度和姿势,这和大语言模型“问一句答一句”的单向响应逻辑完全不同。

结合业界学界的观点不难判断,具身智能“大脑架构”的“百家争鸣”不会骤然终结,但或将在2026年进入“分歧收窄、共识凝聚”的冷静期。

预判功能 是必需还是锦上添花?

世界模型,被业内视为具身智能的“物理模拟器”——能在虚拟环境里推演重力、碰撞等规律,预判苹果抛落轨迹这类环境变化,靠“提前想一步”的能力帮机器人规划动作。这一能力的重要性已被行业普遍认可,但关于它是落地必需的核心功能,还是可后续补充的加分项,业内仍有不同理解。

“世界模型的预测能力是核心,但训练数据必须来自机器人自身。”王鹤表示,当前通过人类行为视频训练世界模型的思路存在局限,机器人与人类身体结构差异巨大,这类数据帮助有限,只能靠大量机器人自身数据训练获得。

在贺州市科技馆,学生们正与机器人一起做健身操。通讯员 黎豪图 摄

在落地节奏上,王仲远的看法更加务实。他认为世界模型“有用但非必需”,具身智能不用等技术完美再落地,可先通过简单的决策逻辑实现基础功能,在实际应用中收集数据,再逐步迭代世界模型的精度,就像自动驾驶从基础辅助到高阶自主的演进过程。

加速进化创始人兼CEO程昊从企业落地视角补充:“我们关注世界模型,核心是看中它能提前规划多步动作,让落地更高效,先让机器人‘活下来’,再用真实数据反哺模型优化。”他以工业场景举例,当前不少工厂的具身机器人,虽未搭载复杂的世界模型,但通过精准的视觉识别和简单的路径规划,已能完成零部件搬运、质检等任务,创造了实际价值。

这种“先落地再优化”的路径,在其他领域也有成熟先例。中国科学院大学教授赵冬斌以自动驾驶为例佐证:“自动驾驶的发展就是先落地收集数据,再通过数据迭代模型。当各类机器人能在真实场景中边工作边收集数据,世界模型的训练自然水到渠成。”

政策层面也在为技术落地保驾护航。国家发展改革委明确提出,接下来将推动训练与中试平台等基础设施建设,促进技术、数据、资源的开放共享,加速具身智能体在真实场景中落地应用。

可以预测,世界模型将加速从实验室技术走向场景化应用,在工业制造、物流配送等标准化场景中率先实现突破。而在家庭服务等复杂场景中,世界模型或以一屋一定制的“轻量化模块”形式逐步渗透,随着具身智能一道,走入更多生活场景。

《广西日报》1月14日4版版面截图。

扫一扫在手机打开当前页
>>更多精彩图集推荐