
作者 | 山竹
出品 | 锌产业
机器人马拉松、机器人足球赛、机器人技能大赛,乃至机器人格斗大赛……
过去这半年,称得上是中国人形机器人史上最高光的半年。
尽管人形机器人不断被质疑落地问题——
高盛在年初调研宇树后指出,“人形机器人的转折点尚未到来”;
特斯拉前机器人项目负责人近日也表示,“Optimus这样的人形机器人并不适合在工厂中工作”;
我们在各类机器人大赛中,更是直观的看到了人形机器人频频摔倒和罢工……
但这些似乎并没有影响人形机器人作为未来科技产业被重资押注。
从地方政府的投入来看,全国核心省市几乎都已经成立了人形机器人创新中心。
就在本周,湖北人形机器人创新中心官宣投用,目前这一创新中心已经有9家机器人企业入驻,拟签约和意向入驻企业17家,7000平米的创新中心涵盖动作训练、数据采集、应用实践、人才培训几个基地。
从商业化情况来看,已经成为中国人形机器人企业最具代表性的存在的宇树科技,此前曾官方回应,宇树在2020年就实现了盈利,公司的四足机器人、人形机器人也已经卖到了全球不少高校、研究所和机器人团队。
近日,宇树更是传出了更名、或将上市的消息,宇树科技90后创始人王兴兴也成了杭州具身智能产业联盟首任轮值董事长。
就“当下发展势头正猛,但未来商业化不明朗”的人形机器人,在2025北京智源大会上,宇树科技创始人王兴兴、北京人形机器人创新中心总经理熊友军、银河通用创始人王鹤、穹彻智能联合创始人卢策吾,以及Physical Intelligence联合创始人Karol Hausman——

这几位产业派、学术派,以及创新中心的代表人物进行了一场人形机器人主题对话,谈了各家机器人的最新进展,各类机器人大赛带来的行业影响,以及VLA的价值和边界。
就此次对话,我们就关键内容整理如下:
01 冠军机器人,也难进家庭
问:前几天在CMG世界机器人大赛机甲格斗擂台赛中,宇树的机器人获得了冠军,请介绍一下这个冠军机器人?
王兴兴:冠军机器人是我们去年发布的G1。
无论是今年春晚上的机器人表演,还是近期的机器人格斗赛,我们是希望真正给大家展示一下当前全球人形机器人发展情况,并且带动整个机器人行业发展。
目前,机器人还不能直接在家里或工厂里干活,这是全球机器人产业面临的挑战。
当然,我们是希望机器人可以真正去干活,但在机器人能够真正干活之前,我们希望可以通过已经达到的一些技术成果进行商业化拓展。
我相信机器人格斗大赛在未来一两年会成为比较受欢迎的体育赛事,我觉得这是一件激动人心的事。

问:两个月前,在北京首个人形机器人半程马拉松比赛中,天工机器人夺冠,请介绍一下夺冠的天工和天工2.0的升级?
熊友军:天工1.0在半程马拉松比赛中跑出2小时40分的成绩,被证明是最能跑的机器人。
天工2.0在1.0版本基础上做了升级,我们希望它能更好用、做更多事,所以我们的升级重点在上肢——在机器人上肢增加了自由度和灵巧手,提升了负重能力。
北京人形机器人创新中心成立于2023年11月2日,是全国首个省级人形机器人创新中心,2024年10月升级为国家地方共建具身智能机器人创新中心。
我们天工2.0的升级是系统性的,具体有四个方面升级:

一是硬件平台,之前1.0版本主打适应草地、沙地、丘陵等多种复杂地形,现在的2.0版本可用于工厂或危险环境完成任务;
二是软件平台,今年3月我们发布了第一个通用具身智能体“慧思开物”,一脑多机、一脑多能平台,包括具身智能大脑和小脑,大脑负责人机交互、环境感知、意图识别、任务规划,小脑负责运动和执行,并将执行结果反馈给大脑,实现闭环;
三是数据平台,我们围绕训练具身智能体构建了一个大型数据采集和机器人训练中心,我们构建了20多个虚实结合采集场景;
四是可靠性平台,我们牵头建设了北京的测试平台。
问:银河通用机器人的模型有何新进展?
王鹤:去年我们展示了人形机器人吸取盒状物体,今年我们基于VLA技术打造了更贴近一般商超货架场景的应用。
我们轮式底盘的人形机器人基于自研端到端大模型,不依赖轨迹生成就可以从密集货架上抓取物品,目前可以处理瓶装、袋装、薯片等多样商品。
这个模型是闭环的,支持动态交互,我们的技术特点是使用低成本合成数据训练的机器人模型。

问:穹彻智能目前有何新进展?
卢策吾:从产品角度来看,去年我们发布了穹彻大脑V1版本,我们今年7月马上将会发布V2版本,这里体现了对物理世界的理解和交互。
力反馈对复杂、动态接触、鲁棒性极高的模仿人类下意识场景很关键,例如刮胡子需要持续接触,力度要恰到好处,否则会刮伤或刮不干净。
我们的技术已经批量在食品加工行业落地,例如制作冰淇淋要求动作控制要精确到每毫秒,还要模仿人类手感。

我们的力反馈结合位置反馈的模型适用于高密度接触场景,未来也可以拓展到生活场景,如照顾老人、帮人类擦脸等。
问:Physical Intelligence的具身智能机器人和模型有哪些最新进展?
Karol:π 0.5是我们引以为傲的模型,目前对于具身智能机器人来说,最大的挑战是如何在从未见过的环境中执行任务。
我们最终选择了极具多样性的家庭环境作为机器人的训练环境,在家庭环境中,每个房间都和另一个房间都是完全不一样的。
从实验结果来看,我们的机器人只需在100个房间中完成训练,就能泛化到第101个房间中,尽管成功率还不完美。

这表明具身智能机器人训练对于数据需求已经不高,泛化前景也很乐观,但目前我们仍处于早期阶段。
02 大赛的意义:科普、训练、产业化
问:今年具身智能很火,也出现了很多机器人赛事,如何看机器人赛事活动的意义?
王兴兴:从春晚上表演节目到打格斗比赛,我认为这些赛事是向大众展示机器人一个很好的平台,可以让大众更早接触到机器人。
我们现在让机器人跳舞、打格斗赛,其实是希望通过AI技术让机器人实现各种全身动作,跳舞、格斗只是其中的一部分,我们是希望机器人最终可以执行端茶倒水、洗衣做饭等任务。
我一直相信,当具身智能发展到一定阶段后,一个足够智能的家用机器人一定可以跳舞,也可以打格斗比赛。

我们公司的终极目标是希望机器人能干活,但目前直接让机器人进入家庭或工厂干活还不现实。
在这个终极目标没有实现之前,我们可以通过表演和比赛展示机器人,让大众更了解机器人,并产生一些商业价值。
例如人形机器人租赁市场已经很火爆,本身已经带来一些产业价值。
熊友军:机器人比赛很有意义,尤其是北京即将在鸟巢举办世界人形机器人运动会,我认为它的意义体现在三个方面:
第一,它是机器人知识普及的盛会,通过比赛我们可以让大众对机器人发展状况有一个全面的了解。
据我们所知,这次在鸟巢的机器人比赛会有短跑、长跑、障碍赛、接力赛、足球、舞蹈等大家喜闻乐见的项目,大家愿意看,看的过程中就会对机器人知识和发展状况有比较深的了解,做了科技普及。
第二,它也是一个很好的技术训练场,很多比赛场景源自于人类真实生活场景,如物流搬运、医药分拣、酒店服务场景,这些都是企业或行业提出的需求,对提升机器人技术有很大帮助。

第三,它是机器人企业与潜在客户沟通的桥梁,通过这类比赛会加速机器人产业化。
Karol:国外的机器人比赛没有中国这样火爆,海外也有如Robot Cup机器人比赛,不过更多还是学术性比赛,我很期待看到这些赛事未来的发展。
问:人形机器人这些大赛与产业落地有怎样的联系?
王鹤:具身智能一个当下目标是——推动具身智能产业化。
虽然我们看到了很多炫酷的技能,但是要反思这样的技能在新的环境里、新的目标物体下,以及挑剔的用户和高成功率场景下能否成功执行任务。
银河通用和智源共同的思考是:一定要先将一些最重要的技能打通,我们这里主要关注移动、抓取、放置三项技能。
无论是在生活超市、工厂料库,还是在外卖前置仓中,如果我们可以用人形机器人进行24小时服务,这样就可以形成具身智能走向产业化、服务人类、创造生产力的开始,推动人形机器人生产力时刻的到来。
一个好消息是,银河通用的机器人在北京已经开了7家无人药店,机器人可以24小时分拣药品并对接骑手,解决夜间急需用药的需求,我们年底将会在北京、上海、深圳开100家药店。

未来我们希望超市下订单、车厂配料这些场景可以由机器人来实现,我们也希望可以和后续赛事进行对接,通过赛事推动可落地的技能形成。
卢策吾:同意王鹤老师的观点。
赛事是很好的起点,能看到机器人的性能,但下一步要让机器人产生价值,能干活儿,需要进行技能比赛。
我们正在逐步将机器人的技能性提高,我们穹彻智能正在逐步将物理世界中持续接触所需的力位反馈模型应用到食品加工等场景中,未来我们希望可以看到更多关于机器人技能的比赛。
03 人形机器人,是不是最佳形态?
问:张拔院士指出,人形机器人不是具身智能和AGI的最佳路径,通用机器人需要有硬件多样性和软件通用性。你如何看人形机器人的形态?
王兴兴:我并不坚持必须要做人形机器人。我们之前是做四足机器人的,从四足机器人到做人形机器人是顺理成章的事。
就机器人的腿部而言,轮式底盘非常实用,那为什么现在大家还要做人形?
这是因为现在的AI大部分是基于人的数据采集和训练,尤其是机器人的上半身保持与人类动作一致,便于AI数据采集和训练。
此外,就跳舞、格斗等任务而言,如果机器人做成别的样子,也就没办法执行这些任务。

未来在AGI、通用AI出现后,会出现千奇百怪的机器人形态,工厂、医疗等领域出现的机器人形态会是现在的百倍不止。
不过,目前的AI都是数据驱动的,长的像人的人形机器人在训练和落地过程中会有很大优势。
熊友军:具身智能载体多样,不一定局限于人形,人形只是其中一种形态,但从未来市场容量开看,我认为人形机器人是具身智能的最佳载体,具体可以从以下几个方面来考虑:
首先,今天机器人不一定像人,但从市场应用来看,商用服务和家庭市场会是一个很大的市场,今天走入工厂只是“开胃小菜”,人形机器人市场体量未来会很大。
其次,人形机器人便于人机交互,未来机器人走入家庭成为我们的伙伴、朋友,人形更容易让人接受。
最后,人类环境是为人而设计的,人形机器人在部署和适应环境过程中,更便于使用工具,也不需要过多环境改造。
虽然短期来看,人形机器人成本和技术不占优势,但长期来看,人形将会是最佳形态。
04 VLA:泛化可用数据改善,性能需要算法创新
问:VLA已经成为自动驾驶的主流方案,但机器人操作空间更复杂,如何看VLA的泛化性?
王鹤:自动驾驶验证了端到端方案有更好的扩展性,能够通过数据驱动模型而非规则驱动,现在进入道路的自动驾驶车辆采用的就是这种端到端方法。
VLA的意义在于可以直接通过视觉观察,通过自然语言下达命令,最终模型会不经过任何中间环节、端到端的输出动作。

从端到端角度来看,VLA模型可以充分吸收数据背后的知识并发挥出最大性能,不用受制于模块化方案中间的错误和即连误差,也不需要写无穷无尽规则兜底的问题。
现在的VLA是研究热点,但究竟要突破什么,大家想法各有不同。
有人希望可以将人类能够做的所有事在VLA中快速实现,然后形成基座模型,从这个角度来讲,我们还是太着急了。
人类除了有视觉外,还有力觉、触觉、嗅觉、味觉等,VLA只是起点,要想真正做到人类级别的具身智能,需要不断融合新的模态。
VLA现在最适合做的是移动、抓取、放置,这几个技能是以视觉为主,末端加一个触觉或力觉传感器就能执行的很好,在工业、商业领域的很多场景可以得到广泛应用。
如果我们能将这样的VLA先做好,在任何场景中不需要微调就能实现部署落地,这将会是见证具身智能高潮到来的起点。
卢策吾:VLA的本质是:通过视觉理解世界,通过语言与人类沟通,通过动作改变世界。
VLA要做到通用,就需要压缩它的不确定性,VLA相当于是个“火锅底料”,现在只能“清汤寡水”,只能服务一部分人,要服务更多人的话,就需要不断往里面加“东西”,需要不断加入额外的信息,使得它能执行更多任务。

例如,我们可以加入力反馈,很多时候人的下意识动作是不用动脑的,人擦桌子的时候不用每毫秒计算,有了力反馈后稳定性和鲁棒性会很高。
此外,我们如果能够更好地理解物理世界,就可以进一步压缩空间,所以我们在穹彻V2版本大脑里加入了“数字基因”——可以将世界产生的无穷无尽的数据资产加入其中,力反馈也带来了新的训练模型,使得数据量需求逐渐下降。
只要找到好的模态不断压缩空间,找到聪明的方式融到模型中,就可以将VLA一步一步往前推进。
问:跨本体的VLA在实践中有何瓶颈?是数据规模问题还是算法问题?
Karol:目前最大的瓶颈是成功率不足,尤其在复杂、长时序、灵巧任务中。即使有无限数据,现有算法也难以达到100%成功率,需新算法再突破。
几个月前我认为泛化性是瓶颈,但π 0.5显示泛化可通过数据改善,而性能更需算法创新。
还没有评论,来说两句吧...