活力中国调研行|直击雄安“机器人训练工厂”:5000万小时需求撞上8万条储备,“数据荒”下雄安正在紧急“补课”

wap (9) 2026-07-01 22:44:59

每经记者|张蕊    每经编辑|李雨冰    

走进中国雄安集团数城公司具身智能训练场,最抢眼的不是冷冰冰的机器人,而是一群头戴VR(虚拟现实技术)眼镜、手舞操作手柄的年轻人。他们双臂悬空,动作时而如打游戏般灵巧,时而如做手术般精准。

不远处的操作台上,一台人形机器人正在他们的遥控下,小心翼翼地将面包夹起、送入烤面包机,再从烤面包机拿出、稳稳地摆入餐盘——动作虽略显笨拙,却已初具人类厨房的节奏感。

活力中国调研行|直击雄安“机器人训练工厂”:5000万小时需求撞上8万条储备,“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第1张

训练场内正在被数据采集员遥控夹面包的机器人 图片来源:每经记者 张蕊 摄

这是《每日经济新闻》记者(以下简称“每经记者”)近日跟随2026年“活力中国调研行”,在训练场现场看到的真实一幕。

在这个被称作“机器人训练工厂”的地方,工业搬运、家居生活、商业零售、物流装配等场景一应俱全。有人穿着外骨骼机械臂遥控机器人搬箱子,有人通过手柄指挥机器人摆桌签,还有人盯着传送带上的物品,一遍遍地训练机器人完成分拣。所有看似枯燥的重复操作,目的只有一个:喂给机器人足够优质的数据“养料”。

不过,目前市面上已经有机器人品牌在便利店等场景落地,为何还需要持续进行数据采集工作?一个训练场每天能产生多少有效数据?采集数据过程中有什么难点?数据上架到雄安新区城市可信数据空间后的商业模式是怎样的?围绕这些问题,每经记者进行了深入采访。

当前具身智能行业存在“数据荒”

谈及做具身智能训练场的初衷,数城公司总经理助理李国良表示,目前具身智能数据需求非常迫切,存在“数据荒”问题。真正要让一台机器人在多场景下灵活作业,需要至少10亿条数据支撑,这个数据量相当大。

“去年9月、10月,一些合作伙伴就向我们提出采购5000万小时具身智能高质量数据集的需求。当时我们跑了很多训练场,发现全国范围内这种大规模、长时长的数据储备是不够的。”李国良说,“我们正是为了满足社会共性需求来做这件事,同时,雄安新区周边人工成本较低,做这件事既能带动地方就业,也能推动产业发展。”

事实上,在李国良看来,对具身智能行业而言,目前亟需在两个方向提升:一是模型研发能力,即世界模型的能力,让模型具备足够强的多场景适配能力;二是各种场景数据的足够储备,用来训练模型的泛化能力。

活力中国调研行|直击雄安“机器人训练工厂”:5000万小时需求撞上8万条储备,“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第2张

训练场内搭建的真实商业零售场景 图片来源:每经记者 张蕊 摄""

李国良进一步阐释,不同的机器人应用场景各不相同。如果把具身智能行业的发展比作一个人的成长过程,那么数据就相当于“养料”。在“幼儿园”阶段,数据为机器人提供认知世界的基础;到了“小学”阶段,则需要通过多场景的数据采集和不断迭代,为模型训练提供支撑。“只有经过反复的数据采集和模型训练,再将模型迁移到机器人本体上,机器人才能真正发挥作用。”

不过,目前市面上已经有机器人品牌在便利店等场景落地,为什么还需要持续进行数据采集工作?

对此,李国良表示,目前这些已经落地的机器人场景虽然相对成熟,但机器人本体实际上并不具备泛化能力,这意味着机器人只能完成固定位置、固定物品的动作。比如,在一个固定位置放了一瓶可乐,机器人可以识别并完成抓取动作;但如果这个位置换成了方便面,或者可乐被移到了其他位置,机器人就无法完成动作了。因此,依然需要通过大量数据训练模型,提升模型的泛化能力。

当前,要让机器人做到“举一反三”、灵活应变,仍然面临很大挑战。李国良举例说,比如今天让机器人跳了一段霹雳舞,采集了相关数据,迁移到另一台机器人上,后者就能跳古典舞——这绝不是一条数据就能实现的,而是需要几千次的数据采集和训练才能达到。模型迁移到机器人本体上,可能需要几千条甚至上万条数据。因此,提升模型泛化能力和开发世界模型,是当前头部企业和科研院所正在努力的方向。

数据采集真正挑战在于场景复杂性

“通过移动手柄将面包拿起来,放到烤面包机里,然后再把它从面包机里拿出来,放到盘子里,通过这一系列操作来完成一条数据采集。”数据采集员梁俪珊告诉每经记者,每一个动作都需要重复1000多次“它”才能记住,像环境、操作角度、力度等因素都会影响机器人的识别。

正是由于一个动作要做几千次甚至上万次,很枯燥,所以数据采集员在采集数据之余也做数据标注工作。“网好的话一天能标三四十条,因为数据时长、网速快慢都会有影响。”梁俪珊说。

活力中国调研行|直击雄安“机器人训练工厂”:5000万小时需求撞上8万条储备,“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第3张

训练场内屏幕上展示的烤面包的数据标注页面 图片来源:每经记者 张蕊 摄

每天大概产生多少条数据?李国良告诉每经记者,一台机器人一天工作8小时,每天数据采集员通过机械臂或操作杆操作,大概会产生1000个动作、1000条数据。但在标注和核查过程中,有些是无效数据,比如抓取失败、角度不对或位置不对等情况,当然,这些失败数据对某些单位训练模型也有意义。总体而言,每天用于正向训练的有效数据在200~400条之间,但训练一个动作或一个模型,需要几千条甚至上万条数据才能完成。

记者了解到,目前国内机器人厂商有100多家,各家厂商数据标准尚未统一,这是行业面临的普遍问题,也是要实现不同厂家、不同构型的机器人在统一平台上训练的难点。

为解决这一问题,李国良对每经记者表示,通过与合作方共同研发的平台,能够适配国内所有主流机器人品牌的数据格式,通过点对点的数据解析技术,解析每个时段的含义和格式,实现通过一个平台完成主流机器人的统一数据采集。“这是我们与合作伙伴共同完成的一项创新。”

记者在现场了解到,具身智能训练场目前已经与智元机器人等多家厂商进行合作,涉及的机器人构型已有五六种,包括轮式、轮臂、折叠式等。除了双足机器人外,其他类型基本都已覆盖。四足机器人目前尚未涉及,因为四足机器人大多用于线路规划等既定动作,不需要进行类似的训练。

不过,“没有统一的数据标准其实不是最大的挑战。”李国良认为,具身智能数据采集真正的挑战在于场景的复杂性——家居、酒店、餐馆、城市环卫、巡检等,面临的场景太多了。不同场景、不同应用方面,面临的小场景又各不相同,所需的密度也不一样。千行百业都需要对机器人进行训练,机器人才能逐渐替代人工,尤其是重复性、危险性的动作。这说明市场潜力非常大。

探索具身智能数据在城市可信数据空间交易

记者注意到,为落实《可信数据空间发展行动计划(2024—2028年)》,去年7月,国家数据局综合司发布了可信数据空间创新发展试点名单,涵盖城市、行业、企业三个方向,其中数城公司是13个城市可信数据空间试点之一。

记者在现场了解到,目前,训练场已进入真机数据采集与标注的常态化运营阶段,高质量数据同步上架至雄安新区城市可信数据空间,需求方可以从可信数据空间选用下单。

对此,李国良介绍道,其实公司在做数据要素流通、数据交易的同时,面临具身智能数据的需求,才开始研究具身智能训练场。“去年八九月份我们进入这个行业时,具身智能发展特别迅速。目前需求方主要包括具身智能本体企业、具身智能模型企业,以及一些科研院所和高校。”

“目前我们正在与一家单位洽谈从平台上下单。因为我们的机器人数量还不多,规模还不大,所以目前数据储备还不是特别大,我们自己有8万条数据。但是通过这些机器人,我们实现了技术路线的打通和闭环。”

被问及从可信数据空间下单的商业模式,李国良告诉每经记者,目前具身智能数据有两种销售模式:一种是按小时计算,一种是按条数计算。按条计算的话,每条价格在8元~48元之间。价格差距主要取决于两个层面:一是数据的独占性,如果数据卖给一家后不能再卖给其他家,即转移了数据持有权,价格会比较高;二是如果数据可以复制销售,不转移权属,价格会低一些。现在讲数据也是“三权分置”,即持有权、加工使用权和经营权。

谈及下一步的具体规划,李国良表示:“从数据方面入手是最迫切的。近一两年,我们一定要做更大规模的具身智能训练场,具备更强大的数据采集生产能力。一方面是固定场景的数据采集,搭建更多固定场景;另一方面是走出固定场景,工作人员或采集员通过穿戴式设备、背包式数据采集设备,到社会上采集更广泛的数据,也可以给酒店、餐馆等真实工作人员配备可穿戴的采集设备,在不影响其工作效率的情况下采集数据,满足城市运营管理、城市治理等方面的数据需求。”

活力中国调研行|直击雄安“机器人训练工厂”:5000万小时需求撞上8万条储备,“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第4张

训练场内数据采集员正在遥控机器人摆桌签 图片来源:每经记者 张蕊 摄

持续训练最终能达到怎样的效果?

李国良举例道,比如通过对酒店住宿场景的反复训练,实现离店后的打扫、清扫、叠被子等动作的自动化,最终实现无人化酒店;餐馆也可以实现无人化。但这需要两个方面的突破:一是模型泛化能力的突破,二是足够的数据储备用于模型训练。

“我认为,具身智能走向千家万户在几年内是可以做到的。通过具身智能产业的发展来改变人们的生活方式和生产方式,不断提高人民生活水平。”他说。

封面图片来源:每经记者 张蕊 摄

THE END

相关文章阅读

最热文章

更多>