活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课”

admin wap (9) 2026-07-01 22:44:59

每经记者｜张蕊每经编辑｜李雨冰

走进中国雄安集团数城公司具身智能训练场，最抢眼的不是冷冰冰的机器人，而是一群头戴VR（虚拟现实技术）眼镜、手舞操作手柄的年轻人。他们双臂悬空，动作时而如打游戏般灵巧，时而如做手术般精准。

不远处的操作台上，一台人形机器人正在他们的遥控下，小心翼翼地将面包夹起、送入烤面包机，再从烤面包机拿出、稳稳地摆入餐盘——动作虽略显笨拙，却已初具人类厨房的节奏感。

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第1张

训练场内正在被数据采集员遥控夹面包的机器人图片来源：每经记者张蕊摄

这是《每日经济新闻》记者（以下简称“每经记者”）近日跟随2026年“活力中国调研行”，在训练场现场看到的真实一幕。

在这个被称作“机器人训练工厂”的地方，工业搬运、家居生活、商业零售、物流装配等场景一应俱全。有人穿着外骨骼机械臂遥控机器人搬箱子，有人通过手柄指挥机器人摆桌签，还有人盯着传送带上的物品，一遍遍地训练机器人完成分拣。所有看似枯燥的重复操作，目的只有一个：喂给机器人足够优质的数据“养料”。

不过，目前市面上已经有机器人品牌在便利店等场景落地，为何还需要持续进行数据采集工作？一个训练场每天能产生多少有效数据？采集数据过程中有什么难点？数据上架到雄安新区城市可信数据空间后的商业模式是怎样的？围绕这些问题，每经记者进行了深入采访。

当前具身智能行业存在“数据荒”

谈及做具身智能训练场的初衷，数城公司总经理助理李国良表示，目前具身智能数据需求非常迫切，存在“数据荒”问题。真正要让一台机器人在多场景下灵活作业，需要至少10亿条数据支撑，这个数据量相当大。

“去年9月、10月，一些合作伙伴就向我们提出采购5000万小时具身智能高质量数据集的需求。当时我们跑了很多训练场，发现全国范围内这种大规模、长时长的数据储备是不够的。”李国良说，“我们正是为了满足社会共性需求来做这件事，同时，雄安新区周边人工成本较低，做这件事既能带动地方就业，也能推动产业发展。”

事实上，在李国良看来，对具身智能行业而言，目前亟需在两个方向提升：一是模型研发能力，即世界模型的能力，让模型具备足够强的多场景适配能力；二是各种场景数据的足够储备，用来训练模型的泛化能力。

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第2张

训练场内搭建的真实商业零售场景图片来源：每经记者张蕊摄""

李国良进一步阐释，不同的机器人应用场景各不相同。如果把具身智能行业的发展比作一个人的成长过程，那么数据就相当于“养料”。在“幼儿园”阶段，数据为机器人提供认知世界的基础；到了“小学”阶段，则需要通过多场景的数据采集和不断迭代，为模型训练提供支撑。“只有经过反复的数据采集和模型训练，再将模型迁移到机器人本体上，机器人才能真正发挥作用。”

不过，目前市面上已经有机器人品牌在便利店等场景落地，为什么还需要持续进行数据采集工作？

对此，李国良表示，目前这些已经落地的机器人场景虽然相对成熟，但机器人本体实际上并不具备泛化能力，这意味着机器人只能完成固定位置、固定物品的动作。比如，在一个固定位置放了一瓶可乐，机器人可以识别并完成抓取动作；但如果这个位置换成了方便面，或者可乐被移到了其他位置，机器人就无法完成动作了。因此，依然需要通过大量数据训练模型，提升模型的泛化能力。

当前，要让机器人做到“举一反三”、灵活应变，仍然面临很大挑战。李国良举例说，比如今天让机器人跳了一段霹雳舞，采集了相关数据，迁移到另一台机器人上，后者就能跳古典舞——这绝不是一条数据就能实现的，而是需要几千次的数据采集和训练才能达到。模型迁移到机器人本体上，可能需要几千条甚至上万条数据。因此，提升模型泛化能力和开发世界模型，是当前头部企业和科研院所正在努力的方向。

数据采集真正挑战在于场景复杂性

“通过移动手柄将面包拿起来，放到烤面包机里，然后再把它从面包机里拿出来，放到盘子里，通过这一系列操作来完成一条数据采集。”数据采集员梁俪珊告诉每经记者，每一个动作都需要重复1000多次“它”才能记住，像环境、操作角度、力度等因素都会影响机器人的识别。

正是由于一个动作要做几千次甚至上万次，很枯燥，所以数据采集员在采集数据之余也做数据标注工作。“网好的话一天能标三四十条，因为数据时长、网速快慢都会有影响。”梁俪珊说。

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第3张

训练场内屏幕上展示的烤面包的数据标注页面图片来源：每经记者张蕊摄

每天大概产生多少条数据？李国良告诉每经记者，一台机器人一天工作8小时，每天数据采集员通过机械臂或操作杆操作，大概会产生1000个动作、1000条数据。但在标注和核查过程中，有些是无效数据，比如抓取失败、角度不对或位置不对等情况，当然，这些失败数据对某些单位训练模型也有意义。总体而言，每天用于正向训练的有效数据在200～400条之间，但训练一个动作或一个模型，需要几千条甚至上万条数据才能完成。

记者了解到，目前国内机器人厂商有100多家，各家厂商数据标准尚未统一，这是行业面临的普遍问题，也是要实现不同厂家、不同构型的机器人在统一平台上训练的难点。

为解决这一问题，李国良对每经记者表示，通过与合作方共同研发的平台，能够适配国内所有主流机器人品牌的数据格式，通过点对点的数据解析技术，解析每个时段的含义和格式，实现通过一个平台完成主流机器人的统一数据采集。“这是我们与合作伙伴共同完成的一项创新。”

记者在现场了解到，具身智能训练场目前已经与智元机器人等多家厂商进行合作，涉及的机器人构型已有五六种，包括轮式、轮臂、折叠式等。除了双足机器人外，其他类型基本都已覆盖。四足机器人目前尚未涉及，因为四足机器人大多用于线路规划等既定动作，不需要进行类似的训练。

不过，“没有统一的数据标准其实不是最大的挑战。”李国良认为，具身智能数据采集真正的挑战在于场景的复杂性——家居、酒店、餐馆、城市环卫、巡检等，面临的场景太多了。不同场景、不同应用方面，面临的小场景又各不相同，所需的密度也不一样。千行百业都需要对机器人进行训练，机器人才能逐渐替代人工，尤其是重复性、危险性的动作。这说明市场潜力非常大。

探索具身智能数据在城市可信数据空间交易

记者注意到，为落实《可信数据空间发展行动计划（2024—2028年）》，去年7月，国家数据局综合司发布了可信数据空间创新发展试点名单，涵盖城市、行业、企业三个方向，其中数城公司是13个城市可信数据空间试点之一。

记者在现场了解到，目前，训练场已进入真机数据采集与标注的常态化运营阶段，高质量数据同步上架至雄安新区城市可信数据空间，需求方可以从可信数据空间选用下单。

对此，李国良介绍道，其实公司在做数据要素流通、数据交易的同时，面临具身智能数据的需求，才开始研究具身智能训练场。“去年八九月份我们进入这个行业时，具身智能发展特别迅速。目前需求方主要包括具身智能本体企业、具身智能模型企业，以及一些科研院所和高校。”

“目前我们正在与一家单位洽谈从平台上下单。因为我们的机器人数量还不多，规模还不大，所以目前数据储备还不是特别大，我们自己有8万条数据。但是通过这些机器人，我们实现了技术路线的打通和闭环。”

被问及从可信数据空间下单的商业模式，李国良告诉每经记者，目前具身智能数据有两种销售模式：一种是按小时计算，一种是按条数计算。按条计算的话，每条价格在8元～48元之间。价格差距主要取决于两个层面：一是数据的独占性，如果数据卖给一家后不能再卖给其他家，即转移了数据持有权，价格会比较高；二是如果数据可以复制销售，不转移权属，价格会低一些。现在讲数据也是“三权分置”，即持有权、加工使用权和经营权。

谈及下一步的具体规划，李国良表示：“从数据方面入手是最迫切的。近一两年，我们一定要做更大规模的具身智能训练场，具备更强大的数据采集生产能力。一方面是固定场景的数据采集，搭建更多固定场景；另一方面是走出固定场景，工作人员或采集员通过穿戴式设备、背包式数据采集设备，到社会上采集更广泛的数据，也可以给酒店、餐馆等真实工作人员配备可穿戴的采集设备，在不影响其工作效率的情况下采集数据，满足城市运营管理、城市治理等方面的数据需求。”

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课” (http://www.kingbaby.com.cn/) wap 第4张

训练场内数据采集员正在遥控机器人摆桌签图片来源：每经记者张蕊摄

持续训练最终能达到怎样的效果？

李国良举例道，比如通过对酒店住宿场景的反复训练，实现离店后的打扫、清扫、叠被子等动作的自动化，最终实现无人化酒店；餐馆也可以实现无人化。但这需要两个方面的突破：一是模型泛化能力的突破，二是足够的数据储备用于模型训练。

“我认为，具身智能走向千家万户在几年内是可以做到的。通过具身智能产业的发展来改变人们的生活方式和生产方式，不断提高人民生活水平。”他说。

封面图片来源：每经记者张蕊摄

THE END

美加墨世界杯不建新球场，却赚了史上最多的钱：上座率高达99.6%，预计收入89亿美元！三个关键点确保巨大商业成功

近期8款创新药密集获批；赛诺菲流脑疫苗III期临床研究头对头单挑康希诺曼海欣｜掘金创新药

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课”

当前具身智能行业存在“数据荒”

数据采集真正挑战在于场景复杂性

探索具身智能数据在城市可信数据空间交易

相关文章阅读

上半年投行业务迎科技类IPO红利，保代队伍却逆势缩减近350人

603995实控人之一，内幕交易被判刑；三钢闽光：全资子公司补缴税款及滞纳金合计2881万元｜公告精选

直击股东会 | 箱厂排产至三季度叠加24艘新船布局中远海发“产融投”叙事能否撑起“A+H”估值修复？

金力永磁上半年净利预增三成至五成，预计二季度扣非净利润环比正向修复

栏目最新文章

诺伊尔发文：我不后悔回归的决定，身披德国队服让我深感自豪

最热文章

上半年投行业务迎科技类IPO红利，保代队伍却逆势缩减近350人

603995实控人之一，内幕交易被判刑；三钢闽光：全资子公司补缴税款及滞纳金合计2881万元｜公告精选

直击股东会 | 箱厂排产至三季度叠加24艘新船布局中远海发“产融投”叙事能否撑起“A+H”估值修复？

金力永磁上半年净利预增三成至五成，预计二季度扣非净利润环比正向修复

新男主“敖尹”被永久叫停！《恋与深空》全球吸金近11亿美元，如今向玩家“低头”：女性向游戏粗放增量时代落幕

以军前总参谋长宣布竞选总理！他抨击内塔尼亚胡太顺从特朗普，其小儿子、侄子、外甥在加沙阵亡

农药企业兰升生物冲刺深市主板IPO：五人盟约锁定控制权二股东持股19.23%却游离局外

家长通宵排队、学校1天招满⋯⋯北京等多地中职招生火爆职业教育为何从“无奈选择”变成“香饽饽”

金银突然直线拉升，金价站上4100美元，美联储主席重磅发声：通胀风险已下降；三大股指齐跌，存储股重挫，闪迪跌超6.6%｜美股开盘

东方铁塔上半年净利润预增81.87%至106.19%；甬金股份实控人之一因内幕交易罪被判刑｜公告精选

活力中国调研行｜直击雄安“机器人训练工厂”：5000万小时需求撞上8万条储备，“数据荒”下雄安正在紧急“补课”

当前具身智能行业存在“数据荒”

数据采集真正挑战在于场景复杂性

探索具身智能数据在城市可信数据空间交易

相关文章阅读

上半年投行业务迎科技类IPO红利，保代队伍却逆势缩减近350人

603995实控人之一，内幕交易被判刑；三钢闽光：全资子公司补缴税款及滞纳金合计2881万元｜公告精选

直击股东会 | 箱厂排产至三季度叠加24艘新船布局 中远海发“产融投”叙事能否撑起“A+H”估值修复？

金力永磁上半年净利预增三成至五成，预计二季度扣非净利润环比正向修复

栏目最新文章

诺伊尔发文：我不后悔回归的决定，身披德国队服让我深感自豪

最热文章

上半年投行业务迎科技类IPO红利，保代队伍却逆势缩减近350人

603995实控人之一，内幕交易被判刑；三钢闽光：全资子公司补缴税款及滞纳金合计2881万元｜公告精选

直击股东会 | 箱厂排产至三季度叠加24艘新船布局 中远海发“产融投”叙事能否撑起“A+H”估值修复？

金力永磁上半年净利预增三成至五成，预计二季度扣非净利润环比正向修复

新男主“敖尹”被永久叫停！《恋与深空》全球吸金近11亿美元，如今向玩家“低头”：女性向游戏粗放增量时代落幕

以军前总参谋长宣布竞选总理！他抨击内塔尼亚胡太顺从特朗普，其小儿子、侄子、外甥在加沙阵亡

农药企业兰升生物冲刺深市主板IPO：五人盟约锁定控制权 二股东持股19.23%却游离局外

家长通宵排队、学校1天招满⋯⋯北京等多地中职招生火爆 职业教育为何从“无奈选择”变成“香饽饽”

金银突然直线拉升，金价站上4100美元，美联储主席重磅发声：通胀风险已下降；三大股指齐跌，存储股重挫，闪迪跌超6.6%｜美股开盘

东方铁塔上半年净利润预增81.87%至106.19%；甬金股份实控人之一因内幕交易罪被判刑｜公告精选

直击股东会 | 箱厂排产至三季度叠加24艘新船布局中远海发“产融投”叙事能否撑起“A+H”估值修复？

直击股东会 | 箱厂排产至三季度叠加24艘新船布局中远海发“产融投”叙事能否撑起“A+H”估值修复？

农药企业兰升生物冲刺深市主板IPO：五人盟约锁定控制权二股东持股19.23%却游离局外

家长通宵排队、学校1天招满⋯⋯北京等多地中职招生火爆职业教育为何从“无奈选择”变成“香饽饽”