本报讯 (记者梁傲男)4月21日,自变量机器人科技(深圳)有限公司(以下简称“自变量机器人”)发布新一代具身基础模型WALL-B。这是基于世界统一模型架构的具身智能基础模型,标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。
自变量机器人创始人兼CEO王潜表示,今年5月25日,自变量机器人部署WALL-B模型的新一代机器人将入驻真实家庭,并公开招募首批愿意开放家庭场景的用户。
“早上七点,闹钟响了。你从床上爬起来,走到客厅。拖鞋不知踢到哪里,厨房的碗还没洗,孩子的书包扔在地上,猫打翻了一杯水。”王潜以这一日常描述开场,直观揭示了家庭环境的本质,随机、碎片、不断变化。
舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽然视觉冲击力强,但这些动作本质是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。工厂中已经部署的工业机器人同样不构成可比案例:工厂环境下,一个动作可以重复一万次且每次条件相同;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。
“硬件已经到位了,双足、灵巧手、力控关节都很好。但大脑没有跟上。当前机器人的核心瓶颈不在本体,而在智能。家庭环境中的每一秒都可能出现全新事件:猫何时跳上桌子、孩子把玩具扔在哪里、地毯的摩擦力与实验室地板完全不同。现有技术无法处理这种随机性和碎片化,机器人进入家庭也被视为最难的技术问题之一。”王潜表示。
目前,行业内大多数训练模型的数据来自实验室:实验室中的固定光照、固定物体位置、无干扰环境。自变量机器人联合创始人兼CTO王昊将这类实验室数据比喻为“糖水数据”——干净、可控、量大,但与真实世界差距显著,尤其与家庭中随时变化的自然光、随意摆放的物品、孩子和宠物的随机动作完全不同。用这类数据训练出的模型,在真实环境中会迅速失效。
与之相对的,王昊比喻为“牛奶数据”,即真实家庭环境中采集的嘈杂、多变、充满随机性的数据,也是自变量选择的数据道路。
为了获取这类数据,自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户家庭的布局、灯光、物品摆放和混乱程度各不相同。有的家庭地面散落着拖鞋、快递箱、玩具和袜子;有的家庭中猫会突然跳上桌子。这些变量在实验室中无法模拟,但却是家庭环境中的日常现象,这恰恰是模型必须学会应对的真实条件。
王昊介绍,WALL-B具备三个核心技术特点,能够让机器人更适配家庭场景:一是原生多模态,模型不需要通过“传话”的方式在不同模块间转译信息,比如看到杯子的同时就能准备伸手;二是具备物理世界“世界观”,能够感知并预测重力、惯性、摩擦力、速度等基本物理规律,利用对基本物理常识的理解来应对新场景,不需要针对每个家庭重新训练;三是与世界交互并自我进化,这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练,无需人工注入新数据,无需返回实验室。
不过,王潜也表示,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房,擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更聪明。
综合来看,自变量机器人的数据策略可总结为:实验数据打底,真实场景提质。实验室数据用于建立基本能力——识别常见物体、执行基础动作;真实家庭数据用于让模型学会在不确定环境中生存。真实随机、不可预测的现实数据所驱动的数据飞轮,才是真正的壁垒。
机器人进入家庭的同时,隐私问题不容回避。王潜表示,自变量机器人采用视觉脱敏方案,第一,机器人在设备端会随时打码,原始图像不离开设备,机器人看到的是处理过的去除了个人特征的场景数据。第二,透明授权,用户不同意则不开机。第三,用途限定,绝不共享,发现可疑指令立即锁定。
另外,王潜在发布会上确认,自变量机器人已经于3月底至4月初完成近20亿元B轮融资,领投方为小米战投。不久前,美团、阿里和字节分别在A轮、A+轮、A++轮领投或独投自变量机器人。截至目前,自变量机器人成为国内唯一一家同时被四家互联网大厂投资的具身智能企业。
