首页  >  资讯  >  正文

具身智能分词器升级:机器人动作开始“可压缩表达”

时间: 2026-06-30 阅读: 102
欧易交易所
欧易交易所

全球三大交易所之一,注册领50 USDT数币盲盒!

具身智能这条技术路线,过去很长一段时间卡在一个看似细节、实则核心的问题上:机器人动作到底能不能像语言一样被编码。

自变量机器人这次发布的跨具身动作分词器X-Tokenizer,切入的正是这个长期存在但不显眼的技术缝隙。

从结构上看,它采用的是“编码器—语义残差量化(SRQ)—解码器”架构。听起来仍然是典型的深度学习框架,但变化点藏在中间那一层:SRQ被用来替代传统的残差向量量化(RVQ),目的不是提升精度,而是试图把“动作意图”从连续运动信号中剥离出来。

如果放在机器人领域的语境里,这一步其实很关键。过去的动作建模更偏向“轨迹拟合”,也就是尽可能还原机械臂在空间中的连续运动路径。但问题在于,这种表示方式很难迁移到不同机械结构之间——一套模型在A型机械臂上学到的动作,很难直接迁移到B型系统。

SRQ的思路更接近一种“语义压缩”。它不只是记录动作本身,而是试图把动作拆解成更抽象的意图层,再叠加细节残差。这种结构的潜在意义在于,动作可以被“token化”,类似自然语言中的词元,从而进入统一建模空间。

训练数据规模也比较直观。X-Tokenizer在覆盖17个机械臂系列的240万条轨迹上预训练,累计20亿动作帧。这一数据量级放在机器人领域已经不算轻量,尤其是跨机械臂的混合数据,意味着模型不是针对单一硬件优化,而是试图建立一种跨形态的动作表示能力。

具身智能的问题一直在于“数据不统一”。语言模型可以依赖互联网文本的标准化结构,但机器人数据则分散在不同硬件、不同控制系统甚至不同采样频率中。SRQ的意义就在于试图把这种异构性压缩成统一表达。

从技术路径看,这一步和大模型早期做tokenization的逻辑有点相似,只不过输入从文本变成了物理动作。动作不再是连续轨迹,而是可以被离散化、组合和重建的结构单元。

行业里有一个比较现实的背景:具身智能正在从“单点演示能力”向“跨场景泛化能力”过渡。机械臂在实验室环境中表现良好并不难,难的是换一套任务、换一套结构后还能保持稳定输出。动作表示方式,往往比控制算法本身更决定上限。

X-Tokenizer选择在语义层面做文章,本质上是在尝试降低跨硬件迁移成本。一旦动作可以被统一编码,后续的策略学习、强化学习甚至多模态对齐都会变得更接近语言模型的训练范式。

不过这个方向也有一个现实约束:动作语义是否真的可以像语言一样被稳定分解,目前仍然没有定论。物理世界的连续性、噪声和不可逆性,使得“token化”比文本更复杂。

但趋势已经比较清晰。具身智能的竞争不再只是机械控制精度,而是围绕“表示方式”展开。谁能把动作空间压缩得更稳定,谁就更有机会在跨场景泛化中占据优势。

从这个角度看,X-Tokenizer更像一个基础设施级组件,而不是单一算法升级。它解决的不是某一个任务,而是“机器人如何表达动作”这个更底层的问题。这个问题一旦收敛,后面的模型迭代速度可能会明显加快。

上一篇:Kimi估值跃升背后的API收入结构变化 下一篇:AI算力消费金融化:银联与银行开始“卖算力权益”
币安
币安

币安,全球顶级数字货币交易平台,手机即可买卖BTC等!