首页 > 资讯 > 正文

具身智能分词器升级：机器人动作开始“可压缩表达”

时间： 2026-06-30 阅读： 102

欧易交易所

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

具身智能这条技术路线，过去很长一段时间卡在一个看似细节、实则核心的问题上：机器人动作到底能不能像语言一样被编码。

自变量机器人这次发布的跨具身动作分词器X-Tokenizer，切入的正是这个长期存在但不显眼的技术缝隙。

从结构上看，它采用的是“编码器—语义残差量化（SRQ）—解码器”架构。听起来仍然是典型的深度学习框架，但变化点藏在中间那一层：SRQ被用来替代传统的残差向量量化（RVQ），目的不是提升精度，而是试图把“动作意图”从连续运动信号中剥离出来。

如果放在机器人领域的语境里，这一步其实很关键。过去的动作建模更偏向“轨迹拟合”，也就是尽可能还原机械臂在空间中的连续运动路径。但问题在于，这种表示方式很难迁移到不同机械结构之间——一套模型在A型机械臂上学到的动作，很难直接迁移到B型系统。

SRQ的思路更接近一种“语义压缩”。它不只是记录动作本身，而是试图把动作拆解成更抽象的意图层，再叠加细节残差。这种结构的潜在意义在于，动作可以被“token化”，类似自然语言中的词元，从而进入统一建模空间。

训练数据规模也比较直观。X-Tokenizer在覆盖17个机械臂系列的240万条轨迹上预训练，累计20亿动作帧。这一数据量级放在机器人领域已经不算轻量，尤其是跨机械臂的混合数据，意味着模型不是针对单一硬件优化，而是试图建立一种跨形态的动作表示能力。

具身智能的问题一直在于“数据不统一”。语言模型可以依赖互联网文本的标准化结构，但机器人数据则分散在不同硬件、不同控制系统甚至不同采样频率中。SRQ的意义就在于试图把这种异构性压缩成统一表达。

从技术路径看，这一步和大模型早期做tokenization的逻辑有点相似，只不过输入从文本变成了物理动作。动作不再是连续轨迹，而是可以被离散化、组合和重建的结构单元。

行业里有一个比较现实的背景：具身智能正在从“单点演示能力”向“跨场景泛化能力”过渡。机械臂在实验室环境中表现良好并不难，难的是换一套任务、换一套结构后还能保持稳定输出。动作表示方式，往往比控制算法本身更决定上限。

X-Tokenizer选择在语义层面做文章，本质上是在尝试降低跨硬件迁移成本。一旦动作可以被统一编码，后续的策略学习、强化学习甚至多模态对齐都会变得更接近语言模型的训练范式。

不过这个方向也有一个现实约束：动作语义是否真的可以像语言一样被稳定分解，目前仍然没有定论。物理世界的连续性、噪声和不可逆性，使得“token化”比文本更复杂。

但趋势已经比较清晰。具身智能的竞争不再只是机械控制精度，而是围绕“表示方式”展开。谁能把动作空间压缩得更稳定，谁就更有机会在跨场景泛化中占据优势。

从这个角度看，X-Tokenizer更像一个基础设施级组件，而不是单一算法升级。它解决的不是某一个任务，而是“机器人如何表达动作”这个更底层的问题。这个问题一旦收敛，后面的模型迭代速度可能会明显加快。

上一篇：Kimi估值跃升背后的API收入结构变化下一篇：AI算力消费金融化：银联与银行开始“卖算力权益”

币安

币安，全球顶级数字货币交易平台，手机即可买卖BTC等！

注册链接下载链接