首页  >  资讯  >  正文

美团开源LongCat数字人框架升级

时间: 2026-05-22 阅读: 103
欧易交易所
欧易交易所

全球三大交易所之一,注册领50 USDT数币盲盒!

数字人技术正在从实验阶段加速走向产业应用阶段,而模型稳定性和生成效率正成为行业竞争的关键指标。近日,美团长猫团队宣布开源数字人生成框架LongCat-Video-Avatar 1.5,通过对音频理解、视频生成以及推理流程进行重构,进一步强化长视频场景下的人物一致性与生成速度。对于AI数字人赛道而言,这不仅是一次模型版本迭代,更反映出行业技术重点正在从“能生成”转向“能稳定生成、能规模化生成”。

过去一段时间,AI视频和数字人技术虽然快速发展,但长视频中的人物形象漂移、动作失真以及口型不同步等问题始终存在,这些问题限制了数字人技术在直播、教育、客服和内容生产等商业场景中的落地。而此次LongCat-Video-Avatar 1.5的更新,核心价值恰恰集中在这些实际应用痛点上。当生成结果开始具备工业级稳定能力时,其商业想象空间也会被进一步打开。

具体来看,此次框架升级涉及多个技术模块的重构。首先在音频理解能力上,团队将此前采用的wav2vec2编码器更换为whisper-large-v3音频编码模型。这样的变化并不仅仅意味着参数规模提升,更重要的是对多语言环境适配能力的增强。传统模型在跨语言场景中,往往容易出现嘴型与发音节奏错位的问题,而新的编码方式则能够更准确捕捉声音细节,使数字人物的唇部动作与语音内容形成更自然的匹配关系。

第二个变化出现在长视频生成稳定性方面。值得注意的是,长视频生成一直是AI视频领域的难题。人物在短时间内看起来可能较为自然,但视频时长增加后,模型容易出现身份漂移。例如人物五官变化、动作不连贯、手部异常或者帧率错乱等问题。LongCat-Video-Avatar 1.5通过GRPO强化学习方式进行优化,减少了手部畸变以及异常抽帧等现象。与此同时,系统还采用多片段滚动推理机制,通过前序视频建立全局时序信息,让后续生成内容保持统一的人物特征。

第三个值得关注的部分则是推理速度。AI视频生成目前普遍面临高算力消耗问题,生成一分钟视频可能需要较长时间。为了解决这一问题,LongCat框架引入DMD2少步蒸馏方案,将去噪迭代步骤压缩至8步。简单理解,这相当于减少模型重复计算过程,在尽量保持图像质量的同时缩短生成时间。一个明显变化是,行业已经不再单纯追求更大模型,而开始思考如何以更低资源成本获得更高效率。

从行业角度分析,这次更新背后反映出AI视频领域正在进入新的竞争阶段。过去大模型竞争更多聚焦参数规模、训练数据量以及基础能力,而现在行业关注点开始向可落地性转移。企业真正需要的不是一个只能展示效果的模型,而是能够稳定运行并支撑实际业务的生产工具。

以数字人直播场景为例,如果长时间直播过程中人物面部频繁变化,或者动作出现失真,很容易影响用户体验。同样,在在线教育、虚拟客服以及影视制作领域,稳定性和一致性甚至比画质本身更加重要。因此,模型性能指标开始发生变化,不再只是比较清晰度和生成质量,而是加入长时间身份保持能力、多语言支持能力以及实时推理能力等新维度。

与此同时,开源策略也值得关注。模型权重以MIT协议发布,意味着研究机构和开发者能够较低门槛地进行二次开发和扩展。近年来,从图像生成到视频生成,开源生态在人工智能发展过程中发挥着越来越大的作用。此前大量生成式AI能力主要掌握在少数大型科技企业手中,而开源框架的普及正在降低技术获取门槛。

类似情况已经在多个领域出现。图像生成模型、语音合成模型以及代码生成模型都经历过从闭源走向开放生态的发展过程。当更多开发者参与其中后,模型优化速度往往会进一步加快。值得注意的是,LongCat框架还支持动漫和动物等不同风格生成,并兼容单声道和多声道输入,这意味着其应用边界并不局限于真人数字人。

从更长周期观察,AI数字人技术的发展逻辑已经出现变化。早期阶段行业主要关注“能否生成一个数字形象”,随后进入“能否生成更逼真的数字人物”,而现在则进一步演变为“能否让数字人稳定工作”。技术标准不断提高,也意味着市场成熟度正在提升。

此次LongCat-Video-Avatar 1.5开源并不仅是一项技术更新,它所释放的信号更接近产业能力升级。当长视频一致性、跨语言适配以及推理效率逐渐成为行业基础能力后,数字人技术未来或将加速进入内容生产、营销传播和企业服务等场景。未来一段时间,围绕稳定性、实时性和低成本部署的竞争可能会进一步加剧,而真正能够形成规模效应的平台,也将更容易在下一轮AI视频生态竞争中占据主动位置。

上一篇:日本或推3万亿日元补充预算 下一篇:Galaxy与BitGo百亿美元旧案重回焦点
币安
币安

币安,全球顶级数字货币交易平台,手机即可买卖BTC等!