数字人视频生成赛道又迎来一位重量级玩家。美团技术团队今日正式开源 LongCat-Video-Avatar 1.5,直接将目标从 " 开源 SOTA" 转向 " 商业级应用 " ——这意味着数字人视频要从实验室里的 " 高拟真 " 演示,真正走进能用、敢用的真实场景。
这个版本最直观的变化是速度。通过 DMD 蒸馏技术,生成步数从 50 步压缩到 8 步,推理效率提升约 15 倍。生成一段 10 秒视频仅需约 1 分钟,这对需要批量生产内容的创作者和商家来说,是从 " 等得起 " 到 " 用得上 " 的关键跨越。

技术架构上有三处核心升级。音频特征提取编码器从 Wav2Vec2 换成 Whisper-large,参数量更大、多语言先验更丰富,能更精细地捕捉音素变化和发音节奏。龙猫团队还搭建了一套多阶段数据处理流程,专门补充了多人数据、静默数据和情绪数据三类增强数据,应对虚拟人生成的典型难点。此外,逐帧级的 GRPO 偏好对齐针对手部稳定性和动作连续性做了优化,缓解了手部畸变和动作不连贯的老问题。
基础体验层面,1.5 版本能应对长句、快语速、歌唱等复杂语音输入,唇部运动更精准平滑,面部表情、头部姿态与肢体动作的协调性也有提升。场景支持上,模型可稳定处理真人、动漫、动物等多种主体,在多人对话场景中也能自然区分说话者与聆听者。
美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。770 名评估者完成 13,240 条主观评分,加上 10 名专家的结构化分析,结果显示:在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,该模型的雷达图面积处于领先水平。
横向对比更具说服力。用户偏好测试中,LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。多人场景中得分大幅领先 InfiniteTalk;主体变形问题率仅 23.1%,跳帧问题率低至 0.8%,均优于对比模型。
美团方面的表态很务实:数字人视频生成正在从展示效果走向真实使用,希望这次开源成为一个可验证、可改进、可共建的技术基座。GitHub、HuggingFace、Modelscope 等平台均已上线,技术报告和项目页面也同步公开。
开源链接已整理:GitHub 搜索 meituan-longcat/LongCat-Video,HuggingFace 和 Modelscope 同名。对于想快速验证效果的开发者,10 秒视频 1 分钟的生成速度,意味着本地调试的反馈周期被大幅压缩——这或许是比任何 benchmark 数字都更实用的进步。


登录后才可以发布评论哦
打开小程序可以发布评论哦