美团开源数字人模型:10秒视频1分钟生成,胜率超Kling

数字人视频生成赛道又迎来一位重量级玩家。美团技术团队今日正式开源 LongCat-Video-Avatar 1.5，直接将目标从 " 开源 SOTA" 转向 " 商业级应用 " ——这意味着数字人视频要从实验室里的 " 高拟真 " 演示，真正走进能用、敢用的真实场景。

这个版本最直观的变化是速度。通过 DMD 蒸馏技术，生成步数从 50 步压缩到 8 步，推理效率提升约 15 倍。生成一段 10 秒视频仅需约 1 分钟，这对需要批量生产内容的创作者和商家来说，是从 " 等得起 " 到 " 用得上 " 的关键跨越。

技术架构上有三处核心升级。音频特征提取编码器从 Wav2Vec2 换成 Whisper-large，参数量更大、多语言先验更丰富，能更精细地捕捉音素变化和发音节奏。龙猫团队还搭建了一套多阶段数据处理流程，专门补充了多人数据、静默数据和情绪数据三类增强数据，应对虚拟人生成的典型难点。此外，逐帧级的 GRPO 偏好对齐针对手部稳定性和动作连续性做了优化，缓解了手部畸变和动作不连贯的老问题。

基础体验层面，1.5 版本能应对长句、快语速、歌唱等复杂语音输入，唇部运动更精准平滑，面部表情、头部姿态与肢体动作的协调性也有提升。场景支持上，模型可稳定处理真人、动漫、动物等多种主体，在多人对话场景中也能自然区分说话者与聆听者。

美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。770 名评估者完成 13,240 条主观评分，加上 10 名专家的结构化分析，结果显示：在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上，该模型的雷达图面积处于领先水平。

横向对比更具说服力。用户偏好测试中，LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。多人场景中得分大幅领先 InfiniteTalk；主体变形问题率仅 23.1%，跳帧问题率低至 0.8%，均优于对比模型。

美团方面的表态很务实：数字人视频生成正在从展示效果走向真实使用，希望这次开源成为一个可验证、可改进、可共建的技术基座。GitHub、HuggingFace、Modelscope 等平台均已上线，技术报告和项目页面也同步公开。

开源链接已整理：GitHub 搜索 meituan-longcat/LongCat-Video，HuggingFace 和 Modelscope 同名。对于想快速验证效果的开发者，10 秒视频 1 分钟的生成速度，意味着本地调试的反馈周期被大幅压缩——这或许是比任何 benchmark 数字都更实用的进步。

宙世代

一起剪

相关标签