IT之家 5小时前
字节开源轻量原生统一多模态AI模型Lance
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 5 月 22 日消息,字节跳动最新发布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。

与把 " 理解 " 和 " 生成 " 拆成多个模块再拼接的常见方案不同,Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体系,目标是让 1 个模型同时处理 X2T、X2I、X2V 3 类输出任务。

IT 之家援引论文内容,理解任务依赖与语言对齐紧密的高层语义特征;生成任务则需要保留纹理、几何结构和时序动态的低层连续表示,而 Lance 则兼顾和平衡这两种相反的需求。

Lance 为此采用共享上下文和能力解耦并行的设计:所有文本、图像、视频输入先转成统一交错序列,再交给双流专家架构分别负责理解与生成。

在具体结构上,文本标记来自 Qwen2.5-VL 嵌入层;偏理解的视觉输入由 Qwen2.5-VL 的 ViT 编码器提取语义视觉标记。

偏生成的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成连续潜在表示,含 16 × 空间下采样和 4 × 时间下采样。

随后,模型在完整上下文上使用广义 3D 因果注意力,文本采用因果注意力,视觉标记采用双向注意力。

Lance 还引入了 MaPE,即 Modality-Aware Rotary Positional Encoding(模态感知旋转位置编码)。

它通过给不同模态组添加固定时间偏移,不破坏图像和视频内部的空间结构与时间顺序的前提下,解决同一序列中多类视觉标记边界混淆的问题。

训练方面,Lance 分 4 个阶段推进:

预训练阶段使用约 1B 图文对和 140M 视频文本对,总计 1.5T 标记;

持续训练阶段引入编辑、主体驱动生成和多模态理解数据,规模约 300B 标记;

监督微调阶段使用 72B 标记提升指令遵循和身份一致性;

强化学习阶段采用 Group Relative Policy Optimization(组相对策略优化),并借助 PaddleOCR 作为奖励模型提升文字渲染与图文对齐。全部训练预算控制在最多 128 张 GPU 内。

基准结果显示,Lance 在统一模型中表现突出:

图像生成上,GenEval 总分 0.90,和 TUNA 并列前列;

视频生成上,VBench 总分 85.11,高于 TUNA 的 84.06,也超过 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69;

图像编辑上,GEdit-Bench 达 7.30;

视频理解上,MVBench 达 62.0,高于 Show-o2(7B)的 55.7。

开源层面,Lance 采用 Apache 2.0 许可,权重已在 Hugging Face 提供,推理环境要求 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。

参考

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 it之家 字节跳动 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论