2026 年 4 月,AI 视频赛道阴云密布——字节跳动的 Seedance 2.0 陷入版权争议,OpenAI 关停了 Sora。就在这条赛道上空飘着灰霾的时候,一匹来自阿里的名为 HappyHorse-1.0 的 " 黑马 " 突然杀出,以文生视频 1333 Elo、图生视频 1392 Elo 的评分冲上 Artificial Analysis 榜单榜首,在两条赛道同时压过字节和快手等对手。更令人意外的是,从核心研发团队组建到模型屠榜,只用了不到五个月。
带队的人叫张迪——被称之为 " 可灵之父 ",他是快手可灵大模型的技术一号位,是把快手从 " 内容分发平台 " 升级为 " 内容生产基础设施 " 的核心推动者。2025 年 11 月,他回到阿里,出任淘天集团 " 未来生活实验室 " 负责人,职级 P11。仅仅五个月后,HappyHorse 横空出世。
HappyHorse-1.0 ——完全开源可商用、原生多模态、支持多语言唇形同步、推理成本低、一次性同步生成视频与音频。它的意义在于每一项都在指向同一个方向:让视频生成从技术演示变成商家日常使用的生产工具。更重要的是,阿里的安排很有深意。HappyHorse 没有被放在一个纯研究部门里,而是一开始就落在了淘天集团,离电商交易现场最近的地方。这意味着它从立项第一天起就不是一个技术 demo,而是一个绑着业务场景长的产品,它的每一次迭代,都可以直接用商品视频的生产效率和转化数据来检验。
HappyHorse 选择了和千问同样的策略——开源、可商用。这等于向外界释放了一个明确信号:它不只是阿里内部的一个技术项目,而是阿里面向视频电商时代布下的一枚战略棋子。张迪要做的,不是再做一个闭门的惊艳模型,而是一个能让整个电商生态用起来的视频基础设施。
那么,能做成这件事的人,他的底层能力究竟从何而来?答案要往前追溯十五年。
图片来源:量子位
从搜推广系统入手,把深度学习做进了大规模商业场景
张迪的本硕生涯全部在上海交通大学计算机专业度过。2010 年硕士毕业后,他选择加入阿里巴巴,担任资深技术专家。那一年,阿里巴巴正处于从电商平台向技术驱动的数据公司转型的关键期。他进入的阿里妈妈,是阿里集团的广告技术中台,承载着淘宝、天猫等核心业务的广告、推荐、搜索和转化系统,背后涉及的是大规模数据、大规模分发和复杂工程系统。对刚毕业的张迪来说,这里提供了技术人最好的训练场。
这些东西听起来没有大模型那么热闹,但它们正是后来中国互联网公司训练 AI 人才的地方。张迪在阿里的十年,大致就是在这样的环境里度过的——每天吞吐海量用户行为,在延迟、成本、效果、反馈之间反复取舍。系统不允许工程师只做一个好看的 demo,它强迫你做出真正有用的东西出来。这十年,为他打下了两个底色:一是对工程可行性的本能敏感,二是对 " 技术必须落到商业回报上 " 的清醒认知。
在阿里期间,张迪深度参与了搜推广业务向深度学习时代的技术转型。他担任阿里妈妈大数据与机器学习工程架构负责人时,主导了广告业务进入深度学习时代的系统架构升级,致力于构建淘宝搜索、推荐、广告一体化的大数据与深度学习平台技术体系。这项工作不是简单的模型调参,而是从工程架构层面重构整个系统。这一段经历中,他获得的不是单点算法能力,而是操控大规模机器学习系统全链条的经验——从数据、训练、推理到在线服务,每一环的成本与延迟他都亲身经历。
2019 年,阿里巴巴开源了大规模分布式图表征学习框架 Euler,可支持数十亿点、数百亿边的大规模异构图表征学习,内置了大量高效的图神经网络算法。张迪作为阿里妈妈大数据与机器学习工程架构负责人,深度参与了 Euler 的系统架构设计与工业场景应用。在一次题为 "Euler:大规模图神经网络推高人工智能的天花板 " 的技术分享中,他详细剖析了如何支撑大规模图神经网络的计算,以及不同类型图神经网络算法的实现与加速。
来源:阿里云开发者社区
图神经网络的价值在于解决传统深度学习难以处理的关系推理和可解释性问题。在电商场景里,用户、商品、搜索词之间构成一张巨大的关系网,理解这些关系比理解单个样本特征重要得多。Euler 要解决的实际问题是:让广告推荐系统真正理解用户与商品之间的复杂关联,而不只是做简单的特征匹配。这意味着模型可以从 " 你搜过篮球 " 升级为 " 你搜过篮球,你和一个买过球鞋的用户行为相似,你大概率也需要球鞋 " 这类复杂推理。张迪在这一领域的工作,不仅体现在学术论文上——他在分布式深度稀疏学习系统的通信延迟分析方面也有研究成果,对阿里 DDL 系统进行了测量,揭示了通信延迟的主要贡献因素——更重要的是体现在工业落地层面。Euler 在阿里内部多个商业场景中得到了实际应用,而张迪正是那个把前沿算法变成可运行系统的人。
在学术研究方面,张迪还参与提出了 Graph Intention Network(GIN)方法,这是第一个将图学习引入用户意图挖掘进行点击率预测的研究工作,在赞助搜索领域的 CTR 预测中实现了图学习与 CTR 预测任务的端到端联合训练。这项研究的意义在于,它让广告系统不再只看用户点了什么,而是去理解用户背后的意图链条。
回头看这段经历,张迪做的所有事情都围绕同一条主线:把前沿算法从论文里拿出来,放进大规模商业系统里跑出实效。Euler 解决的是 " 关系理解 " 问题,GIN 解决的是 " 意图挖掘 " 问题,他主导的系统架构升级解决的是 " 工程落地 " 问题。这些能力后来在做视频生成时全部用上了——视频模型的训练和推理同样面临大规模分布式系统的挑战,而他对这类问题的判断力,不是从书本上学来的,是在阿里妈妈十年里一点一点磨出来的。
从零起步,做出一款年收破亿美元的视频生成软件
2020 年,张迪离开阿里,加入快手,担任技术副总裁。此时的快手已经从流量竞争进入技术竞争阶段。他负责大模型与多媒体技术部、算法引擎部及 AI 平台部,主导快手生成式 AI 大模型的技术研发与应用,构建万亿参数规模的大模型训练及推理基础设施。
在这几年间,他带领团队自主研发了大语言模型 " 快意 "、图像生成模型 " 可图 " 等多个基座模型,并将大模型与多媒体技术用于快手核心业务。2023 年初,他被正式任命为大模型与多媒体技术团队负责人,聚焦大模型、视觉生成模型和多模态模型等方向。
张迪技术生涯的高光时刻出现在 2024 年。他以 " 技术一号位 " 身份,牵头可灵大模型的底层架构搭建与全场景落地。可灵对快手的意义非同寻常。它让快手从过去的 " 内容分发平台 " 升级为 " 内容生产基础设施提供商 ",构建了 " 创意生成 - 视频制作 - 一键分发 - 流量变现 - 数据迭代 " 的完整闭环。
2025 年 4 月,可灵 AI 迎来一次根本性的组织升格——快手正式成立可灵 AI 事业部,下设产品、运营、技术等部门,升格为公司一级部门,直接向 CEO 程一笑汇报,与短视频主业务平起平坐。这次拆分并非自上而下的行政命令,而是业务发展到一定阶段的自然结果:在此之前,张迪带领团队完成了 30 余次版本迭代,推动可灵 AI 上线后迅速占领全球视频生成技术的领先位置。2025 年第一季度,可灵 AI 营收已超 1.5 亿元,年化收入运行率(ARR)突破 1 亿美元。正是在这一商业验证关口,快手决定将可灵 AI 独立成军,赋予其更大的资源调配权和发展自主权。拆分后,张迪继续担任可灵 AI 技术部负责人,聚焦模型持续迭代与技术深度的维护。这种 " 业务负责人与技术负责人并行 " 的架构,既是对张迪此前技术奠基能力的认可,也使得可灵 AI 能从单一技术输出转向完整的商业闭环构建。
2024 年,张迪被增选为 CCF 多媒体专委会执行委员。当时的官方介绍中写道:他 " 构建万亿参数规模的大模型训练及推理基础设施,自主研发大语言模型‘快意’,图像生成模型‘可图’,视频生成模型‘可灵’等多个基座模型 "。这是他快手时期技术广度的最好注脚。可灵 AI 的拆分与升格,则进一步证明了他不仅具备从 0 到 1 打造顶尖模型的能力,更有推动技术产品跨越商业鸿沟、进而驱动组织变革的战略价值。
来源:新华社
2025 年 8 月,快手发布组织架构调整公告,宣布由高级副总裁盖坤兼任可灵 AI 技术负责人,张迪正式卸任并离职。一手把可灵大模型从 0 带到 1 的 " 可灵之父 ",就此离开。
一次快速试错,恰好照见了他的底层判断逻辑
2025 年 9 月初,张迪从快手离职后加入 B 站,出任技术条线负责人。但这段经历极其短暂——仅一个多月后他就选择了离开。
虽然没有官方说法,但从各平台的信息来看,这次短暂牵手更像一次双方在根本诉求上的错位。有 B 站员工在讨论中提到,B 站引入张迪的预期相对明确:希望有一位 AI 负责人能像 Meta 那样,利用 AI 技术直接拉升广告效率。B 站的广告业务盘面不大但增长诉求很强,商业化压力摆在那里,他们要的是一个能快速作用于变现效率的人。
而张迪在快手的履历已经清楚表明,他的核心能力不在广告优化上。他做的事情是从零开始搭建基座模型、定义视频生成产品、把模型推到 C 端用户面前并跑通商业闭环。换句话说,他要的不是在现有业务上做效率加法,而是开辟一个新赛道。
资源投入上的落差也是显然的。做基座模型不同于做应用层优化,它对算力、数据、人员规模有明确的硬需求。B 站当时没能提供一个足够支撑基座模型探索的研发配置,这几乎意味着张迪最擅长的方向从一开始就缺乏落地条件。
所以这次离开,并不需要被解读为谁对谁错。它更像一个筛选信号,照见的是张迪在选择方向时的底层判断逻辑:第一,他要做的是基座模型和模型原生应用,而不是把 AI 当作现有业务的效率工具;第二,他对资源投入规模有清醒的预期,如果底层配置撑不起技术野心,他不会在原地等待条件成熟;第三,他对自己的判断速度很快,一旦发现路径不对,不会因为人情或平台光环而犹豫。
这一个月,恰好比任何一段技术履历都更清楚地说明了一件事:张迪知道自己要什么,也知道自己不要什么。他找的不是一个大厂的标签,而是一块能把基座模型从技术做到产品的完整土壤。
重磅回归,五个月做出 HappyHorse,登顶开源 AI 视频榜单
2025 年 11 月,张迪正式加入阿里巴巴淘天集团,担任 " 未来生活实验室 " 负责人,职级 P11,直接向淘天集团首席科学家、技术总裁兼阿里妈妈 CTO 郑波汇报。
" 未来生活实验室 " 是阿里 AI 战略布局的关键阵地,聚焦大模型、多模态等前沿 AI 方向,集中顶尖技术人才和算力数据,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用。该团队成立一年多以来,已在大语言模型、多模态等领域取得多项前沿技术突破,在国际顶会发表论文超 10 篇。这意味着张迪回归后手里握着的,是一个已经完成前期积累、正等待产品化突破的团队。
来源:AI Top 100
后面的事情,就是文章开头那一幕。从回归到 HappyHorse-1.0 登顶榜单,仅用了五个月。但这五个月并非平地起高楼,而是一场被极短时间窗口倒逼出来的系统性技术攻坚。
张迪接手 " 未来生活实验室 " 时,团队已有前期积累——成立一年多以来,已在大语言模型、多模态等领域取得多项前沿技术突破,在国际顶会发表论文超 10 篇。留给张迪的时间只有不到五个月,2026 年 Q2 是淘天集团规划中 " 视频生成全面接入商家工具链 " 的战略节点。
张迪做的第一件事是重构技术路线。他将 HappyHorse 推向 40 层统一自注意力 Transformer 单流架构,将文本、图像、视频、音频 token 纳入同一序列联合训练,中间 32 层参数共享,音画内容从一次推理中同步生成,从底层解决了音画不同步、口型错位的行业痛点。据官方数据,单张 H100 显卡生成 5 秒 1080P 带音频视频仅需 38 秒,速度显著优于同类主流模型。
第二件事是攻克 " 原生多模态 " 技术难点。HappyHorse 一次前向推理直接输出带声音的成片,口型、脚步声、环境音全部在同一过程中生成。模型原生支持中文(普通话 + 粤语)、英语、日语、韩语、德语、法语七种语言唇形同步,口型同步词错误率为同类模型最低。
来源:Happy Horse 官网
第三件事是推理成本工程化。张迪团队采用自研 DMD-2 蒸馏技术,完全消除 CFG 依赖,将去噪步骤压缩至 8 步,配合 FP8 量化优化,算力消耗较行业主流模型降低约 60%。这个数字让 HappyHorse 真正具备了商业化落地的经济前提。
最后,张迪将 HappyHorse 与电商交易场景深度绑定。据媒体报道,模型的训练数据主要来自淘天平台的商品图、实拍视频及交易行为日志,接入交易反馈数据后,生成的营销素材点击率较传统视频提升 37%,加购率提高 22%。
很多人把 HappyHorse 的爆发,理解成一次模型能力的胜利。但如果把时间线拉长,会发现它更像是张迪过去十五年技术路径的一次集中兑现。他在阿里妈妈做的,是大规模商业系统里的机器学习基础设施;在快手做的,是把视频生成从技术能力推到真实用户和真实收入面前;而中间那次短暂的 B 站经历,则反而让他的判断逻辑变得更加清晰——他真正想做的,从来不是 "AI 给业务提效 ",而是让模型本身成为下一代内容生产的底层基础设施。
这也是为什么,他回到阿里后的第一件事,不是继续做一个封闭的明星模型,而是做出 HappyHorse 这样一个开源、可商用、直接贴近电商场景的视频模型。因为张迪很早就意识到,视频生成真正的竞争,终局不会停留在榜单和跑分上,而是谁能把模型真正嵌进产业、嵌进交易、嵌进每天都在发生的内容生产里。
从搜索广告时代,到推荐系统时代,再到今天的视频生成时代,张迪几乎踩中了中国互联网过去十五年每一次关键的 AI 技术迁移。而他身上最稀缺的地方,也许并不是某一个模型做得足够强,而是他始终知道:技术只有进入真实世界,才算真正完成。HappyHorse 并不是他的 " 新起点 ",反而更像是他过去十五年所有能力的一次自然汇合。
[ 1 ] 百度百科,https://baike.baidu.com/item/ 张迪 /66745743
[ 2 ] 字母 AI,那个做出可灵的人,回阿里又造了一匹黑马,https://mp.weixin.qq.com/s/MsXmu26eNl_2Ljf5mrm1cw?scene=1
[ 3 ] 电商派 Pro,马云挖走快手一员大将,阿里轰动行业,https://mp.weixin.qq.com/s/DeVdshFfZvf-M8OpFU428g?scene=1&click_id=85
[ 4 ] 知潜 KnowFuture,刚刚加入 B 站的原可灵负责人,已离职加入阿里,https://mp.weixin.qq.com/s/75jnmQj-_EZjpjq_tldpsA?scene=1&click_id=86
[ 5 ] CCF 多媒体专委会,CCF-MM 专委会新增执行委员介绍(第八期),http://tc.ccf.org.cn/tcmt/xsdt/zwxw/2025-02-12/837911.shtml
[ 6 ] Happy Horse,https://happy-horse.art/zh/
[ 7 ] 今日头条,AI 顶流张迪入职 B 站 2 月,火速回归阿里,到底为何?,https://www.toutiao.com/article/7569241950327407138/?wid=1776734994647
[ 8 ] 新浪财经,原快手副总裁张迪加入阿里,担任未来生活实验室负责人,https://finance.sina.com.cn/roll/2025-11-04/doc-infwftun9976255.shtml
[ 9 ] Happy Horse,https://happyhorseai.com/zh/blog/happyhorse-1-0
[ 9 ] 阿里新模型 happyhorse-1.0 登顶 LM Arena 视频编辑榜,视频 AI 从 " 生成 " 走向 " 精修 ",https://www.aitop100.cn/infomation/details/33637.html
加入 ZF 讨论群,请先添加小助手微信
---------END--------
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com
稿件经采用可获邀进入 Z Finance 内部社群,优秀者将成为签约作者,00 后更有机会成为 Z Finance 的早期共创成员。
我们正在招募新一期的实习生


登录后才可以发布评论哦
打开小程序可以发布评论哦