硅星人 08-27
对话 Nexa AI:两位斯坦福95后,做出比GPT-4o快4倍的小模型,下一步是“端侧版Hugging Face”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

比 OpenAI 最强的 GPT-4o 更快,函数调用能力与 GPT-4 相当,同时比它小 N 倍,且只需要一张卡来做推理。

这是 Nexa AI 亮相时给大家带来的 " 冲击 "。

四个月前,Nexa AI 开发的 5 亿参数小模型 Octopus v2 在硅谷 AI 圈子引发了广泛关注。他们开发的Functional Token 技术,能实现比 GPT-4o 快 4 倍、比 RAG 解决方案快 140 倍的出色推理速度,同时具备与 GPT-4 相当的性能,函数调用准确率高达 98% 以上。

上线 Product Hunt 当天,Octopus v2 就荣获 "No.1 Product of the Day",在 Hugging Face 发布当月即累积 1.2 万次下载量。并受到 Hugging Face CTO Julien Chaumond、技术负责人 Philipp Schmid、Figure AI 创始人 Brett Adcock 等 AI 界权威人士的一致认证。

Nexa AI 由两名年轻 95 后斯坦福校友 Alex Chen 和 Zack Li 共同创立,目前共有 8 名全职员工。斯坦福大学管理科学与工程系教授、科技风险投资项目副主任 Charles ( Chuck ) Eesley,和斯坦福大学 NLP 小组教授、斯隆研究员 Diyi Yang 担任公司顾问。

据悉,他们已在短时间内成功签下 10 余家 3C 电子、汽车、网络安全、时尚消费等领域的头部企业客户。服务超过 1000 名注册用户,并于前不久完成超千万美元种子轮融资。

在 Octopus v2 发布后不到一个月,Nexa AI 又发布了首个参数量小于 10 亿却能实现多模态能力的 AI 模型 Octopus v3。

在保持媲美 GPT-4V 和 GPT-4 的函数调用准确度同时,它可以在树莓派等各种边缘设备上高效运行,支持文本和图像输入,能理解中英文。后续还上新了能在不同领域知识中执行多步查询任务的 38 亿参数模型 Octo-planner 等产品。

而接下来,Nexa AI 把 " 野心 " 延伸到整个端侧模型的市场。

最近它推出了首个端侧 AI 综合开发平台「Model Hub」。核心是一个专为本地部署设计和优化过的丰富 AI 模型库。包含自研 Octopus 系列、Llama 3.1、Gemma 2、Stable Diffusion 和 Whisper 等多种先进模型。适合在各种设备上高效运行,且无需互联网连接和 API 费用。

搭配模型库,Model Hub 还提供了一套全面的开源 SDK,支持开发者将模型部署到本地,并可根据个人需求微调定制,更具灵活性。也有大量实用示例帮用户快速上手,此外还建立了一个开发者社区。

也就是,一个端侧模型的 Hugging Face。

" 我们真正要打造的是一个 on-device 版本的 Hugging Face。" Alex Chen 告诉硅星人。通过整合模型、工具、资源和社区,他们正试图构建一个完整的端侧 AI 生态系统。

最近硅星人也与 Nexa AI 的两位联合创始人 Alex Chen 和 Zack Li 聊了聊他们对端侧 AI 的思考。

以下为对话实录:

从斯坦福校园到端侧小模型创业

硅星人:请 Alex 和 Zack 跟大家做个自我介绍吧。

Alex Chen:我是 Alex,目前是 Nexa AI 的 Co-founder 和 CEO。创建公司以前我在斯坦福大学读博,做 AI 和 Math 相关方面的研究。我和 Zack 是同济校友,已经认识大概有 10 年时间了,之前在很多学习和工作中都合作过。比如我俩都担任过斯坦福华人创业者协会的主席,在那段时间做过很多创业想法的实践,但 Nexa 是我们第一次正式成立一个创业公司去做。

Zack Li:我是 Zack,Nexa AI 的 Co-founder 和 CTO。我从斯坦福毕业后就在业界工作,先是在 Amazon Lab126 做 Echo 和 Alexa,后面去 Google 做 Google Assistant 和 Google Glass,所以积累了 4 年业界经验,也是从去年开始和 Alex 一起做 Nexa AI。因为现在做的方向和 Alex 的研究、以及我自己过往工作经验都很符合,所以我们不管是在模型训练,还是在客户交付、模型部署上都有比较大的优势。

小模型就能解决 99% 的问题

硅星人:你们觉得 scaling law 现在过时了吗?

Alex Chen: Scaling law 还没过时,我相信对大部分人来说它还是成立的。

硅星人:那跟大模型比的话,小模型的机会在哪儿?

Alex Chen:我觉得这里问到了一个很好的问题,就是刚才提到 scaling law。当我们去评估一个模型 scaling law 的时候,模型越大,它本身的综合能力肯定越强。但这是一种全方位的能力提升,以 MMLU 指标为例,大模型可能在 MMLU 不同的 subject 下能力都很强,比如语文、数学、英语。但实际很多情况是,你并不需要它在所有层面都很强,而是只要在特定领域表现突出即可。我们公司会让小模型专注于某些特定领域,比如尤其擅长数学,或尤其擅长法律,这对于数学和法律领域的人来说就已经足够了,他不需要一个特别大的模型去完成他的问题。

另外一个点是当我们用 scaling law 去不断突破模型边界的时候,其实你要解决的那剩下 1% 特别难的问题,在日常生活中不一定会全部遇到。比如说我用万亿参数的 GPT-4 去回答 "1+1=2",这个问题用 GPT-2 就能回答得很好了,而它俩之间的参数可能相差几千到 1 万倍。同样的答案可以用两个截然相反的模型,那么小模型就会在速度和耗电上明显优于大模型。

总结来讲,我觉得小模型的优势是什么?首先它速度更快、更省电。与此同时,它部署在端侧基本上是完全免费的状态,因为用本地算力就可以满足。更重要的是它可以完全保证个人隐私。比如我们有一个很大的软件客户,他们的 App 是帮助人们处理一些 ID card,包括身份证、驾照等图片信息。这种东西就没法通过云端 API 去做,因为涉及隐私,就必须用本地模型去实现这个过程。

硅星人:怎样才算一个好用的小模型?

Alex Chen:第一要速度快,第二要能在一些用户关心的领域和大模型相媲美,第三是能完全、轻松地部署在本地,既能保证隐私成本也非常低。

Functional Token 解决小模型函数调用问题," 打败 "GPT-4o

硅星人:目前 NEXA 整个产品框架是什么样的?

Zack Li:我来解答一下这个问题。首先我们的客户有 developer 和大的 enterprise。对于 enterprise 客户,我们提供的是一个端到端的解决方案。比如以一家电商公司为例,他们给出的明确需求是,针对潜在商业合作的网红去自动化邮件的发布。那么我们的模型就可以满足这个需求,并且通过配套 SDK 帮他们部署,然后给到一个可以使用的产品,加入他们的工作流。不过我们的东西很通用,所以要做的定制化是比较少的。

针对 developer 的话,他们可以去我们的 Model Hub 里找到他们想要的模型,比如针对电商场景或旅游场景的,然后通过我们的 SDK 去本地运行。我们除了支持 Octopus,也支持一些比较经典和标准的开源端侧模型,譬如 Gemma 系列、Phi 系列等等。

Alex Chen:我们的适用场景就是刚才提到的,大模型目前还无法解决的那 1% 特别难问题以外的所有问题。比如说情感陪伴、帮你去写 email、润色文章等,这些都可以通过一个部署在你本地的小模型完成。所有从难度系数上来说没那么高、但基本能满足大家日常生活的语言模型 use case,都是我们这个产品可以赋予大家去使用的东西。

除此之外我们能提供的强大功能点,也就是 Octopus 模型的最大亮点在于,它有很强的 function calling(函数调用)能力

硅星人:这也是接下来想问的,NEXA 的核心技术优势是什么?

Alex Chen:对,我们的独特之处就是可以用一个本地部署的很小模型,去和很大模型的 function calling 相媲美。它能把用户的自然语言转换成可执行的命令。比如说你想去 Amazon 买一款三星手机,直接在对话框里面输入购买需求,它就会自动打开 Amazon,并且输入三星手机的描述,帮你节省大量图形操作界面流程。相当于 Octopus 可以把很多图形操作交互转换成自然语言交互。

硅星人:你们论文中提出了一个创新的 Functional Token 概念,能解释一下吗?以及它是如何优化 AI 推理过程的?

Zack Li:过去的方法,比如基于 RAG(检索增强生成)技术,一个问题进来时,需要先从 API 文档或数据库中检索相关信息,然后把这些信息作为上下文提供给大模型进行决策。这个过程首先检索信息耗时,需要处理大量语义 token。由于上下文窗口过长,导致推理时间非常漫长,尤其是在算力和尺寸有限的设备端,模型准确性和响应速度受到限制。

我们的解决方案是通过一个端到端的模型直接输出。首次引入了 Functional Token(功能令牌)的概念,用 1 个 token 来表征整个函数信息,包括函数名、参数和文档,把上下文长度减少了 95%。当用户输入自然语言指令时,系统能省去繁杂的检索步骤,迅速识别任务关键点,触发相应的 Functional Token,从而直接生成所需输出或执行特定的函数调用。

在输出层,由于 Functional Token 代替了完整的函数表述,使得输出基本都能控制在 10 个 token 以内,因此更为简洁。这样做能显著节省计算资源和上下文空间,同时大幅提升处理速度。特别适用于移动设备或边缘计算设备,这些需要快速响应的场景。

硅星人:实际验证下来表现如何?

Zack Li: 像 GPT-4o 是一个非常大的 trillion 级别参数量模型,用多个 GPU Cluster 来做推理,但我们只是用单卡 A100 去做比较。即使是在这种极其不公平的硬件条件下,我们的 Octopus v2 模型依然比 GPT-4o 快 4 倍。

硅星人:Octopus v2 当时在 X 反响挺强烈。我看到你们还有 Octo-net, Octopus v3 和 Octo-planner,这些模型是各有所长还是一系列迭代?

Zack Li: v2、v3 到 planner 是一系列迭代,其中 v3 有了多模态能力,planner 有了多步规划能力。Octo-net 相当于一个分支,支持端云协同。

(开发者将 Octopus 模型部署在 VR 设备上的 demo)

硅星人:你们最先进的一款模型能力现在到什么程度?

Zach Li:我们的 v3 模型是目前对 enterprise 最新的,能够在 1B 参数以下支持多模态。可能国内外都有一些优秀的端侧公司逐渐出现,但目前还没有 1B 以下做到多模态,并且能达到我们 function calling 准确度的竞争对手,2B 以下目前也还没看到。

做一个 " 端侧版本的 Hugging Face"

硅星人:其实除了创业公司,很多像OpenAI、Google、Meta 之类的巨头也开始去卷小模型了,你们会有威胁感吗?

Zack Li:当然能感觉到竞争是很激烈的。但首先我们抓住一个利器,就是端测模型里最难的 function call 这件事。同时还能不断结合 Model Hub 去鼓励更多开发者加入我们,相当于走 Hugging Face 路线。所以即使现在端侧模型已经逐渐开始内卷了,我们做好模型,同时也做好平台,让更多的开发者去使用这些模型,这就是我们的一个 differentiation。

Alex Chen:其实我们真正要打造的是一个 on-device 版本的 Hugging Face。Hugging Face 是一个给云端开发者提供的 AI 研究社区,它有非常多基于 Python 还有英伟达 GPU 的模型搜寻和使用框架,但这些都是为服务器端的开发者提供的。我们的不同之处是要让模型部署在本地,那么这些模型的文件格式、部署所需要的软件支持都是不一样的,比如 Hugging Face 用 Python,我们就是 C 或者 C++,这些是核心差异。

你看到我们会有一些软件库比如 SDK,有自己开发的 Octopus 模型,还会支持像微软、Google 的一些其它小模型在本地部署。我们是这么考虑整件事情的:其实你去看云端的话,两个典型比较有价值的公司是 OpenAI 和 Hugging Face。我们其实就像一个端侧的 OpenAI 和 Hugging Face 结合体。一方面我们自己在做端测模型,另一方面也希望通过这个平台进一步帮助大家去使用端侧模型。

所以我们将来的商业模式,更多是通过维护这种 on-device AI community,去给一些 on-device developer 提供基于订阅的收入,另外就是针对这些开发者背后 enterprise 做一些企业服务。

硅星人:就是在你们平台我不仅能用到 Octopus,还可以看到许多个体 developer 或公司发布的端侧 AI。

Zack Li:是的。平台积累我们才刚开始,5 月试水了一下,大概有 1000 多个 developer,之后就在不断内部打磨,为正式上线做准备。我们也希望向更多人介绍这个产品,提供测试链接看看大家的反馈。

正式上线的 Model Hub 会成为 NEXA AI 的主网站页面。主要产品是一个可以让你找到所需端侧模型的平台。之前那些 research work 可以展示我们的自主研发能力,也有 to enterprise 的入口。

Model Hub 里可以看到各家公司的端测模型。因为我们比较懂端侧,所以专注于端侧常用的 GGUF、ONNX 这些格式。比如 Meta Llama3.1-8b,我们能 quantize 成不同精度,像 int4、int8。这种压缩过的模型专门适用于端侧运行,不像 Pytorch、Python 在云端环境下运行。

消费级 GPU 的 RAM 最多 24G,开发者不可能在本地运行原尺寸模型。我们可以帮发布者去做批量的压缩量化。然后我们还有 SDK 工具,可以让用户轻松在自己笔记本电脑或手机上使用各种模态的模型,也提供 UI 展示,完全靠本地算力并且速度很快。

就像 Hugging Face,它火是火在有 transformers 包。你不光能在这里找模型,还能运行,然后再做二次开发。这才是它能留住用户的核心,对不对?我们其实就是把这个东西给做出来了。

创业就是要靠产品说话

硅星人:下一个问题可能前面也聊到了。现在投资人都会问 why you,那对你们自己来说,让目标客户选择 NEXA 而不是别家竞争对手,这个自信的点是什么?

Zack Li:自信的点第一个是模型优势,我们模型的 function calling 准确度非常高,同时尺寸很轻。第二个是部署优势,我们可以针对用户不同的硬件需求、操作平台、内存和开销去定制化不同的加速方案。也就是我们不光模型比别人好,还有框架可以支持他们去更好地部署这个模型。

硅星人:这些优势在面对 OpenAI 或 Google 时成立吗?

Zack Li:我觉得 OpenAI 很长一段时间不会直接去触碰端测模型这个领域,它的 GPT-4o mini 依然是一个云端模型。Google 有可能去做,当然 Google 有人才和设备优势,还有自己的生态。但你很难想象它会去顾及安卓生态之外,尤其在端侧硬件这一块,除了他自己 Pixel 生态之外的客户,更不会去做像 Model Hub 这样的事情。

硅星人:可否分享一下最新产品进展和接下来的优化方向?

Zack Li:除了前面说的 Model Hub 和 SDK,我们后续还有一系列的 research work,支持长文本处理的压缩模型也正在开发中。后续我们会做好不同场景的服务,其实端侧有很多场景,function call 是一个场景,还有其它像 question answering 能力、多模态能力比如图理解、音频处理等等,这些方向都是会重点关注的。

硅星人:作为一家端侧 AI 初创公司,你们的挑战来自哪些方面?

Zack Li:包括但不限于一些大厂吧。他们可以去做自己的端模型,尤其具备 trillion 级大模型开发能力的话,就可以复用很多经验,通过蒸馏或剪枝这样的方式。但我们在做端模型这件事上是有自己独特 insights 以及对这个领域的理解的,所以我觉得各有千秋。

再就是现有已有的一些社区 player。Hugging Face 就是一个很好的例子, 它要做端测的话对我们也会是一个挑战。但目前看来,Hugging Face 的整个生态,包括过去所有架构都是云架构,服务也都是云服务。所以我觉得它要做转型必然是会比较痛苦的。如果当一个 project 去做,它的 momentum 和速度也不会那么快。

硅星人:你们把端侧模型和社区结合在一起,布局市场是比较早的。有没有做一些线下开发者活动推广?

Zack Li:我和 Alex 现在需要做大量的模型开发训练和一些 infra 相关工作,活动由我们产品和 marketing 同学负责,包括这些年在湾区也积累了很多资源。8 月 25 号 Nexa 要和 Hugging Face、StartX、Stanford Research Park 、Groq、AgentOps 在斯坦福联合举办一场 Hackathon,是我们第一次做线下,欢迎来看看。

Nexa AI 主办的 Super AI Agent Hackathon 现场。图源:NEXA AI

硅星人:最后两个小问题,在硅谷这么多年,有没有很欣赏的公司或人?

Zack Li:我还是比较喜欢 Elon Musk。他有一句话是 "Tough and Calm" ,就是对事情要求高,并且能在巨大困难面前保持冷静,我自己也在朝这个方向去努力提高自己吧。然后你想,他能同时 handle 这么多公司,每家公司在面对不同挑战时又都有一定的方法去解决。我觉得他有很长远的视野和很强的执行力。

但如果更接地气一点,其实我更喜欢雷军。因为我自己是湖北人,雷军是湖北仙桃人。他非常勤奋、有亲和力,并且能够 hands-on 去思考很多问题,身上有很典型的开发者气质。不管作为高管、投资人还是创业者都非常优秀。

硅星人:创业到现在,最大的感触是什么?

Zack Li:我觉得创业这件事情还是产品说话。市场会给我最公正公平的反馈,所以 get things done 是最重要的。要有长远的目标,同时坚持去做难而正确的事情。比如公司最开始的一些工作可能非常偏产品,没有做很多底层创新。直到现在能突然有这么大一个流量和势头,根本原因还是我们在端侧模型底层上的优化,提出了一个前所未有的训练方法,自己发 paper 申请专利保护。如果没有这些技术,是不可能脱颖而出、取得现在这样影响力的。所谓的套壳公司,我深刻感受到,几乎没有办法杀出重围,除非你在产品上有极强的洞见。

硅星人:那你觉得 Perplexity 这家公司属于哪种?

Zack Li:它就是在产品上有极强的洞见。

(Nexa AI 的最新端侧 AI 模型社区 Mobile Hub 已于 8 月 22 日上线官网,直达链接:https://www.nexaai.com/models,欢迎大家前往体验。)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 斯坦福 95后 斯坦福大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论