对话 Nexa AI：两位斯坦福95后，做出比GPT-4o快4倍的小模型，下一步是“端侧版Hugging Face”

比 OpenAI 最强的 GPT-4o 更快，函数调用能力与 GPT-4 相当，同时比它小 N 倍，且只需要一张卡来做推理。

这是 Nexa AI 亮相时给大家带来的 " 冲击 "。

四个月前，Nexa AI 开发的 5 亿参数小模型 Octopus v2 在硅谷 AI 圈子引发了广泛关注。他们开发的Functional Token 技术，能实现比 GPT-4o 快 4 倍、比 RAG 解决方案快 140 倍的出色推理速度，同时具备与 GPT-4 相当的性能，函数调用准确率高达 98% 以上。

上线 Product Hunt 当天，Octopus v2 就荣获 "No.1 Product of the Day"，在 Hugging Face 发布当月即累积 1.2 万次下载量。并受到 Hugging Face CTO Julien Chaumond、技术负责人 Philipp Schmid、Figure AI 创始人 Brett Adcock 等 AI 界权威人士的一致认证。

Nexa AI 由两名年轻 95 后斯坦福校友 Alex Chen 和 Zack Li 共同创立，目前共有 8 名全职员工。斯坦福大学管理科学与工程系教授、科技风险投资项目副主任 Charles ( Chuck ) Eesley，和斯坦福大学 NLP 小组教授、斯隆研究员 Diyi Yang 担任公司顾问。

据悉，他们已在短时间内成功签下 10 余家 3C 电子、汽车、网络安全、时尚消费等领域的头部企业客户。服务超过 1000 名注册用户，并于前不久完成超千万美元种子轮融资。

在 Octopus v2 发布后不到一个月，Nexa AI 又发布了首个参数量小于 10 亿却能实现多模态能力的 AI 模型 Octopus v3。

在保持媲美 GPT-4V 和 GPT-4 的函数调用准确度同时，它可以在树莓派等各种边缘设备上高效运行，支持文本和图像输入，能理解中英文。后续还上新了能在不同领域知识中执行多步查询任务的 38 亿参数模型 Octo-planner 等产品。

而接下来，Nexa AI 把 " 野心 " 延伸到整个端侧模型的市场。

最近它推出了首个端侧 AI 综合开发平台「Model Hub」。核心是一个专为本地部署设计和优化过的丰富 AI 模型库。包含自研 Octopus 系列、Llama 3.1、Gemma 2、Stable Diffusion 和 Whisper 等多种先进模型。适合在各种设备上高效运行，且无需互联网连接和 API 费用。

搭配模型库，Model Hub 还提供了一套全面的开源 SDK，支持开发者将模型部署到本地，并可根据个人需求微调定制，更具灵活性。也有大量实用示例帮用户快速上手，此外还建立了一个开发者社区。

也就是，一个端侧模型的 Hugging Face。

" 我们真正要打造的是一个 on-device 版本的 Hugging Face。" Alex Chen 告诉硅星人。通过整合模型、工具、资源和社区，他们正试图构建一个完整的端侧 AI 生态系统。

最近硅星人也与 Nexa AI 的两位联合创始人 Alex Chen 和 Zack Li 聊了聊他们对端侧 AI 的思考。

以下为对话实录：

从斯坦福校园到端侧小模型创业

硅星人：请 Alex 和 Zack 跟大家做个自我介绍吧。

Alex Chen：我是 Alex，目前是 Nexa AI 的 Co-founder 和 CEO。创建公司以前我在斯坦福大学读博，做 AI 和 Math 相关方面的研究。我和 Zack 是同济校友，已经认识大概有 10 年时间了，之前在很多学习和工作中都合作过。比如我俩都担任过斯坦福华人创业者协会的主席，在那段时间做过很多创业想法的实践，但 Nexa 是我们第一次正式成立一个创业公司去做。

Zack Li：我是 Zack，Nexa AI 的 Co-founder 和 CTO。我从斯坦福毕业后就在业界工作，先是在 Amazon Lab126 做 Echo 和 Alexa，后面去 Google 做 Google Assistant 和 Google Glass，所以积累了 4 年业界经验，也是从去年开始和 Alex 一起做 Nexa AI。因为现在做的方向和 Alex 的研究、以及我自己过往工作经验都很符合，所以我们不管是在模型训练，还是在客户交付、模型部署上都有比较大的优势。

小模型就能解决 99% 的问题

硅星人：你们觉得 scaling law 现在过时了吗？

Alex Chen： Scaling law 还没过时，我相信对大部分人来说它还是成立的。

硅星人：那跟大模型比的话，小模型的机会在哪儿？

Alex Chen：我觉得这里问到了一个很好的问题，就是刚才提到 scaling law。当我们去评估一个模型 scaling law 的时候，模型越大，它本身的综合能力肯定越强。但这是一种全方位的能力提升，以 MMLU 指标为例，大模型可能在 MMLU 不同的 subject 下能力都很强，比如语文、数学、英语。但实际很多情况是，你并不需要它在所有层面都很强，而是只要在特定领域表现突出即可。我们公司会让小模型专注于某些特定领域，比如尤其擅长数学，或尤其擅长法律，这对于数学和法律领域的人来说就已经足够了，他不需要一个特别大的模型去完成他的问题。

另外一个点是当我们用 scaling law 去不断突破模型边界的时候，其实你要解决的那剩下 1% 特别难的问题，在日常生活中不一定会全部遇到。比如说我用万亿参数的 GPT-4 去回答 "1+1=2"，这个问题用 GPT-2 就能回答得很好了，而它俩之间的参数可能相差几千到 1 万倍。同样的答案可以用两个截然相反的模型，那么小模型就会在速度和耗电上明显优于大模型。

总结来讲，我觉得小模型的优势是什么？首先它速度更快、更省电。与此同时，它部署在端侧基本上是完全免费的状态，因为用本地算力就可以满足。更重要的是它可以完全保证个人隐私。比如我们有一个很大的软件客户，他们的 App 是帮助人们处理一些 ID card，包括身份证、驾照等图片信息。这种东西就没法通过云端 API 去做，因为涉及隐私，就必须用本地模型去实现这个过程。

硅星人：怎样才算一个好用的小模型？

Alex Chen：第一要速度快，第二要能在一些用户关心的领域和大模型相媲美，第三是能完全、轻松地部署在本地，既能保证隐私成本也非常低。

Functional Token 解决小模型函数调用问题，" 打败 "GPT-4o

硅星人：目前 NEXA 整个产品框架是什么样的？

Zack Li：我来解答一下这个问题。首先我们的客户有 developer 和大的 enterprise。对于 enterprise 客户，我们提供的是一个端到端的解决方案。比如以一家电商公司为例，他们给出的明确需求是，针对潜在商业合作的网红去自动化邮件的发布。那么我们的模型就可以满足这个需求，并且通过配套 SDK 帮他们部署，然后给到一个可以使用的产品，加入他们的工作流。不过我们的东西很通用，所以要做的定制化是比较少的。

针对 developer 的话，他们可以去我们的 Model Hub 里找到他们想要的模型，比如针对电商场景或旅游场景的，然后通过我们的 SDK 去本地运行。我们除了支持 Octopus，也支持一些比较经典和标准的开源端侧模型，譬如 Gemma 系列、Phi 系列等等。

Alex Chen：我们的适用场景就是刚才提到的，大模型目前还无法解决的那 1% 特别难问题以外的所有问题。比如说情感陪伴、帮你去写 email、润色文章等，这些都可以通过一个部署在你本地的小模型完成。所有从难度系数上来说没那么高、但基本能满足大家日常生活的语言模型 use case，都是我们这个产品可以赋予大家去使用的东西。

除此之外我们能提供的强大功能点，也就是 Octopus 模型的最大亮点在于，它有很强的 function calling（函数调用）能力。

硅星人：这也是接下来想问的，NEXA 的核心技术优势是什么？

Alex Chen：对，我们的独特之处就是可以用一个本地部署的很小模型，去和很大模型的 function calling 相媲美。它能把用户的自然语言转换成可执行的命令。比如说你想去 Amazon 买一款三星手机，直接在对话框里面输入购买需求，它就会自动打开 Amazon，并且输入三星手机的描述，帮你节省大量图形操作界面流程。相当于 Octopus 可以把很多图形操作交互转换成自然语言交互。

硅星人：你们论文中提出了一个创新的 Functional Token 概念，能解释一下吗？以及它是如何优化 AI 推理过程的？

Zack Li：过去的方法，比如基于 RAG（检索增强生成）技术，一个问题进来时，需要先从 API 文档或数据库中检索相关信息，然后把这些信息作为上下文提供给大模型进行决策。这个过程首先检索信息耗时，需要处理大量语义 token。由于上下文窗口过长，导致推理时间非常漫长，尤其是在算力和尺寸有限的设备端，模型准确性和响应速度受到限制。

我们的解决方案是通过一个端到端的模型直接输出。首次引入了 Functional Token（功能令牌）的概念，用 1 个 token 来表征整个函数信息，包括函数名、参数和文档，把上下文长度减少了 95%。当用户输入自然语言指令时，系统能省去繁杂的检索步骤，迅速识别任务关键点，触发相应的 Functional Token，从而直接生成所需输出或执行特定的函数调用。

在输出层，由于 Functional Token 代替了完整的函数表述，使得输出基本都能控制在 10 个 token 以内，因此更为简洁。这样做能显著节省计算资源和上下文空间，同时大幅提升处理速度。特别适用于移动设备或边缘计算设备，这些需要快速响应的场景。

硅星人：实际验证下来表现如何？

Zack Li： 像 GPT-4o 是一个非常大的 trillion 级别参数量模型，用多个 GPU Cluster 来做推理，但我们只是用单卡 A100 去做比较。即使是在这种极其不公平的硬件条件下，我们的 Octopus v2 模型依然比 GPT-4o 快 4 倍。

硅星人：Octopus v2 当时在 X 反响挺强烈。我看到你们还有 Octo-net, Octopus v3 和 Octo-planner，这些模型是各有所长还是一系列迭代？

Zack Li： v2、v3 到 planner 是一系列迭代，其中 v3 有了多模态能力，planner 有了多步规划能力。Octo-net 相当于一个分支，支持端云协同。

（开发者将 Octopus 模型部署在 VR 设备上的 demo）

硅星人：你们最先进的一款模型能力现在到什么程度？

Zach Li：我们的 v3 模型是目前对 enterprise 最新的，能够在 1B 参数以下支持多模态。可能国内外都有一些优秀的端侧公司逐渐出现，但目前还没有 1B 以下做到多模态，并且能达到我们 function calling 准确度的竞争对手，2B 以下目前也还没看到。

做一个 " 端侧版本的 Hugging Face"

硅星人：其实除了创业公司，很多像OpenAI、Google、Meta 之类的巨头也开始去卷小模型了，你们会有威胁感吗？

Zack Li：当然能感觉到竞争是很激烈的。但首先我们抓住一个利器，就是端测模型里最难的 function call 这件事。同时还能不断结合 Model Hub 去鼓励更多开发者加入我们，相当于走 Hugging Face 路线。所以即使现在端侧模型已经逐渐开始内卷了，我们做好模型，同时也做好平台，让更多的开发者去使用这些模型，这就是我们的一个 differentiation。

Alex Chen：其实我们真正要打造的是一个 on-device 版本的 Hugging Face。Hugging Face 是一个给云端开发者提供的 AI 研究社区，它有非常多基于 Python 还有英伟达 GPU 的模型搜寻和使用框架，但这些都是为服务器端的开发者提供的。我们的不同之处是要让模型部署在本地，那么这些模型的文件格式、部署所需要的软件支持都是不一样的，比如 Hugging Face 用 Python，我们就是 C 或者 C++，这些是核心差异。

你看到我们会有一些软件库比如 SDK，有自己开发的 Octopus 模型，还会支持像微软、Google 的一些其它小模型在本地部署。我们是这么考虑整件事情的：其实你去看云端的话，两个典型比较有价值的公司是 OpenAI 和 Hugging Face。我们其实就像一个端侧的 OpenAI 和 Hugging Face 结合体。一方面我们自己在做端测模型，另一方面也希望通过这个平台进一步帮助大家去使用端侧模型。

所以我们将来的商业模式，更多是通过维护这种 on-device AI community，去给一些 on-device developer 提供基于订阅的收入，另外就是针对这些开发者背后 enterprise 做一些企业服务。

硅星人：就是在你们平台我不仅能用到 Octopus，还可以看到许多个体 developer 或公司发布的端侧 AI。

Zack Li：是的。平台积累我们才刚开始，5 月试水了一下，大概有 1000 多个 developer，之后就在不断内部打磨，为正式上线做准备。我们也希望向更多人介绍这个产品，提供测试链接看看大家的反馈。

正式上线的 Model Hub 会成为 NEXA AI 的主网站页面。主要产品是一个可以让你找到所需端侧模型的平台。之前那些 research work 可以展示我们的自主研发能力，也有 to enterprise 的入口。

Model Hub 里可以看到各家公司的端测模型。因为我们比较懂端侧，所以专注于端侧常用的 GGUF、ONNX 这些格式。比如 Meta Llama3.1-8b，我们能 quantize 成不同精度，像 int4、int8。这种压缩过的模型专门适用于端侧运行，不像 Pytorch、Python 在云端环境下运行。

消费级 GPU 的 RAM 最多 24G，开发者不可能在本地运行原尺寸模型。我们可以帮发布者去做批量的压缩量化。然后我们还有 SDK 工具，可以让用户轻松在自己笔记本电脑或手机上使用各种模态的模型，也提供 UI 展示，完全靠本地算力并且速度很快。

就像 Hugging Face，它火是火在有 transformers 包。你不光能在这里找模型，还能运行，然后再做二次开发。这才是它能留住用户的核心，对不对？我们其实就是把这个东西给做出来了。

创业就是要靠产品说话

硅星人：下一个问题可能前面也聊到了。现在投资人都会问 why you，那对你们自己来说，让目标客户选择 NEXA 而不是别家竞争对手，这个自信的点是什么？

Zack Li：自信的点第一个是模型优势，我们模型的 function calling 准确度非常高，同时尺寸很轻。第二个是部署优势，我们可以针对用户不同的硬件需求、操作平台、内存和开销去定制化不同的加速方案。也就是我们不光模型比别人好，还有框架可以支持他们去更好地部署这个模型。

硅星人：这些优势在面对 OpenAI 或 Google 时成立吗？

Zack Li：我觉得 OpenAI 很长一段时间不会直接去触碰端测模型这个领域，它的 GPT-4o mini 依然是一个云端模型。Google 有可能去做，当然 Google 有人才和设备优势，还有自己的生态。但你很难想象它会去顾及安卓生态之外，尤其在端侧硬件这一块，除了他自己 Pixel 生态之外的客户，更不会去做像 Model Hub 这样的事情。

硅星人：可否分享一下最新产品进展和接下来的优化方向？

Zack Li：除了前面说的 Model Hub 和 SDK，我们后续还有一系列的 research work，支持长文本处理的压缩模型也正在开发中。后续我们会做好不同场景的服务，其实端侧有很多场景，function call 是一个场景，还有其它像 question answering 能力、多模态能力比如图理解、音频处理等等，这些方向都是会重点关注的。

硅星人：作为一家端侧 AI 初创公司，你们的挑战来自哪些方面？

Zack Li：包括但不限于一些大厂吧。他们可以去做自己的端模型，尤其具备 trillion 级大模型开发能力的话，就可以复用很多经验，通过蒸馏或剪枝这样的方式。但我们在做端模型这件事上是有自己独特 insights 以及对这个领域的理解的，所以我觉得各有千秋。

再就是现有已有的一些社区 player。Hugging Face 就是一个很好的例子，它要做端测的话对我们也会是一个挑战。但目前看来，Hugging Face 的整个生态，包括过去所有架构都是云架构，服务也都是云服务。所以我觉得它要做转型必然是会比较痛苦的。如果当一个 project 去做，它的 momentum 和速度也不会那么快。

硅星人：你们把端侧模型和社区结合在一起，布局市场是比较早的。有没有做一些线下开发者活动推广？

Zack Li：我和 Alex 现在需要做大量的模型开发训练和一些 infra 相关工作，活动由我们产品和 marketing 同学负责，包括这些年在湾区也积累了很多资源。8 月 25 号 Nexa 要和 Hugging Face、StartX、Stanford Research Park 、Groq、AgentOps 在斯坦福联合举办一场 Hackathon，是我们第一次做线下，欢迎来看看。

Nexa AI 主办的 Super AI Agent Hackathon 现场。图源：NEXA AI

硅星人：最后两个小问题，在硅谷这么多年，有没有很欣赏的公司或人？

Zack Li：我还是比较喜欢 Elon Musk。他有一句话是 "Tough and Calm" ，就是对事情要求高，并且能在巨大困难面前保持冷静，我自己也在朝这个方向去努力提高自己吧。然后你想，他能同时 handle 这么多公司，每家公司在面对不同挑战时又都有一定的方法去解决。我觉得他有很长远的视野和很强的执行力。

但如果更接地气一点，其实我更喜欢雷军。因为我自己是湖北人，雷军是湖北仙桃人。他非常勤奋、有亲和力，并且能够 hands-on 去思考很多问题，身上有很典型的开发者气质。不管作为高管、投资人还是创业者都非常优秀。

硅星人：创业到现在，最大的感触是什么？

Zack Li：我觉得创业这件事情还是产品说话。市场会给我最公正公平的反馈，所以 get things done 是最重要的。要有长远的目标，同时坚持去做难而正确的事情。比如公司最开始的一些工作可能非常偏产品，没有做很多底层创新。直到现在能突然有这么大一个流量和势头，根本原因还是我们在端侧模型底层上的优化，提出了一个前所未有的训练方法，自己发 paper 申请专利保护。如果没有这些技术，是不可能脱颖而出、取得现在这样影响力的。所谓的套壳公司，我深刻感受到，几乎没有办法杀出重围，除非你在产品上有极强的洞见。

硅星人：那你觉得 Perplexity 这家公司属于哪种？

Zack Li：它就是在产品上有极强的洞见。

（Nexa AI 的最新端侧 AI 模型社区 Mobile Hub 已于 8 月 22 日上线官网，直达链接：https://www.nexaai.com/models，欢迎大家前往体验。）

宙世代

逗玩.AI

相关标签