Mac跑本地AI大模型还差这一块

同样是 Mac，有人觉得本地大模型 " 已经够用了 "，有人却一打开长文档、长代码仓库就开始卡、开始慢、开始爆内存。很多时候，问题不完全在模型大小，而在另一件更容易被忽略的事上：模型的 " 临时记忆 " 太占地方了。

这件事在技术上叫 KV Cache。你可以把它理解成，大模型在推理时随身带着的一本笔记本。对话越长，文档越长，代码上下文越长，这本笔记本就越厚。随着和模型不断对话，Mac 那本就很宝贵的统一内存，也会被不断占用。

有没有一种办法，能够将这个笔记本压缩一下，从而让用户能够更好地在 Mac 上使用本地模型？

开源项目 "TurboQuant+" 提供了一个方法。

一个来自大厂思路的开源项目

TurboQuant+ 基于谷歌研究院发表在 ICLR 2026 学术会议上的最新论文，用了一套数学方法，专门解决这个 " 笔记本太厚 " 的问题。

用一句话概括：这个项目把 AI 的 " 工作记忆 " 压缩到原来的 1/4 到 1/6，但内容几乎不变。

就像你手机拍的一张 5MB 照片，压成 JPEG 之后只有 500KB，肉眼却几乎看不出差别。

TurboQuant+ 对 AI 的 " 记忆 " 做的，就是类似的事情。

数据显示，压缩之后原来需要 2.78GB 的长对话记忆，现在只需要 0.98GB，压缩比最高可达 6.4 倍，而且质量损失极小，4-bit 压缩方案的回答质量几乎与未压缩时相同。

Mac 用户福音

该项目亮相后，也被很多 Mac 用户关注。因为 TurboQuant+ 对 Mac 用户的价值，比对其他平台的用户要大得多。

原因很简单，因为 Apple Silicon 是统一内存架构，运行大语言模型的时候，电脑的内存可以直接被用作显存。

也正因为此，统一内存架构有一个现实影响，那就是模型权重、KV Cache，以及系统本身，都在争同一份内存。因此 TurboQuant+ 对于 Mac 的价值，就不只是 " 账面上省一点 "，而是会直接体现在可用余量上。

使用搭载 M5 Max 的 MacBook Pro 实测

压缩空间以后，意味着同样一款 Mac，可以承载更多的内容。压缩后，无论是想在本地读超长 PDF、会议纪要、技术文档，还是想让 AI 理解整个大项目的代码，或是想做本地知识库检索，使用更大的模型等等，都能随着空间的增多以及上下文长度的增强，获得更好的体验。

这个项目的意义在于，它的目的是尽量榨干硬件的能力，让 Mac 少被内存瓶颈卡住，不需要让用户立刻升级硬件。

这种 " 让用户省钱 " 的开源项目，自然也得到了更多用户的关注。

一个全新的设计思路

在上手前，我还要帮大家避个坑。虽说 TurboQuant+ 已经有可用实现，也和 llama.cpp 生态有关，但不能简单理解成目前已经完整内置，复制参数就能直接跑。

因为目前这个项目还是在开源社区测试，相比于真正用起来，把他看成一个很值得关注的技术方向，其实是更好的选择。当然，如果真要上手，也可以先确认一下项目的 README 文件，这样也会少踩很多坑。

如果你已经在 Mac 上本地跑模型，而且经常碰到上下文或内存限制，或者很在意隐私，希望把文档、知识库、代码分析尽量留在本地，这个开源项目都是值得关注的。说到底，TurboQuant+ 的意义不是让 Mac 成为更强的 AI 助手，而是让 Mac 在本地大模型这条路上，少一点束手束脚。

很多时候，真正决定体验的不是模型排行榜顶端那一点差距，而是你手上这台机器能不能稳定、顺畅、持续地完成你要做的事。

从这个角度看，TurboQuant+ 这种底层优化，反而很可能是最接近 " 有用 " 的那一类进展。

如果你是 Mac 用户，并且认真在本地用大模型，那 TurboQuant+ 值得关注。它不一定最显眼，但它解决的是最现实的问题：怎样让同一台 Mac，装下更多上下文，少吃一点内存，跑起来更像工具，而不是玩具。

宙世代