新智元 8小时前
退钱!Claude 4.8连夜大降智,GPT-5.6算力遭“腰斩”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

【新智元导读】最近,AI 社区遭遇集体降智潮!OpenAI 疑似暗中开启 GPT-5.6 灰度测试,神秘「Juice」测试引爆全网查成分;另一边,Anthropic 的 Claude Opus 4.8 被曝断崖式降智,疑似被切脑。我们花钱买到的 AI,究竟是什么版本?

两大 AI 巨头—— OpenAI 和 Anthropic,几乎在同一时间陷入了「降智门」?

过去 48 小时,AI 圈掀起了一场由一段神秘提示词引发的全民自测狂欢。

OpenAI 被曝出利用 Codex 平台悄悄进行 GPT-5.6 的灰度测试,暗中克扣用户的思考预算。

另一边,则是 Opus 4.8 遭遇史诗级削弱,曾经惊艳全场的模型,如今连最基础的逻辑推理都频频翻车,甚至开始对用户进行 PUA。

Opus 4.8 Max 被用户痛斥「被切掉了大脑」,性能从惊艳跌入谷底,甚至不如旧版 Haiku 模型。

莫非,我们正经历一场巨头们精心设计的实验?

神秘的 Juice 值,

你被灰度到 GPT-5.6 了吗?

最近,AI 社区发现,OpenAI 可能正在小范围灰度测试 GPT-5.6-sol。

X 上一位 AI 大 V 发现,在 Codex 应用中,某些本该运行 GPT-5.5 xhigh 的会话,被悄悄路由到了名为「gpt-5.6-sol」的未知模型。

要验证自己是否中签,你只需要运行一段「Juice 测试」代码即可。

你可以通过 Codex App 或 CLI 进行一次快速自查。只需选择 gpt-5.5,将推理设置拉到 xhigh,然后输入上面这段 XML 代码即可。

这段提示词的本质,是检测模型的隐藏推理算力配额——「Juice」即是模型思考预算的代名词。

实测数据显示,正常的、满血版的 gpt-5.5 xhigh ,在面对特定测试指令时,返回的 Juice 结果应该是 768。

然而,那些被路由到 gpt-5.6-sol 灰度测试池中的用户,得到的返回值却断崖式下跌到了 128。

- 正常 GPT-5.5 xhigh: 返回 768

- 被灰度到 GPT-5.6-sol: 返回 128

768 到 128,整整缩水了 6 倍!

这到底是什么意思?

可以说,这要么意味着 GPT-5.6 的推理效率实现了史诗级飞跃,要么指向了更令人担忧的可能:所谓的新版本,实际上是通过阉割推理深度换来的「低成本缩水版」。

结合最近 Anthropic 频繁封号的背景,OpenAI 此举显得意味深长。他们似乎试图通过这种隐蔽的灰度测试,摸索算力成本与生成质量之间的极限平衡点。

网友们纷纷晒出截图,有人欢呼自己「提前解锁了下个版本」,更多人则忧虑:「如果 5.6 的思考预算只有 5.5 的六分之一,这到底是升级还是降级?」

上下滑动查看

当然,有时模型也会拒绝回答。

这不由让人怀疑,是不是 OpenAI 在通过路由机制,把一部分用户当小白鼠,测试极度简化版的模型,以节省算力成本?

毕竟,普通人可能感知不到推理深度的细微差异。

Claude 的物理切脑:

从神坛跌落的 Opus 4.8

如果说 OpenAI 的灰度测试还只是引发好奇与猜测,那么 Anthropic 对 Claude 模型的削弱,则是一场明目张胆的「物理切脑」。

现在,Reddit 上的 r/Anthropic 版块已经被愤怒的用户抗议所淹没。

很多人发现:所有 Claude 模型都被严重削弱了,尤其是原本被寄予厚望的 Opus 4.8 Max。

在发布初期,Opus 4.8 以其深邃的推理能力、极低的幻觉率和「追求真理」的坚定立场惊艳了全场。

然而最近,它似乎遭遇了史诗级降智。

有人说:它被削弱到了荒谬的程度。现在使用 Opus 4.8 Max 的感觉,通常比使用老款的 Haiku 模型还要糟糕得多。

它根本不花时间去思考,不做适当的背景研究,甚至一直在对用户进行煤气灯式的精神操控!

在 reddit 社区中,不断有人吐槽使用降智模型的失望。

拥有 1000 亿 token 的高级用户吐槽说,Claude 最近一周的行为简直愚蠢至极。

有人说,Opus 4.8 仿佛进入了老年痴呆模式。

它忽然失去了长期上下文的记忆能力。用户不得不将所有内容塞进同一个巨大的上下文窗口,一旦开启新会话,模型就会彻底迷失方向。

还有人,自己遇到了杠精附体的 Opus 4.8,它会为了唱反调而唱反调。

无论用户输入什么,模型都会扮演反方角色,哪怕是配置服务器集群这种纯粹客观的工作,模型也会强行中断,跳出来说「我得实话实说」,然后用 200 字的废话去解释一个 20 字就能说清的概念。

另外,它还会拒绝思考。

在高思考模式下,面对极其低级的错误,模型甚至懒得多运算一秒,直接秒回错误答案。当被指出错误时,还会装傻充愣。

一场精心设计的实验?

有人做出这个令人细思极恐的推测:我们之前看到的那个「神级」Opus 4.8,可能根本就是一个假象。

因为 AI 市场被未来预期高度驱动,公司必须不断向市场兜售「技术正在飞速进步」的宏大叙事。

为了维持这种叙事,厂商极有可能在产品发布初期,不计成本地给予模型临时的算力增强,制造出重大技术飞跃的幻觉。

一旦热度过去,或者当巨额的推理成本开始反噬财报时,他们就会在黑箱中悄悄拨回参数。

用静默降级老模型的做法,掩盖全盘降智的真相。然而用户的信任,也被透支了。

资本寒冬下的断臂求生—— SpaceX 抽干的流动性

有人猜测,如此多模型集体降智的直接原因,或许是上市节奏被打乱。

而根本原因,就是未来拿钱的难度呈指数级上升。

原本在今年的美股剧本中,是 OpenAI、Anthropic 等预留了充足的资金,准备迎接几场史诗级的 IPO。

然而就在本月,SpaceX 敲钟上市,以 1.77 万亿美元的史诗级估值,犹如一个巨大的黑洞,瞬间抽干了美股市场上本就不多的流动性。

再加上一些其他原因,留给 AI 巨头们的池子已经见底了。

作者声明:该图片由 AI 生成

本来按照 Anthropic 的规划,最晚上市时间点是今年的第四季度。

如果上市计划推迟,在公司净利润勉强维持、但研发投入仍在剧烈烧钱的当下,Anthropic 能做的,就只有降本增效。

真要说起来,其实让人无法接受的,是信息的不对称。

你每个月花几十美元订阅一个服务,这个服务却可以随时、悄悄地改变产品,而完全不需要告知你。

你发现了问题,却无法确认问题的来源。你提出投诉,却可能被模型 PUA。

「Juice 测试」之所以引发这么大的共鸣,是因为它象征着一种久违的东西——

让我看看我买到的究竟是什么。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论