布谷财经 昨天
奥特曼公开承认“搞砸了”,AI巨头为何突然“纠偏”?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

1 月 27 日,OpenAI 首席执行官萨姆 · 奥特曼在一场公开直播中罕见承认:公司在开发 ChatGPT-5 时 " 确实搞砸了 ",出现了路线偏差。他坦言,团队过度聚焦于提升模型的智力、推理和编程能力,导致模型在写作等通用能力上 " 偏科 ",某些表现甚至不如前代。奥特曼承诺将重新校准方向,回归打造 " 真正高质量的通用型模型 " 的初心。

这一罕见的公开 " 认错 ",迅速在科技界引发震动。

反思背后,是 GPT-5 发布后积累的用户反馈与内部审视。从 GPT-3 到 GPT-5,行业曾深信 " 规模决定一切 ",GPT-4 的巨大成功更强化了这一路径。然而,激烈的市场竞争——尤其是与谷歌、Anthropic 等在编程、推理等硬核能力上的竞赛——驱使资源向能直观体现 " 智能 " 飞跃的领域倾斜。同时,主流学术基准测试侧重于数学、代码等可量化领域,无形中成了研发的 " 指挥棒 "。即便 GPT-5 引入了 " 自动切换器 " 机制以优化算力,其根本目标仍是更高效地服务深度推理任务。

副作用在用户端逐渐显现。2025 年 GPT-5 发布后,大量用户反馈其写作能力 " 退化 ":文章逻辑清晰却用词模式化,缺乏文采与自然感,"AI 味 " 浓重。一些基础性问题,如简单拼写和计数,反而会出错。尽管奥特曼曾将部分问题归咎于技术故障,但持续的批评促使了更深层检讨。

一个在创意写作、细腻表达上不稳的模型,与大众对 " 像人一样交流 " 的 AI 助手的期待产生了落差。这对 OpenAI 打造普及化超级应用的品牌形象构成了挑战。更深层看,在竞争对手持续发力、全球监管日益关注的背景下,此次 " 纠偏 " 也是一次战略校准。通过公开承认 " 偏科 ",OpenAI 意在重新夺回对 " 通用人工智能 " 定义的话语权,强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。

奥特曼的声明,涟漪将波及多个层面。

对 OpenAI 自身,这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效 " 补短板 ",提升创造性写作、情感理解等能力,是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡 " 专精 " 与 " 通用 ",将成为未来几年的核心课题。

对 AI 行业,OpenAI 的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续,或会减缓特定赛道的 " 军备竞赛 ",激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现,可能成为新焦点。这也给在 " 通用性 " 或 " 人性化交互 " 上有特色的竞争对手更多市场叙事空间。

对公众与学界的 AGI 讨论,此次事件提供了鲜活案例。它尖锐地提问:何为真正的 AGI?是能在特定测试中拿高分,还是具备可灵活迁移的综合智能?奥特曼在直播中描绘了他心目中的 AGI 里程碑:当模型第一次面对完全陌生的新环境或工具时,只需解释一次甚至无需解释,就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分,更强调自主学习和适应未知的泛化能力。

技术层面,在现有千亿甚至万亿参数规模的模型上 " 补短板 ",其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计,并可能需要发展新的训练算法,使模型在不损害已有强项的前提下,高效学习新能力。

其次,评估体系亟待变革。现有主流基准测试已不足以衡量模型的 " 通用性 "。行业可能需要发展新型的、更全面的评估标准,例如动态交互测试、开放式创意任务评估等,以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的 "Tong Test" 框架,强调通过动态的物理和社会交互来评估 AGI,正是这一方向上的探索。

OpenAI 的 " 纠偏 ",像是技术发展 " 钟摆效应 " 的体现。在专注与泛化、性能与安全之间,行业轨迹往往不是直线前进,而是在探索极端后回调寻找新的平衡。

来源:布谷财经

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 谷歌 编程 竞赛 首席执行官
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论