奥特曼公开承认“搞砸了”，AI巨头为何突然“纠偏”？

1 月 27 日，OpenAI 首席执行官萨姆 · 奥特曼在一场公开直播中罕见承认：公司在开发 ChatGPT-5 时 " 确实搞砸了 "，出现了路线偏差。他坦言，团队过度聚焦于提升模型的智力、推理和编程能力，导致模型在写作等通用能力上 " 偏科 "，某些表现甚至不如前代。奥特曼承诺将重新校准方向，回归打造 " 真正高质量的通用型模型 " 的初心。

这一罕见的公开 " 认错 "，迅速在科技界引发震动。

反思背后，是 GPT-5 发布后积累的用户反馈与内部审视。从 GPT-3 到 GPT-5，行业曾深信 " 规模决定一切 "，GPT-4 的巨大成功更强化了这一路径。然而，激烈的市场竞争——尤其是与谷歌、Anthropic 等在编程、推理等硬核能力上的竞赛——驱使资源向能直观体现 " 智能 " 飞跃的领域倾斜。同时，主流学术基准测试侧重于数学、代码等可量化领域，无形中成了研发的 " 指挥棒 "。即便 GPT-5 引入了 " 自动切换器 " 机制以优化算力，其根本目标仍是更高效地服务深度推理任务。

副作用在用户端逐渐显现。2025 年 GPT-5 发布后，大量用户反馈其写作能力 " 退化 "：文章逻辑清晰却用词模式化，缺乏文采与自然感，"AI 味 " 浓重。一些基础性问题，如简单拼写和计数，反而会出错。尽管奥特曼曾将部分问题归咎于技术故障，但持续的批评促使了更深层检讨。

一个在创意写作、细腻表达上不稳的模型，与大众对 " 像人一样交流 " 的 AI 助手的期待产生了落差。这对 OpenAI 打造普及化超级应用的品牌形象构成了挑战。更深层看，在竞争对手持续发力、全球监管日益关注的背景下，此次 " 纠偏 " 也是一次战略校准。通过公开承认 " 偏科 "，OpenAI 意在重新夺回对 " 通用人工智能 " 定义的话语权，强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。

奥特曼的声明，涟漪将波及多个层面。

对 OpenAI 自身，这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效 " 补短板 "，提升创造性写作、情感理解等能力，是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡 " 专精 " 与 " 通用 "，将成为未来几年的核心课题。

对 AI 行业，OpenAI 的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续，或会减缓特定赛道的 " 军备竞赛 "，激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现，可能成为新焦点。这也给在 " 通用性 " 或 " 人性化交互 " 上有特色的竞争对手更多市场叙事空间。

对公众与学界的 AGI 讨论，此次事件提供了鲜活案例。它尖锐地提问：何为真正的 AGI？是能在特定测试中拿高分，还是具备可灵活迁移的综合智能？奥特曼在直播中描绘了他心目中的 AGI 里程碑：当模型第一次面对完全陌生的新环境或工具时，只需解释一次甚至无需解释，就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分，更强调自主学习和适应未知的泛化能力。

技术层面，在现有千亿甚至万亿参数规模的模型上 " 补短板 "，其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计，并可能需要发展新的训练算法，使模型在不损害已有强项的前提下，高效学习新能力。

其次，评估体系亟待变革。现有主流基准测试已不足以衡量模型的 " 通用性 "。行业可能需要发展新型的、更全面的评估标准，例如动态交互测试、开放式创意任务评估等，以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的 "Tong Test" 框架，强调通过动态的物理和社会交互来评估 AGI，正是这一方向上的探索。

OpenAI 的 " 纠偏 "，像是技术发展 " 钟摆效应 " 的体现。在专注与泛化、性能与安全之间，行业轨迹往往不是直线前进，而是在探索极端后回调寻找新的平衡。

来源：布谷财经

宙世代

一起剪

相关标签