在发布 GPT-5.2 系列模型一周后,OpenAI 再次出手,美东时间 18 日周四推出基于 GPT-5.2 的新一代 Codex 模型 GPT-5.2-Codex,号称最先进的智能体编码模型,聚焦专业软件工程和防御性网络安全,进一步巩固其在 AI 编程领域对谷歌 Gemini 的竞争优势。
OpenAI 介绍,GPT-5.2-Codex 在编码性能、网络安全能力和长周期任务处理上均实现突破。GPT-5.2-Codex 在 SWE-Bench Pro 测试中准确率达到 56.4%,在 Terminal-Bench 2.0 测试中达到 64.0%,刷新两项基准测试纪录。该模型已于发布当天在所有 Codex 界面向付费 ChatGPT 用户开放,API 用户接入正在推进中。
OpenAI 特别强调 GPT-5.2-Codex 在网络安全方面的显著提升。CEO Sam Altman 提到,本月早些时候,一名安全研究人员使用上一代模型 GPT-5.1-Codex-Max 就发现并负责任地披露了 React 中可能导致源代码暴露的漏洞。OpenAI 方面认为,新模型尚未达到 " 高 " 级别网络安全能力,但公司正在为未来模型跨越这一门槛做准备。
OpenAI 表示,GPT-5.2-Codex 周四当天在所有 Codex 界面向付费 ChatGPT 用户发布,正在努力在未来几周内安全地为 API 用户启用访问。该司计划通过逐步推出、部署与保护措施相结合以及与安全社区密切合作的方式,在最大化防御影响的同时降低滥用风险。
本周四的发布延续了 OpenAI 在 AI 编程领域的进攻态势。
上周发布 GPT-5.2时,OpenAI 就援引编码初创公司的用户体验称,该模型拥有 " 最先进的智能体编码性能 ",还披露 GPT-5.2 的 Thinking 版本在 SWE 编码能力测试中创下历史最高分,成为 OpenAI 首个性能达到或超过人类专家水平的模型。此举被视为对谷歌 Gemini 3 在编码和推理能力上获得好评的直接回应。
编码性能再升级,针对大规模实战场景优化
GPT-5.2-Codex 是 GPT-5.2 的优化版本,专门针对 Codex 中的智能体编码进行了强化。OpenAI 表示,新模型在三个关键领域实现改进:通过上下文压缩提升长周期工作能力,在重构和迁移等项目级任务上表现更强,以及在 Windows 环境中性能改善。
在基准测试中,GPT-5.2-Codex 在 SWE-Bench Pro 测试中准确率达到 56.4%,高于 GPT-5.2 的 55.6% 和 GPT-5.1 的 50.8%。在 Terminal-Bench 2.0 测试中,GPT-5.2-Codex 准确率为 64.0%,GPT-5.2 为 62.2%,GPT-5.1 为 58.1%。SWE-Bench Pro 要求模型在给定代码库中生成补丁以解决实际软件工程任务,Terminal-Bench 2.0 则测试 AI 智能体在真实终端环境中完成编译代码、训练模型和设置服务器等任务的能力。

GPT-5.2-Codex 在长上下文理解、可靠的工具调用、改进的真实性和原生压缩方面均有提升,使其成为长时间编码任务中更可靠的合作伙伴,同时在推理过程中保持 token 效率。更强的视觉性能使 GPT-5.2-Codex 能够更准确地解读屏幕截图、技术图表和用户界面,可以将设计稿快速转化为功能原型。

OpenAI 表示,凭借这些改进,Codex 能够在大型代码库中进行长时间工作,保持完整上下文,更可靠地完成大规模重构、代码迁移和功能构建等复杂任务,即使计划改变或尝试失败也不会失去追踪。
网络安全能力大幅跃升,为跨越 " 高 " 级别门槛做准备
网络安全成为 GPT-5.2-Codex 的另一个重点突破领域。OpenAI 在核心网络安全评估中观察到,从 GPT-5-Codex 开始能力出现急剧跳跃,GPT-5.1-Codex-Max 又实现一次大幅提升,如今 GPT-5.2-Codex 完成第三次跳跃。
在专业夺旗赛评估中,GPT-5.2-Codex 展现出解决需要专业级网络安全技能的高级多步骤真实挑战的能力。据 OpenAI 的准备框架评估,GPT-5.2-Codex 虽然尚未达到 " 高 " 级别网络安全能力,但该公司预计未来 AI 模型将继续沿着这一轨迹发展,正在按照每个新模型都可能达到 " 高 " 级别的标准进行规划和评估。
一个真实案例凸显了新模型的防御性网络安全潜力。12 月 11 日,React 团队公布了三个影响使用 React 服务器组件构建的应用程序的安全漏洞。Stripe 旗下 Privy 公司首席安全工程师 Andrew MacPherson 在使用 GPT-5.1-Codex-Max 与 Codex CLI 研究另一个名为 React2Shell 的严重漏洞时,通过引导 Codex 执行标准防御性安全工作流程,意外发现了这些此前未知的漏洞并负责任地向 React 团队披露。
Altman 在社交平台上披露:" 上周,一名使用我们上一代(Codex)模型的安全研究人员发现并披露了 React 中可能导致源代码暴露的漏洞。我相信这些模型对网络安全将产生净收益,但随着它们的改进,我们正处于 ' 真实影响阶段 '。"

推出可信访问计划,为专业安全人员提供特殊权限
为平衡能力提升与安全风险,OpenAI 针对网络安全能力的增强在模型层面和产品层面都增加了额外保护措施,包括针对有害任务和提示注入的专门安全训练、智能体沙箱以及可配置的网络访问。同时,公司正在进行仅限邀请的可信访问计划试点。
该计划最初仅向经过审查的安全专业人员和具有明确专业网络安全用例的组织开放。符合条件的参与者将获得使用 OpenAI 最强大模型进行防御性工作的权限,使其能够开展合法的双重用途工作,如漏洞研究或授权的红队测试,同时消除安全团队在模拟威胁行为者、分析恶意软件或压力测试关键基础设施时可能遇到的限制。
Altman 在 X 上表示:" 我们正在开始探索用于防御性网络安全工作的可信访问计划。" 他还在另一条帖子中为 Codex 招聘打广告:"Codex 变得极其出色,并将快速改进。如果你想帮助它在明年变得好 100 倍,团队正在招人。保证有疯狂的冒险,成功的可能性很大。"




登录后才可以发布评论哦
打开小程序可以发布评论哦