财联社 3 月 26 日(编辑 史正丞)ChatGPT 上线多年后愈发鸡肋的图像生成功能,终于迎来了历史性的升级。
OpenAI 首席执行官奥尔特曼在周二的直播活动中表示,正式推出基于 GPT-4o 模型的原生图像生成功能——模型直接从文本提示生成图像,不再调用独立的 DALL-E 文生图模型。
利用 GPT-4o 的多模态能力,ChatGPT 在图像生成时能更加精确地遵循指示、更精确地渲染图像上的文字,同时支持多轮迭代优化图像时保持角色形象一致。
ChatGPT 于 2022 年底上线,最初只能进行文字聊天。大约一年后,OpenAI 发布第三代图像生成模型 DALL-E 3,并集成到 ChatGPT,但两者一直是互相独立的系统。在最初的新鲜感过去后,AI 图像生成器 " 理解提示词能力差 ",特别是" 无法准确生成图片中的文字 "严重阻碍这项功能在教育、职场等领域的应用。
随着今年阿里巴巴、谷歌先后推出能准确生成文字的文生图模型,OpenAI 终于补上这个短板。
在周二的演示中,OpenAI 展示了新一代 ChatGPT 的图像功能升级到了何种程度。
首先,ChatGPT 已经能够大致准确地按照提示词,生成图像中的文本。在演示中,AI 成功按照要求生成一整页的讲话文本,同时没有出现错别字。奥尔特曼感慨称,能在图像生成功能中完美呈现文字本不应该是那么令人赞叹的事情,但我们却等了这么久。
从官方给出的更多示例来看,不管是生成黑板板书,还是印刷体、展示科学常识的绘图,ChatGPT 在生成图像文字领域终于从完全不能用,达到接近商用的程度。
同时,ChatGPT 的图像编辑功能,也变得更加有用。
在演示中,两名研究人员与奥尔特曼合影,然后要求 ChatGPT 将合照转化为动画画风。
结合 GPT-4o 的知识库和终于能把字写清楚的能力,ChatGPT 也能通过简单的提示词,生成有关相对论的漫画彩图。
说到漫画,现在 ChatGPT 也能根据漫画草稿,一键生成上完色的成品。同时也支持上传图片更换漫画里的主要角色。
从商业应用方面来讲,现在模型也能根据用户上传的照片和卡片模板,自定义组合生成新的卡片,并按照要求展示图片和文字。
GPT ‑ 4o 也可以根据聊天上下文的基础来生成图片和文字,所以生成的一系列图像将具有一致性,这对于设计游戏角色而言相当重要。
OpenAI 承认,新的图像生成器也存在一些局限性,例如也会受到模型幻觉影响,同时在密集文字和非拉丁语文字的图像生成方面,也更容易出现问题。
从周二开始,基于 GPT ‑ 4o 的图像生成功能向所有免费和付费用户推出,未来几周内开发者将能通过 API 调用这项功能。
登录后才可以发布评论哦
打开小程序可以发布评论哦