【CNMO 科技消息】近期,苹果在人工智能(AI)驱动的图像处理领域发布多项重要研究成果。据 CNMO 了解,这些成功涵盖从单张图像快速生成 3D 场景、文本引导图像编辑的评估,到对多语言复杂形态的理解测评。

苹果 AI
一、SHARP 模型:一秒内从 2D 图像生成 3D 场景
苹果在 2025 年 12 月发布了一项名为《Sharp Monocular View Synthesis in Less Than a Second》的研究,详细介绍了一个名为 SHARP 的开源 AI 模型,且已公开在 GitHub 上。该模型能够在不到一秒的时间内,将单张 2D 图像转换为 3D 场景。

SHARP 被描述为 " 从单张图像进行逼真视图合成的方法 "。给定一张图像,它会 " 回归出所描绘场景的 3D 高斯表示参数 "。与使用三角形表示 3D 场景的传统方法不同,高斯表示通过数百万个椭球体或 " 斑点 " 来渲染体积,共同构成 3D 图像。通常,创建此类 3D 表示需要从不同角度拍摄同一物体的多张照片,但 SHARP 仅需单张图像,并通过神经网络的一次前向传播即可完成。

研究人员在大型数据集上训练 SHARP,使其能够预测 3D 场景的深度并生成相应的高斯表示。在多数情况下,模型表现成功,但也存在一些失败案例,例如物体被渲染在错误位置(如蜜蜂被放在花朵后面而非上面),或将天空误判为附近的曲面。

二、GIE-Bench:文本引导图像编辑的评估框架
苹果的研究人员还设计了一个用于评估文本引导图像编辑 AI 模型的框架。该框架从两个核心维度对模型输出进行评分:
功能正确性:通过自动生成的多选题来验证请求的编辑是否被成功执行。
图像保真度:采用对象感知的掩码技术和保真度评分,确保图像中非目标区域不被意外更改。

研究使用了涵盖 20 个内容类别的上千个编辑示例,测试了包括 MGIE、OmniGen 和 GPT-Image 1 在内的多个模型。研究发现,OpenAI 的 GPT-Image-1 模型综合表现最佳。研究指出,虽然 GPT-Image-1 在执行核心编辑方面能力很强,但在空间关系的细粒度控制和内容保真度上仍有提升空间。
三、IMPACT:评估 AI 对多语言形态复杂性的理解
苹果的另一项研究关注 AI 模型对不同语言,特别是形态丰富语言的理解能力。研究人员指出,AI 模型通常难以处理这类语言,且 " 这些模型在多大程度上真正掌握了这些语言的底层语言复杂性仍不清楚 "。
为此,苹果开发了 IMPACT 框架,专门评估大语言模型在阿拉伯语、俄语、芬兰语、土耳其语和希伯来语中,输出是否符合其屈折形态学规则的能力。屈折形态学涉及通过词缀改变单词以适应特定语法结构(如名词的数、动词的时态)。
研究评估了 8 个多语言大语言模型。测试分为两种场景:一是让模型预测正确的词形变化(生成任务),二是让模型判断给定语句是否语法正确(判断任务)。模型需要完成填空测试,并扮演 " 法官 " 角色。

结果表明,大多数 AI 模型都难以处理不常见的形态模式,尤其是在判断不合语法的例句时。尽管某些模型在某一种语言上表现相对较好,但在所有测试语言中的表现均逊于其在英语上的表现。这项研究为苹果评估其内部模型(如用于实时翻译的模型)在处理形态复杂语言时的性能提供了工具。
从以上成果来看,虽然苹果 AI 团队近期有所变动,但公司在人工智能研究上的步伐并未放缓。从快速 3D 重建、图像编辑评估到多语言理解测评,这些研究不仅推动了技术进步,也为苹果自身产品(如 Apple Intelligence、Image Playground 图像生成工具及实时翻译功能)的迭代优化提供了坚实基础。市场也期待其结合上下文感知的 Siri 版本随未来系统更新而推出。


登录后才可以发布评论哦
打开小程序可以发布评论哦