华东师范大学联合蚂蚁集团等机构研究:让AI的“眼睛”真正学会看——PFlowNet如何让视觉大模型告别“想象性作答”

这项由华东师范大学、四川大学、香港科技大学、上海交通大学、蚂蚁集团和上海人工智能实验室联合完成的研究，发表于 2026 年第 43 届国际机器学习大会（ICML 2026），论文编号为 arXiv:2605.02730，于 2026 年 5 月 4 日公开。有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这样的情况：问一个聪明的人某张照片里有什么细节，他却不看照片，直接根据 " 常识 " 给你一个听起来合理但完全错误的答案？现在流行的那些能看图说话的人工智能，其实也经常犯同样的毛病。它们有时候不是真的在 " 看 " 图，而是在 " 猜 " ——用语言知识凑出一个听起来像样的答案，而不是认认真真地盯着图片里的细节找答案。这种现象有个专业名字叫 " 幻觉 "，但用大白话说就是：AI 在睁眼说瞎话。

这项研究要解决的，正是这个让人头疼的问题。研究团队提出了一个叫做 " 感知流网络 "（PFlowNet）的新方法，用一套精心设计的训练机制，让 AI 真正养成 " 先看清楚再开口 " 的好习惯。

一、AI 看图的 " 懒惰病 " 从哪里来

要理解这项研究，先得搞清楚现在的视觉 AI 是怎么工作的。目前最强的视觉语言模型，本质上是把一个强大的语言 AI 和一双 " 眼睛 " 拼在一起。语言 AI 负责理解问题和生成答案，眼睛负责把图片变成 AI 能理解的信号。

问题在于，这两个部分的 " 默契 " 并不总是那么好。语言 AI 太强了，有时候甚至不怎么需要真正看图，光凭问题本身就能猜出一个八九不离十的答案。比如问 " 图片里的天空是什么颜色 "，不看图，猜蓝色也有相当高的正确率。久而久之，AI 就养成了一种 " 走捷径 " 的习惯，把大量注意力放在语言推理上，而不是认真分析图片内容。

为了纠正这个问题，学术界想到了一个办法：给 AI 配备专业的 " 视觉专家 "，比如一个擅长在图里找东西、框出位置的检测器（GroundingDINO 就是这样一种工具），让这个专家先找到图里的关键区域，然后强制要求 AI 的推理过程必须跟这些区域保持一致。用奖惩机制来训练：如果 AI 说的框框跟专家找的框框重叠得好，就给奖励；重叠得差，就扣分。

这个思路听起来很合理，但研究团队发现了一个隐藏的陷阱。

二、" 精确 " 不等于 " 有用 "：一个反直觉的发现

研究团队做了一个很有意思的实验。他们拿来一批带有精确标注的图片，这些标注是人工画的框，精确地框住了问题答案所在的区域。然后他们把这些框往外扩大一圈，得到一批 " 不那么精确但范围更大 " 的框，再继续扩大，得到越来越大的框，直到最大的就是整张图片本身。

接下来，他们把每种大小的框对应的图片区域裁剪出来，直接喂给 AI，让 AI 只看这个裁剪后的小图来回答问题，然后记录正确率。结果出人意料：最精确的框，也就是人工标注的那个，反而不是效果最好的！效果最好的往往是稍微扩大了一些的框。

这是为什么？研究团队给出了一个很形象的解释，叫做 " 管状视野效应 "。如果你把视野卡得太死，只看一个极其精确的小区域，你就会失去理解这个区域所需要的上下文。比如，图片里有两个杯子，问题问 " 左边的杯子是什么颜色 "，如果你的框精确地只包含左边那个杯子，但框太小导致你看不出左右关系，你可能根本不知道自己在看哪个杯子。把框稍微扩大，把两个杯子都包进来，AI 反而能更好地理解 " 左边 " 这个概念。

这就意味着，专家检测器给出的框，因为被优化得太精确，反而对推理不是最有帮助的。现有的那些方法强迫 AI 去模仿这些 " 过于精确 " 的框，等于是在错误的方向上努力——就像一个学生被强制要求用效率最低的方法做题，结果越努力越偏离正确答案。

三、PFlowNet 的核心思路：让 AI 自己学会 " 该看哪里 "

既然专家给的框不是最优的，而最优的框又因为每张图、每个问题都不一样而无法预先确定，研究团队想到了一个根本不同的解决方向：与其强迫 AI 模仿一个固定的 " 标准答案 " 框，不如让 AI 自己去探索，在探索中学会什么样的看法对回答问题最有帮助。

这个思路在数学上被表达为一个 " 变分推断 " 问题——用大白话说就是：我们不知道 " 理想的看图方式 " 长什么样，但我们可以让 AI 通过大量尝试，逐渐逼近这个理想状态。

PFlowNet 的工作流程分为两个阶段，就像侦探破案的两个步骤。

第一步叫做 " 勘察现场 "。AI 先仔细审视整张图片，生成一套 " 感知流 " ——这是一种结构化的文字记录，描述 AI 决定要重点看哪些区域、以及它在这些区域里看到了什么。具体来说，这套记录由两类内容组成：一个 " 分析状态 "，AI 用文字写下它对问题的理解，以及它打算重点检查哪些视觉线索；还有若干个 " 感知状态 "，每个状态包含一个具体的图片区域坐标和一段对该区域内容的文字描述。

第二步叫做 " 基于证据推理 "。AI 把自己生成的那套文字记录，连同对应区域的放大图片，一起作为输入，再次进行推理，得出最终答案。

这个设计有一个关键的巧妙之处：第一步的 " 勘察 " 和第二步的 " 推理 " 是解耦的，也就是分开训练的。这样做的好处是，训练可以专门针对 " 怎么看图 " 这件事进行优化，而不会因为同时要兼顾 " 怎么回答 " 而产生干扰。

四、训练的三个秘密武器

PFlowNet 的训练分为两个阶段，背后有三个关键设计。

第一个是精心准备的训练数据。研究团队没有直接用现成的数据集，而是专门设计了一套数据生成流程。他们找来带有专家标注框的图片，然后对每个框进行随机扩大处理——这正是受到前面那个 " 扩大框更有帮助 " 实验的启发。扩大后的框被用来截取图片区域，再调用强大的教师模型（Gemini 3 Flash 和 GPT-4o）来为每个区域生成描述性文字，同时让教师模型总结需要关注哪些视觉线索。

生成完数据之后，他们还做了一个 " 难度筛选 "。对于每个样本，他们测试：如果 AI 不用这套感知记录能不能答对（如果能，这道题太简单，不需要训练）；如果用了这套记录才能答对（说明这套记录真的有帮助，值得用来训练）；如果用了还是答不对（说明这套记录不可靠，不能用）。只有 " 没有记录答不对、有了记录能答对 " 的样本才被保留下来，确保训练数据的质量。

第二个武器是一个精心设计的多维度奖励函数。在第二阶段的强化学习训练中，研究团队不是简单地用 " 答对了给分，答错了扣分 " 这种粗暴方式，而是设计了一个更精细的评分体系。

这个评分体系由两部分组成。第一部分叫 " 质量奖励 "，衡量 AI 描述某个区域的文字是否真的来自于认真观察那个区域，而不是空口说白话。具体做法是：同一段描述，一次配上对应的图片区域（放大清晰的），一次配上图片的其他部分（模糊无关的），比较两种情况下 AI 认为这段描述有多可信。如果描述真的是来自于认真观察，那么配上正确区域时可信度应该远高于配上错误区域时。这个对比就像是给 AI 做测谎——如果你说的是真话，用真实证据支持时你应该更有底气。

第二部分叫 " 效用奖励 "，衡量 AI 选择的这些区域对最终答题有多大帮助。具体就是：给 AI 看了这些区域之后，它答出正确答案的概率提升了多少。如果提升越大，说明这些区域的选择越有价值，奖励越高。

第三个武器是 " 邻近几何约束 "。前面说了，不应该强迫 AI 完全模仿专家的框，但也不能让 AI 完全自由发挥、偏离太远——毕竟专家的框至少大致指向了正确的图片区域，可以作为一个参考范围。研究团队引入了一个叫 " 邻近风险最小化 " 的思想：在专家框附近划定一个 " 合理探索区 "，在这个区域内 AI 可以自由探索；如果 AI 生成的框跑到了这个区域之外，才会受到惩罚。惩罚的力度由一个参数控制，可以调节 " 松紧 "。

这三个武器合在一起，让 AI 既能自由探索对推理真正有用的视觉区域，又不会完全脱离正确区域的大方向，还能确保它的文字描述是真正基于视觉观察而非凭空捏造。

五、理论保障：数学证明 PFlowNet 一定比旧方法好

研究团队不仅做了实验，还从数学上严格证明了 PFlowNet 的优越性。

他们推导出了一个 " 偏差上界 " 定理，大致意思是：PFlowNet 学到的 AI 看图习惯，和 " 理想的看图习惯 " 之间的差距，有一个明确的数学上限。这个上限的大小取决于几个关键参数，包括专家框和理想框的重合程度、探索区域的大小、以及惩罚力度。

更重要的是，他们证明了两个极端情况：当惩罚力度趋于零时，PFlowNet 退化成普通的 " 最大似然 " 训练（就是完全不管视觉约束的那种），偏差上界变大；当惩罚力度趋于无穷大时，PFlowNet 退化成强制对齐专家框的旧方法，偏差上界也受到专家框偏差的限制。而在这两个极端之间，存在一个最优的惩罚力度，使得偏差上界严格小于这两种旧方法。换句话说，数学上可以证明，只要参数调对，PFlowNet 一定比旧方法更接近理想状态。

六、实验结果：在多个权威测试中刷新最好成绩

研究团队在多个广泛认可的测试集上评估了 PFlowNet，并与一系列竞争对手进行了比较。

PFlowNet 的基础模型是 Qwen3-VL-8B，一个参数量为 80 亿的视觉语言模型。在细粒度视觉搜索测试集 V* Bench 上，PFlowNet 达到了 90.6% 的准确率，比基础模型提升了 13 个百分点，并超过了当时所有公开方法，创下最好成绩。这个测试集专门考察 AI 在图片里找特定细节的能力，比如在一张复杂的室内照片里找到某个特定颜色的小物件。

在另一个考察真实世界复杂场景理解的测试集 MME-RealWorld-lite 上，PFlowNet 达到了 67.0%，比基础模型提升了 21 个百分点，同样创下最好成绩。这个测试集包含了文字识别、图表理解、场景监控等各种实际应用场景。

在综合推理测试集 TreeBench 上，PFlowNet 以 55.3% 的总分超过了之前最好的方法（TreeVGR，50.4%），提升了约 5 个百分点。这个测试集同时考察 " 看得准不准 "（用框与标准框的重合度衡量）和 " 答得对不对 "，PFlowNet 在推理类子任务上的提升尤其显著，说明更好的视觉定位确实带来了更好的推理结果。

在高分辨率图片理解测试集 HR-Bench 上，PFlowNet 在 4K 和 8K 两个分辨率版本上也都超越了对比方法，特别是在需要跨区域比较的子任务上提升最为明显。

在图形界面操作（GUI）测试中，PFlowNet 在 ScreenSpot 和 ScreenSpot-Pro 上也分别超过了专门为这类任务训练的竞争对手，达到 95.1% 和 61.8% 的成绩。

研究团队还特别考察了一个叫做 " 推理效率 " 的指标，衡量在增加计算量时性能能提升多少。他们发现，旧方法 TreeVGR 虽然在单次预测时表现还不错，但当给它更多机会（让它多预测几次，取最好的）时，性能几乎不再提升——说明它的多次预测都集中在相同的区域，没有多样性。而 PFlowNet 每次预测都会探索不同的区域，随着尝试次数增加，性能持续稳定提升。这意味着 PFlowNet 不仅单次表现好，还具有 " 越算越准 " 的扩展性。

七、深入分析：为什么 PFlowNet 比其他方法更高效

研究团队还做了一系列对比实验，来拆解 PFlowNet 的每个组成部分各自贡献了多少。

他们发现，单独加入 " 初始微调 " 阶段（用精心准备的感知记录数据训练模型生成感知流的基本能力）就能带来明显提升；在此基础上加入强化学习阶段，提升更大；而在强化学习中，" 质量奖励 " 和 " 效用奖励 " 缺一不可，两者协同工作才能达到最好效果；邻近几何约束的加入则进一步稳定了训练过程，让性能更可靠。

一个特别有趣的发现是：把感知流（文字描述的看图过程）去掉，只保留对应区域的放大图片，性能会大幅下降；但把放大图片去掉，只保留感知流文字，性能只有轻微下降。这说明感知流的作用不仅仅是告诉 AI 该看哪里，更重要的是它提供了一个结构化的文字框架，帮助 AI 组织推理过程。放大的图片提供的视觉细节当然有帮助，但感知流提供的语义锚定更为关键。

从计算效率角度来看，PFlowNet 比那些需要多轮调用外部工具的 " 智能体 " 方法要快得多，推理时延和上下文长度都显著更短，而性能却更好。和旧的单轮感知 - 推理耦合方法（如 TreeVGR）相比，PFlowNet 虽然多了一个感知流生成步骤，但这个额外的开销换来的性能提升远远值得。

八、局限性与未来方向

研究团队也坦率地指出了 PFlowNet 目前的不足。

首先是固定格式的问题。PFlowNet 要求 AI 对每个问题都走一遍 " 分析 - 定位 - 推理 - 回答 " 的完整流程，这对于复杂的视觉推理问题非常有效，但对于那些答案显而易见的简单问题，这套流程就显得有些多余，额外增加了计算开销。未来的方向是让 AI 根据问题的复杂程度自动决定是否需要启动感知流机制。

其次是计数任务上的弱点。由于 PFlowNet 鼓励 AI 框出较大的区域以保留上下文，有时候会把几个相邻的目标合并进一个框里，导致在数个数这类任务上出现偏差。由于感知流对后续推理有很强的引导作用，仅仅补充放大图片无法完全弥补这个问题。

第三是 " 分析状态 " 缺少直接监督。AI 在生成感知流时，开头的分析部分（用于理解问题、规划看哪里）没有专门的训练信号，只能间接地通过后续步骤的奖励来反向调节。在遇到非常罕见或特殊的问题时，这个分析步骤可能会出错，导致后续的感知方向也跟着跑偏。

说到底，PFlowNet 干的这件事，是在教 AI 养成一个好习惯：在开口说话之前，先认认真真地看图，记下自己看到了什么，再根据这些视觉证据来回答问题。这个习惯听起来理所当然，但让 AI 真正做到并不容易。研究团队用数据准备、奖励设计、数学理论和大量实验，共同支撑起了这套方法的有效性。

对于普通用户来说，这项研究意味着未来的 AI 助手在处理复杂图片时会更加可靠——不再是猜答案，而是真的认真看了再说。对于 AI 安全性的研究者来说，让 AI 的推理过程可追溯、可解释，是减少 "AI 说瞎话 " 风险的重要一步，PFlowNet 在这个方向上提供了一种具体可行的路径。

感兴趣的读者可以通过 arXiv 编号 2605.02730 找到这篇论文的完整版本，包含详细的数学推导、完整的实验数据和更多的案例分析。

Q&A

Q1：PFlowNet 和现有的视觉语言模型相比，最核心的区别是什么？

A：现有方法要么不管视觉定位直接猜答案，要么强制模仿专家检测器给出的精确框。PFlowNet 的区别在于，它让模型自己学会 " 该看哪里才对推理有帮助 "，通过奖励机制鼓励既可靠又真正有用的视觉探索，而不是死板地对齐一个固定的标准。

Q2：感知流里的文字描述对最终答题有多重要？

A：实验结果显示，把感知流文字去掉只保留放大图片，性能大幅下降；反过来把放大图片去掉只保留文字，性能只有轻微下降。这说明感知流的核心价值不是提供视觉细节，而是提供一个结构化的语义框架，帮助模型组织推理思路。

Q3：PFlowNet 在哪类任务上效果最明显？

A：PFlowNet 在需要精确定位细节、理解空间关系、跨区域比较的复杂推理任务上提升最为显著，比如 V* Bench 的空间关系子任务提升了 16 个百分点。在相对简单、答案直观的任务上提升幅度较小，这也是该方法局限性的体现之一。

宙世代

一起剪

相关标签