让多模态检索超越SOTA!ReCALL框架化解生成式与判别式的范式冲突

资讯 » 科技头条 2026-04-07

ReCALL团队 投稿量子位 | 公众号 QbitAI

生成式模型当检索器大材小用效果还不好?

当多模态大模型(MLLM)凭借强大的图文理解与逻辑推理能力成为AI领域的核心抓手,将其应用于图像检索尤其是组合图像检索(CIR)任务,本应是降维打击的最优解。

然而现实却相悖:把生成式大模型强行改造为判别式检索器后,模型会出现严重的能力退化,连原本100%能精准解决的问题都频频出错,生成式与判别式的范式冲突,成为大模型向检索领域落地的核心壁垒。



如今,这一行业难题被AI国家队紫东太初团队联合新加坡国立大学成功攻克。其最新研究成果ReCALL框架,凭借独创的“诊断-生成-校准”闭环体系,从根本上解决了大模型从生成式到判别式的范式冲突问题,让大模型在保留原生细粒度推理能力的同时,完美变身高效检索器

该成果已被计算机视觉顶会CVPR 2026正式录用,在CIRR、FashionIQ等主流基准测试中全面刷新SOTA性能,更开辟了大模型下游任务能力无损适配的全新路径,为多模态大模型的垂直领域落地奠定核心基础。

行业痛点:范式冲突致大模型检索“智能倒退”

为什么聪明的MLLM一做检索就容易翻车?作者团队一针见血地指出了问题的核心:范式冲突(Paradigm Conflict)

原生的大模型习惯于生成式范式,它通过一步步的链式思考(Step-wise reasoning)来理解细粒度的视觉关系。但是,现有的检索适配方法往往采用判别式范式,强行把大模型的高维思考压缩成一个单一的向量,去计算相似度。

这种暴力的转变直接导致了一个致命后果——能力退化(Capability Degradation)



如上图左侧所示,面对“地板上的两只同品种狗”这样需要细粒度推理的查询时,原生的大模型(F)通过VQA问答可以轻松锁定目标。然而,经过传统微调后的检索器版本(Rbase)却完全丧失了这种细粒度grounding能力,找出的全是错误的图。

定量数据更令人震惊:在原生大模型原本能够100%找对的子集上,微调后的检索器在CIRR数据集上R@1暴跌至62.33%,在FashionIQ上暴跌至55.80%。模型不仅没有学到新东西,反而把原本自带的推理天赋给弄丢了!

破局之道:ReCALL四阶段校准框架

既然能力退化是因为初期的检索微调把大模型“带偏了”,那怎么把它拉回正轨?

作者提出了一个通用的框架ReCALL。它的核心思想非常巧妙:用大模型原生的推理信号,来纠正检索空间中的盲区。实际上,整个闭环被严密地划分为四个阶段,其中第一阶段完成了基础的检索器初始化并暴露出退化问题,后三个阶段则是极其优雅的“诊断-生成-打磨”校准管线:

Stage 1:基础检索适配(Baseline Adaptation)。为了让生成式大模型具备基本的图文检索功能,研究人员首先用标准的InfoNCE损失函数,将原生大模型(F)微调成一个基础检索器(Rbase)。这一步虽然赋予了模型基础的判别与检索能力,但也正是这种暴力的单向量压缩,诱发了前文提到的“能力退化”症状。

Stage 2:自我诊断(Diagnose)。俗话说“错题本是最好的老师”。有了基础检索器后,让它在训练集上跑一遍,专门挑出那些它“找错”的样本(Informative Instances)。这些能高分骗过检索器的负样本,往往和正确答案有着极细微的视觉差别,它们正是模型能力退化、认知最模糊的“盲区”。

Stage 3:生成校正(Generate)。拿着这些挑出来的错题,作者团队并没有简单粗暴地让原生大模型(F)重新“看图说话”,而是精心设计了一套包含严密逻辑的链式思考(CoT)诱导机制。具体而言,这个“讲题”过程被巧妙地拆解为两个核心步骤:

① 意图分解与验证(Intent Decomposition & Verification):大模型首先会将原始的修改指令拆解成一个个“原子意图”,并挨个对照参考图和找错的图进行核查,精准定位出到底哪一个细粒度意图在错图中被违背了。

② 最小编辑合成(Minimal Edit Synthesis):在抓住了矛盾点后,大模型会保留那些依然成立的意图,仅仅重写被违背的部分,从而“打补丁”式地合成出一条全新的修改指令。

通过这种极其精巧的设计,框架自动生成了从“参考图”指向“错图”的全新纠错三元组。这种从原文本到新文本的“极小幅文字编辑”,在视觉上直接镜像了真实目标图与强干扰错图之间极其微妙的差异,从而为检索模型提供了极其显式、高密度的细粒度图文对齐监督信号。

更重要的是,这种严格遵循“最小编辑原则”的生成方式,绝非无拘无束的文本发散,它最大程度地保证了新构建的训练三元组与原始数据集在数据分布上的高度一致性。最后,再辅以VQA(视觉问答)级别的语义一致性过滤,剔除掉幻觉和噪音,确保送入模型微调的“纠错信号”不仅直击痛点,而且绝对高保真。

Stage 4:针对性打磨(Refine)。有了精确的纠错指令,最后一步就是通过分组对比学习(Grouped Contrastive Refinement)来完成进化。框架会把原查询和对应的纠错查询打包放在同一个批次里“对冲”,配合双重优化目标,逼迫检索器去明确区分那些极其细微的视觉-语义边界,最终将原生大模型的细粒度推理能力完美内化。



通过这套组合拳,检索器不仅重新找回了丢失的细粒度推理能力,还将其完美内化到了自己的向量空间中。

实测成绩:全场景刷新SOTA,细粒度检索能力拉满

ReCALL的有效性在各大主流基准测试中得到了验证。



CIRR开放域复杂数据集上,ReCALL创造了55.52%的R@1新SOTA,相较于基线模型实现了8.38%的相对提升!在专门考察细粒度区分能力的子集上(R_{subset}@1),更是达到了恐怖的81.49%。FashionIQ细粒度时尚数据集上,即便面对极度相似的服装干扰项,ReCALL依然取得了最好的表现,平均R@10达到57.04%



看看上面的实际检索案例,基线模型遇到“正视镜头”、“半袖”这种细粒度条件直接懵圈;而经过ReCALL校准后的模型,眼光毒辣,精准锁定目标!

结语

ReCALL的成功不仅在于刷新了组合图像检索的性能上限,更在于它揭示并修复了多模态大模型在向下游任务迁移时的一道隐形裂痕。

大模型做检索,不应只是粗暴地将高维的“生成式智慧”压缩降维成单一的“判别式向量”。从“盲目对齐”到“诊断—生成—内化”的逻辑闭环,大模型的检索适配正在进入一个强调保留与激发原生推理能力的新阶段。

当我们不再一味追求用海量外部数据去“喂”出一个检索器,而是教会模型用自己的思维链去剖析错题、缝合认知盲区时,它不仅找回了丢失的细粒度感知,更展示了生成与判别两大范式走向和解的可能。

这或许是大模型在诸多垂直领域真正实现“能力无损适配”的重要一步。

论⽂链接:
https://arxiv.org/abs/2602.01639
项⽬代码:
https://github.com/RemRico/Recall



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。