新加坡国立大学团队突破视频背景替换难题

资讯 » 科技头条 2026-05-13


这项由新加坡国立大学Show Lab实验室主导的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.06535。研究团队提出了名为Sparkle的完整解决方案,包含数据集、评测基准和模型,全部开源发布。

你有没有想过,为什么电影里演员可以站在纽约街头,下一个镜头却出现在月球上?这背后是一套复杂的视频后期制作工序,专业术语叫"背景替换"。在好莱坞,这需要专业团队花费大量时间和金钱来完成。然而,随着AI技术的快速发展,人们越来越希望通过一句自然语言指令,就让AI自动完成这件事——"把背景换成秋天的森林"、"把背景改成夜晚的海边",AI就能自动搞定。

现实情况却让人大失所望。即便是目前最先进的开源视频编辑模型,在处理背景替换任务时,表现依然惨不忍睹。被替换后的背景常常呆若木鸡,像一张静止的图片贴在视频后面,毫无生气;或者背景结构直接崩塌,变得模糊混乱,看起来像是有人用橡皮随意涂抹了画面。更糟糕的是,有时候你说要换成"有海鸥飞翔的海边",AI生成的画面里根本没有海鸥——指令和结果对不上号。

新加坡国立大学的研究团队决定从根本上找出原因。他们深入分析了目前最大的开源视频编辑数据集OpenVE-3M的数据生产流程,发现了问题的核心所在:这个数据集在生成训练数据时,只告诉AI模型"前景长什么样",却完全没有给背景任何具体的引导。这就好比你让一个画家帮你画一幅新场景,你只给了他主角的草图,却没有给他任何关于背景的参考资料,结果画家只能靠猜,当然画不好。

正是基于这个洞察,研究团队提出了一套全新的数据生产方案——将前景和背景的生成引导彻底分开,各自独立处理,再组合到一起。他们把这个方案生成的数据集命名为Sparkle,总共包含约14万对高质量视频样本,涵盖五大类背景变换主题。基于这个数据集训练出的模型,在各项评测指标上都大幅超越了所有现有的基准模型。

一、症结在哪里:一场对"静止背景"的病因排查

要理解为什么以前的方法会生成静止、死板的背景,需要先了解现有方案的工作原理。

以OpenVE-3M数据集的生产流程为例。这套流程分为两步:第一步,取出源视频的第一帧图像,用图像编辑AI把背景换掉,得到一张"新背景第一帧";第二步,把这张"新背景第一帧"连同前景轮廓信息一起输入一个视频生成AI,让它据此生成完整的替换后视频。

问题就出在第二步。那个视频生成AI拿到的引导信息,只有一个从原视频中提取的"前景边缘线条图"(技术上叫Canny边缘图)。这张线条图只告诉AI"人在哪里、人的轮廓是什么",却完全没有任何关于背景该如何运动的信息。于是,AI在生成背景时,只能凭空想象,而它的注意力又大量集中在前景上——毕竟那是唯一有明确引导的部分。背景的运动信息完全缺失,最终呈现出来的就是一个呆滞的、几乎不动的背景。

在极端情况下,这个AI模型甚至会"偷懒"——背景的结构直接崩塌,变成一片模糊的色块,因为模型实在不知道背景该怎么画。

研究团队发现的第二个问题是"提示词不对齐"。OpenVE-3M缺乏严格的质量筛选机制,导致生成的内容经常和指令对不上。你说要"海鸥在远处飞翔",画面里偏偏没有海鸥;你说要"窗帘在微风中轻轻摇曳",画面里连窗帘都没有,更别说摇曳了。这样的训练数据喂给AI,AI当然也学不会如何正确理解并执行指令。

第三个问题是前景追踪不够精准。提取前景时使用的是单次追踪方法,容易出现"实体丢失"的情况。比如视频第三帧里人的手是张开的,但因为追踪误差,编辑后的视频里那只手变成了握拳——细节信息丢失了,前后不一致。

二、破局之道:把前景和背景的生成彻底拆开来做

研究团队的解决方案可以用一个建筑装修的比喻来理解。以前的做法,是让一个工人同时负责刷墙(背景)和安装家具(前景),结果两件事都没做好;新的做法是:一个专业团队专门负责设计和装修墙面,另一个专业团队专门负责搬运和摆放家具,最后再把两者结合起来,互相协调。

Sparkle数据集的生产流程分为五个阶段,每个阶段都有严格的质量把控。

第一阶段是筛选合适的源视频。由于目前的AI模型在同步背景摄像机运动方面还不够成熟,研究团队决定只选用固定机位拍摄的视频——也就是摄像机没有移动的视频。这样,背景可以被干净地"揭下来",不会和摄像机的运动混在一起造成混乱。

筛选分两轮进行。第一轮用光流法(一种分析画面中物体运动方向和速度的技术)和单应矩阵估计(一种判断摄像机是否在移动的数学工具)快速过滤,把94万个视频缩减到约26万个。第二轮则让大语言模型Qwen3-VL-32B对剩余视频逐一审查,要求它在下判断前先说明自己的理由,以确保准确性,最终保留约22.4万个固定机位视频。

第二阶段是生成初步的背景替换第一帧。研究团队先用AI生成多样化的编辑指令,然后用图像编辑模型FLUX.2-klein-9B对每个视频的第一帧进行背景替换。替换完成后,立即用图像质量评分模型EditScore打分,凡是总分低于8分的一律丢弃——这一步严格把控了提示词对齐质量,确保生成内容和指令相符。

第三阶段是核心创新:单独生成背景视频。这一步是整个方案最关键的突破。

研究团队首先用AI识别出编辑后第一帧中需要保留的前景元素(比如画面中的人),然后专门用另一个AI把前景从图像中擦掉,只留下纯净的背景图像。这个纯背景图像的生成同样经过质量筛选,使用更严格的8.5分阈值。

有了纯净的背景图像后,再把它输入一个图生视频的AI模型Wan2.2-I2V-A14B,同时配上描述目标背景的文字(比如"金色的秋叶在微风中飘落,阳光透过树冠洒下"),让这个模型专心致志地生成背景视频。因为画面中没有前景的干扰,模型可以把所有注意力都放在背景的动态细节上——波浪如何翻腾、树叶如何飘动、云朵如何流动,这些细节都能被精准地表现出来。

第四阶段是高精度前景追踪算法BAIT。

BAIT的全称是Bbox-Anchor-In-Temporal,可以理解为"基于多时间锚点的边界框追踪"。这个算法的设计思路是:与其用一个追踪器从头跑到尾(容易中途迷失),不如在视频的多个时间节点各自独立地启动追踪,然后把所有追踪结果投票汇总。

具体来说,BAIT会先让大语言模型在每隔半秒采样一帧的画面上,分别识别并标注出前景物体的位置框(边界框)。这些来自不同时间点的位置框,就像在追踪过程中设置的多个"导航锚点"。然后,以每个锚点为起点,分别向前和向后运行SAM3(一个高级的视频物体分割追踪模型),获得N套独立的追踪结果。最后,对这N套结果的每一个像素进行"投票":只有超过半数追踪结果都认为某个像素属于前景,这个像素才被纳入最终的前景遮罩。

这种多锚点投票机制极大地提升了追踪精度。以前的单次追踪方法常见的问题——比如眼镜没被完全追到,或者背景里出现了不属于前景的杂点——在BAIT的多轮投票机制下都得到了有效抑制。

第五阶段是用前景和背景的分离引导来合成最终视频。

有了精准的前景遮罩(知道每一帧中哪些像素属于前景)和单独生成的背景视频,研究团队接下来要做的是把两者合成出最终的替换背景视频。

这里的做法不是简单地"把前景直接贴到背景上"——那样会产生生硬的剪切边缘,而且人物的光照和背景完全不协调(比如夜晚场景里人物还是白天的打光)。正确的做法是:分别从源视频(前景参考)和新生成的背景视频中提取边缘线条图,然后按照前景遮罩把两套线条图拼合在一起——前景区域用前景的边缘线,背景区域用背景的边缘线。这套组合后的线条图,连同第二阶段生成的"新背景第一帧",一起输入一个视频控制生成模型Wan2.2-Fun-A14B-Control,由它来生成最终的替换背景视频。

完成后,再次用EditScore对生成视频进行质量打分,低于8分的全部淘汰。整个五阶段流程,每一个涉及内容修改的环节都有质量过滤,最终保留下来的都是高质量样本。

三、Sparkle数据集:14万对精心打造的视频训练样本

经过整个流程的层层筛选和生成,Sparkle数据集最终包含约13.7万对视频,覆盖五大背景变换主题。

这五个主题分别是"地点替换"(约3万对,如把背景换成海滨灯塔、地中海露台、乡村葡萄园等)、"季节变换"(约3.6万对,如换成秋天的金色森林、冬雪覆盖的场景等)、"时间变换"(约2万对,如换成月光下的夜晚、黎明时分的薄雾等)、"风格变换"(约1.5万对,如换成油画风格、赛博朋克风格等)以及"重新创建OpenVE-3M中的场景"(约2万对,用于与原数据集直接对比)。

值得一提的是"风格变换"主题。这个类别要求AI不仅改变背景的视觉风格,还必须保持前景人物完全不变——这对现有模型来说是个相当严苛的约束,导致通过质量过滤的比例相对较低。但正因如此,这部分数据对于提升模型的精细控制能力格外有价值。

整个数据集覆盖约100个不同的具体场景,21个子主题,为模型训练提供了丰富的多样性。

四、Sparkle-Bench:专为背景替换设计的最大评测基准

除了训练数据集,研究团队还建立了一套专门用于评测背景替换能力的基准——Sparkle-Bench。

这个基准包含458段视频,覆盖97个不同场景、21个子主题,是目前规模最大的背景替换专项评测基准。这些视频的来源很有意思:它们都是通过了前四个阶段质量检验,但在第五阶段(最终视频合成)的质量检验中未能达标的视频。这样的视频"难度适中"——它们有足够的挑战性,但又不是完全无法完成的任务,非常适合用来测试模型的真实能力上限。

评测维度也做了专门设计,分为六个维度,从三个视角来考察编辑质量。全局视角包括两个维度:指令合规度(生成的视频是否真正按照指令描述来做)和整体视觉质量(包括视频的整体画质,以及前景和背景的光照、色温、阴影是否协调一致)。前景视角同样包括两个维度:前景完整性(人物或物体是否被完整保留,有没有被破坏)和前景运动一致性(保留下来的前景运动是否和原视频一致)。背景视角也是两个维度:背景动态性(背景中的运动是否符合指令描述的活跃程度,比如指令要求"汹涌的海浪",生成的是否真的有动感海浪)和背景视觉质量(替换后的背景本身是否清晰、结构稳定、视觉效果好)。

所有维度均采用1到5分的评分制,并规定其余五个维度的分数不得高于"指令合规度"的分数,以防止模型通过提高画质来掩盖指令执行不到位的问题。评分由Gemini-2.5-Pro担任评审,它会先生成评分理由再给出分数,确保评分的可靠性。

五、实验结果:Sparkle训练出的模型大幅领先

研究团队选择了Kiwi-Edit作为基础模型进行微调实验。Kiwi-Edit是一个5B参数(50亿参数)的通用视频编辑模型,支持720P分辨率和81帧视频,是目前开源模型中性能较好的代表之一。研究团队没有对模型结构做任何改动,只是用Sparkle数据集对其进行了1万步的微调训练,得到Kiwi-Sparkle,以证明性能提升纯粹来自数据质量的改善。

在OpenVE-Bench上的测试结果非常有说服力。OpenVE-Bench是OpenVE-3M官方的评测基准,包含三个维度:指令合规度、一致性与细节保真度、视觉质量与稳定性,每个维度满分5分。

现有的最佳开源模型UniVideo(13B参数,260亿参数,比Kiwi-Edit大好几倍)得分为2.74分;商业模型Runway Aleph得分2.62分;Kiwi-Edit原始版本得分2.58分——这些模型全都没能跨过3.0分(满分60%)的门槛。而经过Sparkle微调的Kiwi-Sparkle,得分直接跃升至3.29分,比Kiwi-Edit原版提升了28%,比参数量是它三倍的UniVideo和OmniVideo2都要高出一大截。

在Sparkle-Bench上,差距更为悬殊。各路模型的总分大多在2到2.7分之间徘徊,而Kiwi-Sparkle的总分达到了3.81分,尤其是指令合规度达到4.10分,成为唯一突破4分大关的模型。背景动态性维度的得分为3.54分,相比Kiwi-Edit的1.57分提升了惊人的125%——这正是背景生成方式改变带来的最直接体现。

从各主题的细分结果来看,"时间变换"类别(改变场景时间,如白天变夜晚、正午变黄昏)是所有模型表现最差的类别,包括Kiwi-Sparkle。这类编辑需要大幅调整光照,不仅背景要变暗,前景人物的受光情况也必须相应调整,目前即便是Kiwi-Sparkle在这方面也还有明显提升空间,但它的得分仍然比目前最佳竞争对手Lucy-Edit-1.1高出约41%。"风格变换"类别各模型得分普遍最高,这说明大量的全局风格迁移训练数据在某种程度上也能帮助模型处理背景风格变换任务。

六、消融实验:逐一验证每个创新点的贡献

为了证明Sparkle的每一个设计决策都是有效的,研究团队进行了严格的消融实验,逐一验证各个组件的贡献。

第一组对比是"直接贴图"(Copy-and-Paste)与Sparkle方案的对比。"直接贴图"的做法是把经BAIT追踪的前景直接贴到新背景上,不经过视频重新生成。结果显示,直接贴图方案的平均分只有2.68分,而Sparkle方案达到3.71分,提升了38%。在"时间变换"类别,视觉质量的提升幅度高达115%。直接贴图方式的主要缺陷有两个:一是剪切边缘生硬,前景和背景之间有明显的"抠图痕迹";二是光照完全不协调,尤其是当背景从白天换到夜晚时,人物依然是白天的打光,看起来极不自然。Sparkle通过重新生成整个视频,让模型有机会根据背景环境调整前景的光照,产生了更自然的融合效果。

第二组对比是"只用前景引导"与"前景+背景双引导"的对比。这组实验排除了不同工具链的影响,用同样的BAIT追踪方法提取前景,唯一的区别是最终视频生成时有没有背景的线条图引导。结果显示,只有前景引导时平均分为3.36分,加入背景引导后提升到3.71分(提升10%)。更重要的是,只用前景引导时会出现和OpenVE-3M类似的背景崩塌问题——高频纹理丢失(草地没了细节,花朵模糊一片),光照失控(画面突然过曝)。加入背景引导后这些问题得到了显著改善。

另外,从"只用前景引导"方案比OpenVE-3M原始数据更好这一事实可以推断:BAIT追踪算法的精度提升和质量过滤机制,两者共同贡献了约10%的性能提升,剩余的10%则来自背景引导的加入。

第三组对比验证了数据多样性的价值。研究团队分别用"只有OpenVE-3M子集"和"完整Sparkle数据集"训练了两个版本的Kiwi-Edit,在OpenVE-Bench上评测。只用OpenVE-3M子集微调的模型得分为3.04分(相比基础版提升18%),而用完整Sparkle数据集微调的模型得分为3.29分(提升28%)。这说明Sparkle新增的四个主题,虽然不在OpenVE-Bench的测试范围内,但它们带来的多样性确实让模型学到了更通用的背景替换能力,在不同场景下都有所帮助。

七、一个意外的附加能力:用视频编辑器来"抠图"

研究过程中,研究团队发现了一个有趣的副产品。他们在Style主题下专门设计了一类场景——"极简纯白背景",指令格式类似"把背景换成一个极简的纯白空间,有柔和漂浮的白色粒子缓缓升起"。

神奇的是,经过Sparkle微调的Kiwi-Sparkle,在接到这类指令时,能够精准地把前景物体从各种复杂背景中分离出来,放置在白色背景上——效果非常干净,即便是自行车、汽车这类有大量细节和不规则轮廓的物体也能处理得很好。这意味着,Kiwi-Sparkle实际上具备了相当强的视频前景分割能力,可以作为一种"通过文字指令触发的视频抠图工具"来使用。

研究团队认为,这个发现指向了一个值得未来探索的方向:通过编辑型指令来实现视频物体分割,或许能成为一种比传统方法更灵活、更易用的视频前景提取方式。

说到底,这项研究解决的是一个看似简单、实则棘手的问题:如何让AI生成的替换背景真正"活起来",而不是一张静止的图片。答案是回归常识——想让背景好,就得专门为背景提供引导;想让前景干净,就得用更精密的多轮投票追踪;想让两者融合自然,就得重新生成整个画面,而不是简单粗暴地拼贴。

这意味着什么?对于普通用户来说,这项技术的成熟意味着未来可能出现更好用的视频编辑工具——你只需要打几个字,就能让视频里的人"出现"在完全不同的场景中,背景会自然地流动和变化,光照也会自动调整到位。对于内容创作者、广告从业者和独立电影制作人来说,这有可能大幅降低后期制作的成本和门槛。

当然,技术还有明显的局限。目前系统只能处理固定机位拍摄的视频,一旦摄像机有移动,整个方案就无法正常工作;在需要大幅调整光照的场景(如白天变夜晚)中,效果依然有提升空间;固定机位的限制也使得适用场景相对受限。这些方向,都留待未来的研究继续攻克。

感兴趣的读者可以通过arXiv编号2605.06535查阅这篇完整论文,或访问showlab.github.io/Sparkle/ 获取开源代码、数据集和模型权重。

Q&A

Q1:Sparkle数据集和OpenVE-3M数据集的核心区别是什么?

A:OpenVE-3M在生成训练数据时只给AI提供了前景的引导信息,背景完全没有引导,导致生成的背景是静止的、容易崩塌的。Sparkle数据集的核心突破在于单独为背景生成专属的引导视频——先把前景从画面中擦掉,再用图生视频模型生成只包含背景动态的视频,然后把前景和背景的引导分别提取边缘线条图,合并后输入控制模型重新生成整个视频,实现了真正有生命力的背景。

Q2:BAIT前景追踪算法比普通单次追踪好在哪里?

A:普通单次追踪是从视频开头出发,一路追到结尾,中途容易"丢失"目标或引入噪声(比如把背景里的像素错误地算进前景)。BAIT的做法是在视频的多个时间节点分别独立启动追踪,得到多套结果,再用投票机制汇总——一个像素必须被超过一半的追踪结果都认定为前景,才被纳入最终结果。这种多锚点投票机制让细节(比如眼镜的边缘、手指的形状)得以被精准保留。

Q3:Kiwi-Sparkle比其他视频编辑模型强多少?

A:在OpenVE-Bench背景替换任务的测试中,Kiwi-Sparkle得分3.29分,比基础版Kiwi-Edit高28%,比参数量是它三倍的UniVideo(13B参数)也要高出近20%,是所有测试模型中唯一突破3分门槛的开源模型。在专门设计的Sparkle-Bench上,Kiwi-Sparkle总分3.81分,背景动态性维度得分3.54分,而Kiwi-Edit的这一项得分仅1.57分,提升幅度超过125%。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。