VideoMaMa:高丽大学联合多机构推出的AI驱动式视频精细抠图框架
一、VideoMaMa是什么
VideoMaMa是由高丽大学、Adobe研究院、KAIST AI团队联合研发的掩码引导式视频抠图框架,其基于视频生成先验技术打造,能够将粗糙的分割掩码转化为电影级的精细Alpha Matte,解决了传统视频抠图在真实场景中细节处理差、跨域性能不稳定的问题。
与传统视频抠图工具不同,VideoMaMa并非从零开始识别视频中的主体目标,而是以视频生成先验为核心技术支撑,接收由SAM2等分割模型生成的粗糙蒙版(仅勾勒目标大致轮廓),并将其精细化为包含毛发丝、半透明区域、运动模糊等细节的完美抠图结果(Alpha Matte)。
该框架的核心定位是成为视频分割与精细抠图之间的“精修器”,填补了分割模型“非黑即白”的二值掩码与实际视频制作所需的“灰度渐变”Alpha Matte之间的技术断层。它并非取代SAM2等分割模型,而是与这类模型协同工作,让分割模型负责锁定目标物体的大致范围,自身则专注于处理边缘细节、半透明区域等精细工作,最终实现在多样视频领域的稳定抠像性能,让AI抠图的效果接近专业影视制作的水准。
VideoMaMa的开发团队还基于该框架构建了大规模真实视频抠图数据集MA-V,开发了SAM2-Matte模型,前者规模较现有视频抠图数据集扩大近50倍,后者则让经典分割模型SAM2具备了精细抠图能力,进一步丰富了视频抠图领域的技术生态。

二、功能特色
作为新一代视频抠图框架,VideoMaMa在技术设计和实际应用中展现出多方面的核心特色,既解决了传统视频抠图的行业痛点,又在性能、效率、通用性上实现了突破,具体特色如下:
精细的细节处理能力
VideoMaMa能够精准还原视频中头发丝、动物毛发、玻璃、水雾等半透明区域的质感,同时对运动模糊场景的抠图效果远超传统分割模型。传统分割模型仅能输出“属于/不属于”的二值掩码,边缘生硬且丢失大量高频细节,而VideoMaMa可生成0到1之间的连续透明度值Alpha Matte,完美还原光影过渡、运动模糊等真实场景中的视觉细节,实现电影级的抠图效果。跨域稳定的抠像性能
依托视频生成先验技术,VideoMaMa摆脱了传统视频抠图模型对人工合成训练数据的依赖,在真实世界拍摄的各类视频场景中均能保持稳定性能。无论是不同光照条件、拍摄角度,还是不同类型的主体目标(人物、动物、车辆、家具等),该框架都能精准完成抠图,解决了传统模型在真实场景中“水土不服”的问题。与现有分割模型高效协同
VideoMaMa并非重新开发一套目标识别体系,而是充分兼容SAM2等主流分割模型的输出结果,将粗糙的分割掩码作为输入,专注于后续的精细优化。这种设计让用户可以借助成熟的分割模型快速锁定抠图目标,再通过VideoMaMa完成细节精修,实现“分工合作”的高效抠图流程,无需重新学习复杂的目标标注方法。创新的训练策略兼顾效果与效率
该框架采用双阶段训练策略和单步生成推理方案,在保证抠图质量的同时,大幅降低了训练和推理的计算资源消耗。双阶段训练让模型先掌握高分辨率单帧的细节处理能力,再学习视频帧的时间连贯性,避免了全分辨率视频训练的高资源需求;单步生成策略则让模型在一次前向传播中即可输出高质量抠图结果,相比传统扩散模型的多步迭代,推理效率大幅提升。构建超大规模真实视频抠图数据集
针对视频抠图领域真实数据稀缺的痛点,VideoMaMa团队利用框架自身能力构建了MA-V数据集,包含超过5万个真实环境拍摄的视频,涵盖人物、动物、车辆等多种目标类别,且包含自然光照变化、运动模糊、遮挡等复杂场景,规模较现有数据集扩大近50倍。该数据集将解决行业内训练数据不足、合成数据泛化能力差的问题,为后续视频抠图研究提供重要支撑。开源易用的技术生态
VideoMaMa的核心代码已完全开源,同时提供了完善的环境搭建脚本、推理命令和模型检查点,用户只需执行简单的脚本命令即可完成环境配置,通过命令行就能实现视频抠图推理。模型检查点同步上架Hugging Face Hub,方便全球开发者下载和使用,同时仓库提供了详细的说明文档,降低了技术使用和二次开发的门槛。
三、技术细节
VideoMaMa并非从零搭建模型架构,而是站在Stable Video Diffusion(SVD)、SAM2、DINOv3等成熟模型的基础上,通过创新的架构改造、训练策略和技术融合,实现了视频抠图能力的突破,核心技术细节可分为架构设计、训练策略、核心技术手段三大模块,其中核心技术手段的相关信息如下表所示:
| 核心技术手段 | 技术原理 | 核心作用 |
|---|---|---|
| 语义知识注入 | 引入DINOv3视觉大模型的特征,通过多层感知机将其与VideoMaMa内部表示对齐,借助余弦相似度损失函数优化 | 让模型理解画面语义信息,精准识别物体类别、结构和相互关系,避免边界漂移,提升复杂场景下的抠图准确性 |
| 掩码降质策略 | 训练时对输入掩码进行多边形化、降采样等破坏性增强,刻意简化边界、降低分辨率 | 逼迫模型不依赖完美掩码,而是主动参考原始视频画面提取细节,避免模型“偷懒”复制掩码输出 |
| 单步生成扩散 | 采用v-参数化训练目标,改造传统扩散模型的多步迭代逻辑 | 实现从噪声到Alpha Matte的单步直出,大幅提升推理效率,兼顾抠图质量与处理速度 |
(一)基础架构设计
VideoMaMa的底层架构基于Stability AI推出的Stable Video Diffusion(SVD)视频生成模型改造而来,SVD作为在海量视频数据上预训练的生成模型,已具备对真实视频的运动模糊、光影变化、物体结构的认知能力,VideoMaMa则将这种“生成先验知识”提取并应用于视频抠图任务。
模型的整体输入包含三类信息:原始视频帧、由SAM2等模型生成的引导掩码、随机噪声,这三类信息在通道维度进行拼接后,通过Latent Encoder压缩到潜空间进行处理。在处理过程中,模型会注入DINOv3的语义特征,再通过改造后的Video Diffusion U-Net进行特征提取和优化,最终由Latent Decoder将潜变量解码为最终的Alpha Matte抠图结果。整个架构既保留了SVD在视频时序建模、视觉特征提取上的优势,又针对抠图任务做了针对性的输入和输出改造,让生成模型适配抠图的任务需求。
(二)双阶段训练策略
为了在计算资源有限的情况下,让模型同时掌握精细的空间细节处理能力和流畅的时间连贯性,VideoMaMa采用了创新的双阶段训练策略,将空间训练和时间训练分离,实现“分步学习、各取所长”的效果。
第一阶段:空间高分辨率训练
该阶段的核心目标是让模型捕捉极致的像素级细节,训练时冻结SVD模型的时间层,仅训练空间层,输入为1024×1024像素的高分辨率单帧图像。通过该阶段训练,模型能够精准识别头发丝、毛发边缘、玻璃透明度等细节特征,掌握单帧图像的精细抠图能力,为后续视频抠图打下基础。第二阶段:时间一致性训练
该阶段的核心目标是保证视频连续帧之间的抠图结果不闪烁、不跳跃,能够正确表现运动模糊的时序特征。训练时冻结已训练好的空间层,仅训练时间层,输入为704×704像素的3帧连续视频片段,让模型专注于学习视频帧之间的时序关系,确保抠图结果在时间维度上的连贯性。
这种分步训练的方式,避免了全分辨率视频训练带来的巨大计算资源消耗,同时让模型能够在两个维度分别达到最优性能,最终实现“细节精细、时序流畅”的视频抠图效果。
(三)核心技术手段
语义知识注入
扩散模型虽擅长生成视觉纹理,但在理解画面语义、锁定物体边界方面存在不足,容易出现“边界漂移”的问题。VideoMaMa引入DINOv3这个专业的图像理解模型作为“语义顾问”,当处理视频时,DINOv3会同步分析画面内容,识别物体的类别、结构和相互关系,再通过多层感知机将其特征与VideoMaMa的内部表示对齐,借助余弦相似度损失函数让两个模型“用同一种语言交流”。通过这种方式,VideoMaMa能够结合语义信息优化抠图决策,在多个相似物体重叠、毛发与背景融合等复杂场景中,精准锁定目标物体的边界。掩码降质策略
如果直接用完美的真值掩码训练模型,模型容易形成“路径依赖”,直接复制掩码输出而不学习从原始视频中提取细节。为了解决这一问题,VideoMaMa在训练时设计了掩码降质策略,对输入的分割掩码进行多边形化(将平滑边缘变成锯齿状折线)和降采样(降低分辨率、丢弃微小细节)等破坏性增强,让模型只能看到粗糙的掩码轮廓。这一策略逼迫模型必须主动参考原始视频画面,才能还原出准确的抠图细节,大幅提升了模型的实际泛化能力。单步生成扩散
传统的扩散模型需要几十步的去噪迭代才能生成最终结果,处理速度慢、计算成本高,无法满足视频抠图的实际需求。VideoMaMa采用v-参数化训练目标,对扩散模型的推理逻辑进行改造,实现了从噪声到Alpha Matte的单步生成,即在一次前向传播中就能直接输出高质量的抠图结果。这种设计在保证抠图质量的前提下,大幅提升了推理效率,让模型能够快速处理视频数据。SAM2-Matte模型开发
为了验证MA-V数据集的价值,同时让更多开发者享受VideoMaMa的技术成果,团队基于SAM2分割模型开发了SAM2-Matte模型。该改造过程将SAM2输出的二值化分割结果,转化为0到1之间的连续透明度值,再在MA-V数据集上进行微调训练,让原本只能做“简笔画式”分割的SAM2,具备了“油画式”的精细抠图能力。实验结果显示,SAM2-Matte在多个标准测试数据集上的表现,显著超越了现有的视频抠图方法,尤其在真实世界视频处理中优势明显。

四、应用场景
VideoMaMa凭借精细的抠图能力、跨域的稳定性能和易用的开源生态,能够适配多个行业的视频制作和处理需求,既可以满足专业影视制作的高要求,也能适配普通创作者的轻量化需求,核心应用场景如下:
专业影视与短视频制作
在影视、微电影、广告片制作中,传统绿幕抠图受拍摄场地、设备限制,而VideoMaMa无需绿幕,即可对真实场景拍摄的视频进行精细抠图,实现主体目标与任意背景的合成,同时精准还原毛发、半透明道具等细节,提升视频的制作质感。对于短视频创作者而言,该框架能快速完成人物、物品的抠图与背景替换,降低视频制作的门槛,提升创作效率。视频会议与线上直播
在视频会议、线上直播、网课录制等场景中,VideoMaMa可实现人物主体的精准抠图,快速替换背景以避免环境干扰,同时兼顾人物发丝、衣物边缘的细节,让画面更整洁专业。此外,还能对直播中的商品、道具进行抠图与突出展示,提升直播和网课的视觉效果。多媒体内容创作与设计
在海报设计、动态表情包制作、MG动画融合等多媒体创作场景中,VideoMaMa可从视频中抠取所需的人物、动物、物品等动态元素,与设计素材进行融合,打造出更丰富的动态多媒体内容,适用于新媒体运营、平面设计、动画制作等工作。计算机视觉研究与教学
VideoMaMa开源的代码、模型和超大规模的MA-V数据集,为计算机视觉领域的视频抠图、图像分割、生成式AI等方向的研究提供了重要的实验基础。高校和科研机构可将该框架作为教学案例,让学生直观了解扩散模型、语义特征提取、视频时序建模等技术的实际应用,推动相关专业的教学与研究。电商产品展示
在电商行业的产品视频制作中,VideoMaMa可快速抠取商品主体,将其与不同的背景、使用场景进行合成,无需反复拍摄,即可制作出多样化的产品展示视频,提升电商产品视频的制作效率和展示效果。智能安防与视频分析
在智能安防领域,可利用VideoMaMa对监控视频中的行人、车辆、物品等目标进行精准抠图和提取,便于后续的目标追踪、行为分析,提升安防视频分析的准确性和效率。
五、使用方法
VideoMaMa的使用基于Python环境和conda虚拟环境搭建,整体流程分为环境搭建、模型准备和推理执行三步,项目团队提供了完善的脚本和命令,大幅降低了操作难度,同时支持自定义参数调整抠图效果,具体使用方法如下:
(一)环境搭建
首先克隆VideoMaMa的GitHub仓库,将项目代码下载到本地服务器/计算机;
进入项目根目录,执行环境搭建脚本:
bash scripts/setup.sh,该脚本会自动完成三项工作:下载Stable Video Diffusion的模型权重、搭建专用的conda虚拟环境、下载训练SAM2-Matte所需的SAM2模型;脚本执行完成后,激活VideoMaMa专用虚拟环境:
conda activate videomama,后续所有操作均在该环境中完成。
(二)模型准备
VideoMaMa的基础模型为Stability AI的Stable Video Diffusion-img2vid-xt,需确保该模型权重已通过上述脚本完成下载,若未自动下载,可手动从Hugging Face平台下载并放置到指定路径;
从Hugging Face Hub下载VideoMaMa的模型检查点,仓库地址为SammyLim/VideoMaMa,将下载后的检查点文件放置到项目的
checkpoints/VideoMaMa目录下;若需使用SAM2-Matte模型,需从项目指定路径下载微调后的SAM2-Matte权重,完成后即可基于SAM2的分割结果进行精细抠图。
(三)推理执行
VideoMaMa的核心推理脚本为inference_onestep_folder.py,通过命令行执行该脚本,并指定相关参数即可实现视频抠图,核心参数包括基础模型路径、Unet检查点路径、图像/掩码根路径、输出目录等,同时支持多个可选参数优化抠图效果。
1. 基础推理命令
python inference_onestep_folder.py \ --base_model_path "<stabilityai/stable-video-diffusion-img2vid-xt_path>" \ --unet_checkpoint_path "<videomama_checkpoint_path>" \ --image_root_path "/assets/example/image" \ --mask_root_path "assets/example/mask" \ --output_dir "assets/example" \ [--optional_arguments]
2. 实际示例命令
若已通过setup.sh脚本完成环境和模型的默认路径配置,可直接执行以下命令进行示例推理:
python inference_onestep_folder.py \ --base_model_path "checkpoints/stable-video-diffusion-img2vid-xt" \ --unet_checkpoint_path "checkpoints/VideoMaMa" \ --image_root_path "/assets/example/image" \ --mask_root_path "assets/example/mask" \ --output_dir "assets/example" \ --keep_aspect_ratio
其中--keep_aspect_ratio为可选参数,作用是保持视频帧的宽高比,避免抠图结果出现拉伸变形。
3. 更多参数说明
如需调整抠图的分辨率、推理速度、细节精度等,可参考项目仓库中的inference.md文档,添加对应的可选参数,所有参数均提供了详细的说明和默认值,无需专业的代码开发能力即可完成调整。
(四)Demo体验
项目仓库提供了专门的Demo模块,用户可参考demo目录下的readme文档,按照步骤完成Demo的运行,快速体验VideoMaMa的抠图效果,无需准备自定义的视频和掩码数据,适合初次接触该框架的用户进行试用。

六、常见问题解答
问:VideoMaMa与传统的绿幕抠图相比,有哪些优势?
答:传统绿幕抠图受拍摄场地、设备限制,且对拍摄光线、主体与绿幕的距离有严格要求,还难以处理毛发、半透明物体等细节;而VideoMaMa无需绿幕,可直接对真实场景拍摄的视频进行抠图,不受拍摄环境限制,同时能精准还原毛发、半透明区域、运动模糊等细节,抠图效果更贴近真实视觉感受,还能大幅降低拍摄和后期制作的成本。
问:VideoMaMa是否需要依赖SAM2等分割模型?
答:VideoMaMa的输入为粗糙的分割掩码,该掩码可由SAM2生成,也可由其他主流的图像/视频分割模型生成,并非强制依赖SAM2。项目团队选择SAM2是因为其分割效果好、开源易用,用户可根据自身需求选择合适的分割模型生成掩码,只要输出格式符合VideoMaMa的要求,即可完成后续的精细抠图。
问:普通电脑能否运行VideoMaMa,是否有硬件要求?
答:VideoMaMa基于扩散模型和视频生成模型开发,对硬件有一定的要求,建议使用配备NVIDIA独立显卡、显存8G及以上的设备运行,显存越大,可处理的视频分辨率和帧数越多,推理速度也越快。普通入门级电脑或无独立显卡的设备,可能会出现推理速度极慢甚至无法运行的情况,建议使用专业的工作站或云服务器进行操作。
问:VideoMaMa支持处理哪些格式的视频,是否有分辨率限制?
答:VideoMaMa目前需将视频拆分为单帧图像进行处理,支持常见的图像格式(如PNG、JPG),处理完成后可将帧合并为视频,主流的视频格式(MP4、AVI、MOV等)均可通过拆帧工具适配。模型训练时的单帧分辨率为1024×1024(空间训练)和704×704(时间训练),处理超高分辨率视频时,建议先将视频分辨率调整至接近训练分辨率,以保证抠图效果。
问:训练代码是否已经开源,能否基于VideoMaMa进行二次训练?
答:截至2026年1月19日,VideoMaMa的训练代码仍处于内部审核阶段,暂未开源,项目团队已将“发布训练代码”列入TODO清单,后续会逐步开放。目前用户可使用开源的推理代码和预训练模型检查点进行抠图推理,待训练代码开源后,可基于MA-V数据集或自定义数据集进行二次训练,适配特定的抠图场景。
问:MA-V数据集目前是否可以下载使用?
答:MA-V数据集是VideoMaMa团队构建的超大规模真实视频抠图数据集,目前尚未正式发布,项目团队已将其列入TODO清单,后续会随训练代码一同开放下载。该数据集包含超过5万个真实视频,涵盖多种目标类别和复杂场景,开放后将免费提供给科研和开发人员使用。
问:VideoMaMa的推理速度如何,能否处理长视频?
答:VideoMaMa采用单步生成扩散策略,相比传统扩散模型的多步迭代,推理速度已大幅提升,在显存16G的NVIDIA显卡上,处理单帧1024×1024分辨率的图像,推理时间可控制在秒级。目前该框架主要处理视频片段,对于长视频,建议将其拆分为多个短片段分别处理,再进行合并,以保证推理效率。
问:使用VideoMaMa是否需要掌握专业的编程知识?
答:项目团队提供了完善的自动化脚本和详细的说明文档,环境搭建、模型下载、基础推理等操作均通过命令行完成,无需编写代码,普通用户只需按照文档步骤执行命令,即可完成视频抠图。若需要进行二次开发、自定义模型训练或参数优化,则需要掌握基础的Python编程和深度学习知识。
七、相关链接
VideoMaMa的GitHub开源仓库:https://github.com/cvlab-kaist/VideoMaMa
八、总结
VideoMaMa是高丽大学、Adobe研究院、KAIST AI联合研发的掩码引导视频抠图框架,以视频生成先验为核心,基于Stable Video Diffusion架构改造而来,填补了传统分割模型与精细视频抠图之间的技术断层,解决了传统视频抠图模型在真实场景中细节处理差、跨域性能不稳定、训练数据稀缺的行业痛点。该框架采用创新的双阶段训练策略,先让模型掌握高分辨率单帧的细节处理能力,再学习视频帧的时间连贯性,同时融合语义知识注入、掩码降质、单步生成扩散等核心技术,既能精准还原毛发、半透明区域、运动模糊等精细视觉细节,又能兼顾训练和推理的效率,还基于自身技术构建了超大规模的真实视频抠图数据集MA-V,开发了具备精细抠图能力的SAM2-Matte模型。VideoMaMa于2026年1月19日开源GitHub仓库,模型检查点同步上架Hugging Face平台,提供了自动化的环境搭建脚本和简洁的命令行推理方式,降低了使用门槛,其应用场景覆盖专业影视制作、短视频创作、视频会议、多媒体设计、计算机视觉研究等多个领域。同时,项目团队虽暂未开放训练代码和MA-V数据集,但已将其列入开发计划,后续将进一步完善技术生态。整体而言,VideoMaMa不仅为视频抠图领域提供了全新的技术方案,也为生成式AI在计算机视觉任务中的应用提供了有益的探索,凭借其精细的抠图效果、跨域的稳定性能和开源的技术生态,将成为视频抠图领域的重要工具,推动相关行业的技术发展和应用创新。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/videomama.html

