FireRed-Image-Edit:小红书开源的通用AI图像编辑模型,高保真指令遵循与视觉一致性编辑
一、FireRed-Image-Edit是什么
FireRed-Image-Edit是由小红书FireRedTeam(超级智能团队) 于2026年2月正式开源的通用型指令式AI图像编辑模型,属于Diffusion Transformer架构,以“自然语言指令驱动、高保真编辑、全局视觉一致”为核心定位,是小红书FireRed全媒体AI工具套件的重要组成部分。
该模型打破传统图像编辑工具的操作门槛,无需专业修图技能,用户仅通过简单的中文/英文文本指令,即可完成图像元素增删改、色彩调整、人像美化、文字编辑、老照片修复、虚拟试穿等全类型编辑任务。它基于成熟开源文生图底座(Qwen-Image)构建,通过预训练+有监督微调+强化学习的全流程训练范式,实现了从“生成”到“编辑”的能力原生迁移,不依赖额外插件或辅助模型,具备轻量化、高可控、高稳定的特性。
作为开源社区的新晋SOTA模型,FireRed-Image-Edit在三大权威评测基准中全面超越主流开源模型,部分指标媲美闭源商业产品,同时开放代码、权重、Demo与评测方案,为开发者、研究者、企业用户提供可二次开发、可商用的高性能图像编辑解决方案。
二、核心功能特色
FireRed-Image-Edit围绕“实用、精准、稳定、通用”四大核心需求,打造了六大差异化功能特色,覆盖个人日常修图、商业内容生产、专业影像修复等全场景需求。
1. 顶级编辑性能,开源SOTA水准
模型在ImgEdit、GEdit、REDEdit-Bench三大国际权威图像编辑基准中,综合得分均位列开源模型第一,指令遵循度、图像质量、视觉一致性三大核心指标领先行业。其中ImgEdit综合得分4.56,风格维度高达4.97,与闭源旗舰模型持平;GEdit中英文综合得分分别为8.363、8.287,稳居开源榜首;自研REDEdit-Bench覆盖15类编辑任务,中文场景综合得分4.33,全面领先同类产品。
2. 原生文生图编辑能力,无额外依赖
区别于多数“生成+编辑”分离的方案,FireRed-Image-Edit直接基于文生图骨干模型赋予编辑能力,无需额外训练分支或插件,支持单图/多图输入、任意分辨率适配,编辑流程与生成流程无缝衔接,兼顾推理效率与效果稳定性。
3. 文本样式高保真保留,媲美闭源方案
针对海报、封面、文档等含文字图像的编辑需求,模型通过Layout-Aware OCR Reward机制,在文字替换、重写、添加场景中,精准保留原始字体、字号、排版、颜色与视觉细节,无错别字、无错位、无失真,完美适配商业设计、文案修改等专业场景。
4. 老照片智能修复,细节无损还原
内置超分、去噪、去模糊、光影增强、色彩修复一体化能力,可快速修复老旧照片、模糊照片、破损照片,在提升清晰度的同时,严格保留人物身份特征、画面风格与历史质感,解决个人影像归档、复古内容创作的核心痛点。
5. 全局视觉一致性,无违和编辑痕迹
创新一致性损失函数与区域感知技术,确保编辑区域与原图在光照方向、色彩分布、材质质感、透视关系上高度统一,无边界伪影、无色调割裂、无内容偏移,编辑后画面自然融合,肉眼难以识别修改痕迹。
6. 多图编辑适配,支持虚拟试穿等创意场景
支持多图像输入与联动编辑,灵活实现虚拟试穿、多图合成、元素迁移等创意需求,适配电商穿搭展示、文创设计、短视频素材制作等场景,拓展图像编辑的应用边界。

三、技术细节
FireRed-Image-Edit的高性能源于数据工程、架构设计、训练流程、推理优化四大维度的系统性创新,兼顾效果、效率与通用性,以下是核心技术细节。
1. 模型架构:双流多模态扩散Transformer
核心采用Double-Stream Multi-Modal Diffusion Transformer(MM-DiT) 架构,将文本嵌入、图像隐层token、参考图像特征融合为统一输入流,实现多模态信息的密集双向交互。搭配3D Unified RoPE位置编码,区分参考图与目标图的空间坐标,保证编辑时的结构完整性与风格一致性。
编码器:高保真VAE编码器,负责图像隐空间压缩与还原;
语言主干:Qwen-VL多模态大模型,负责指令理解与多模态对齐;
生成主干:MM-DiT块,负责多模态特征融合与图像编辑生成;
损失函数:一致性损失(身份保留)、OCR感知损失(文字精度)、美学损失(画质)。
2. 训练数据:百亿级 corpus 提纯百万级高质量样本
构建16亿样本的混合训练语料,包含9亿文生图对、7亿图像编辑对,经清洗、分层、自动标注、两阶段过滤后,保留1亿+高质量均衡样本,覆盖文生图、单图编辑、多图编辑、文字处理、画质增强等全任务类型,确保模型的语义覆盖度与指令对齐能力。
3. 全流程训练范式:四阶段渐进式优化
采用预训练→持续预训练→有监督微调→强化学习的渐进式训练流程,逐层提升模型能力:
预训练:建立视觉词汇与世界知识基础,采用多条件感知桶采样,适配任意分辨率训练;
持续预训练:平衡文生图、单图/多图编辑任务,扩充宽高比覆盖(2:1至1:2),强化密集语义对齐;
有监督微调(SFT):聚焦1024×1024高清数据,人工过滤优化,提升指令遵循与画质;
强化学习(RLHF):基于DPO优化+Diffusion NFT,引入文字布局奖励、一致性奖励,解决编辑偏移与文字失真问题。
4. 训练效率创新:降低算力门槛,提升吞吐量
多条件感知桶采样:按宽高比与输入图数量分组,减少填充浪费,提升训练效率;
随机指令对齐:动态重排文本指令,增强模型泛化能力;
分布式分层时间步采样:均衡GPU负载,稳定扩散模型收敛;
文本特征缓存+FSDP分布式训练:降低在线计算量,支持大规模训练。
5. 性能基准对比(核心表格)
| 评测基准 | 模型 | 综合得分 | 核心优势 |
|---|---|---|---|
| ImgEdit | FireRed-Image-Edit | 4.56 | 开源第一,风格维度4.97持平闭源 |
| GEdit(EN) | FireRed-Image-Edit | 8.363 | 开源第一,指令遵循最优 |
| GEdit(CN) | FireRed-Image-Edit | 8.287 | 开源第一,中文适配领先 |
| REDEdit-Bench(CN) | FireRed-Image-Edit | 4.33 | 15类任务全覆盖,低画质增强、文字编辑突出 |
6. 模型规划(核心表格)
| 模型名称 | 任务类型 | 核心特性 | 发布状态 |
|---|---|---|---|
| FireRed-Image-Edit-1.0 | 通用图像编辑 | 基础版,全功能覆盖 | 已发布 |
| FireRed-Image-Edit-1.0-Distilled | 通用图像编辑 | 蒸馏版,推理速度提升 | 待发布 |
| FireRed-Image | 文生图 | 高质量文本生成图像 | 待发布 |
四、应用场景
FireRed-Image-Edit的通用编辑能力覆盖个人、商业、专业、研究四大领域,零门槛适配各类用户需求,以下是典型落地场景:
1. 个人影像处理
日常照片修图:一键调整色彩、去除杂物、美化人像、修复模糊;
老照片修复:还原家庭老照片、复古影像,保存珍贵记忆;
社交平台创作:快速修改图片文案、调整构图、生成创意配图。
2. 电商视觉优化
商品图编辑:修改商品背景、调整颜色、添加文案、优化细节;
虚拟试穿:多图联动实现服装试穿效果,降低实拍成本;
主图A/B测试:快速生成不同风格主图,提升转化率。
3. 广告与设计创作
海报快速修改:替换文字、调整元素、适配不同尺寸;
品牌视觉迭代:统一风格修改,保证视觉一致性;
文创素材生成:创意编辑、风格迁移、多图合成。
4. 专业影像与研究
老影像数字化修复:档案馆、摄影工作室的画质增强;
开源研究:基于模型二次开发,探索图像编辑新范式;
企业工具集成:嵌入自研系统,打造私有化图像编辑工具。
5. 新媒体与内容生产
短视频素材编辑:快速处理封面、帧画面、图文素材;
自媒体配图:低成本生成高质量编辑图,提升内容质量。

五、使用方法
FireRed-Image-Edit提供本地推理、在线Demo两种使用方式,部署流程简洁,支持Python脚本调用,无需复杂配置。
1. 环境部署(本地推理)
基础环境准备
安装Python 3.10+,配置CUDA 11.7+(推荐RTX 3090/4090及以上显卡)。安装依赖库
# 安装最新版diffusers pip install git+https://github.com/huggingface/diffusers # 安装其他依赖 pip install torch torchvision transformers accelerate pillow
克隆仓库
git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git cd FireRed-Image-Edit
2. 本地推理执行
单图编辑命令
python inference.py \ --input_image ./examples/edit_example.png \ --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \ --output_image output_edit.png \ --seed 43
参数说明
--input_image:输入图像路径;--prompt:编辑指令(支持中文/英文);--output_image:输出图像保存路径;--seed:随机种子,保证结果可复现。
3. 在线Demo使用
无需部署,直接访问HuggingFace Spaces或ModelScope Studio在线Demo,上传图片、输入指令,一键生成编辑结果,适合个人用户快速体验。
4. 模型权重获取
从HuggingFace或ModelScope下载FireRed-Image-Edit-1.0权重,放置于指定目录,即可本地加载推理。
六、常见问题解答
FireRed-Image-Edit是否支持商用?
支持,项目代码与模型权重采用Apache 2.0开源协议,允许个人、企业免费使用、二次开发、商用部署,无授权限制。
本地运行需要什么硬件配置?
推荐显卡显存≥24GB(RTX 3090/4090、A10等),最低支持16GB显存显卡;CPU环境可运行但速度极慢,不推荐。
支持哪些图像格式?
支持JPG、PNG、JPEG、WEBP等主流格式,输入图像分辨率建议≤2048×2048,避免内存溢出。
中文指令编辑效果如何?
模型针对中文做专项优化,中文指令理解精准,文字编辑、中文海报修改效果优于多数开源模型,建议中文场景直接使用中文prompt。
编辑后出现画面偏移、失真怎么办?
可调整随机种子(--seed),或优化prompt指令(更具体、清晰),避免模糊描述;复杂编辑可分步骤执行,提升效果。
老照片修复支持哪些问题修复?
支持模糊、噪点、褪色、破损、低分辨率、曝光异常等问题修复,同时保留人物与画面原始特征。
是否支持批量编辑?
官方脚本暂未提供批量接口,可基于inference.py自行封装循环逻辑,实现批量图像编辑。
模型权重有多大?下载速度慢怎么办?
1.0版本权重约为XXGB(基于Qwen-Image底座),可使用ModelScope国内镜像下载,提升速度。
是否支持ComfyUI、Stable Diffusion WebUI集成?
社区已在推进相关插件开发,官方暂未提供原生集成,可关注仓库更新获取后续支持。
编辑速度如何?
单张1024×1024图像编辑,RTX 4090显卡约3-5秒,显存越大、分辨率越低,速度越快。

七、相关链接
技术报告(arXiv):https://arxiv.org/abs/2602.13344
HuggingFace模型权重:https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0
HuggingFace在线Demo:https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0
ModelScope模型权重:https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0
ModelScope在线Demo:https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0
八、总结
FireRed-Image-Edit是FireRedTeam打造的开源通用AI图像编辑模型,以百亿级高质量数据与全流程训练技术为支撑,在三大权威基准中实现开源SOTA性能,具备精准指令遵循、全局视觉一致、文本高保真保留、老照片修复、多图编辑等核心能力,覆盖个人修图、电商视觉、广告设计、专业影像修复等全场景需求,同时提供简洁的本地部署方案、免费在线Demo与完整开源工具链,采用Apache 2.0协议支持自由商用,为开发者、企业用户与个人用户提供了高性能、低门槛、高通用性的图像编辑解决方案,是当前开源社区中最具实用价值的AI图像编辑工具之一。
版权及免责申明:本文由@dotaai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/firered-image-edit.html

