FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

原创发布日期：2026-02-22

144

一、FireRed-Image-Edit是什么

FireRed-Image-Edit是由小红书FireRedTeam（超级智能团队）于2026年2月正式开源的通用型指令式AI图像编辑模型，属于Diffusion Transformer架构，以“自然语言指令驱动、高保真编辑、全局视觉一致”为核心定位，是小红书FireRed全媒体AI工具套件的重要组成部分。

该模型打破传统图像编辑工具的操作门槛，无需专业修图技能，用户仅通过简单的中文/英文文本指令，即可完成图像元素增删改、色彩调整、人像美化、文字编辑、老照片修复、虚拟试穿等全类型编辑任务。它基于成熟开源文生图底座（Qwen-Image）构建，通过预训练+有监督微调+强化学习的全流程训练范式，实现了从“生成”到“编辑”的能力原生迁移，不依赖额外插件或辅助模型，具备轻量化、高可控、高稳定的特性。

作为开源社区的新晋SOTA模型，FireRed-Image-Edit在三大权威评测基准中全面超越主流开源模型，部分指标媲美闭源商业产品，同时开放代码、权重、Demo与评测方案，为开发者、研究者、企业用户提供可二次开发、可商用的高性能图像编辑解决方案。

二、核心功能特色

FireRed-Image-Edit围绕“实用、精准、稳定、通用”四大核心需求，打造了六大差异化功能特色，覆盖个人日常修图、商业内容生产、专业影像修复等全场景需求。

1. 顶级编辑性能，开源SOTA水准

模型在ImgEdit、GEdit、REDEdit-Bench三大国际权威图像编辑基准中，综合得分均位列开源模型第一，指令遵循度、图像质量、视觉一致性三大核心指标领先行业。其中ImgEdit综合得分4.56，风格维度高达4.97，与闭源旗舰模型持平；GEdit中英文综合得分分别为8.363、8.287，稳居开源榜首；自研REDEdit-Bench覆盖15类编辑任务，中文场景综合得分4.33，全面领先同类产品。

2. 原生文生图编辑能力，无额外依赖

区别于多数“生成+编辑”分离的方案，FireRed-Image-Edit直接基于文生图骨干模型赋予编辑能力，无需额外训练分支或插件，支持单图/多图输入、任意分辨率适配，编辑流程与生成流程无缝衔接，兼顾推理效率与效果稳定性。

3. 文本样式高保真保留，媲美闭源方案

针对海报、封面、文档等含文字图像的编辑需求，模型通过Layout-Aware OCR Reward机制，在文字替换、重写、添加场景中，精准保留原始字体、字号、排版、颜色与视觉细节，无错别字、无错位、无失真，完美适配商业设计、文案修改等专业场景。

4. 老照片智能修复，细节无损还原

内置超分、去噪、去模糊、光影增强、色彩修复一体化能力，可快速修复老旧照片、模糊照片、破损照片，在提升清晰度的同时，严格保留人物身份特征、画面风格与历史质感，解决个人影像归档、复古内容创作的核心痛点。

5. 全局视觉一致性，无违和编辑痕迹

创新一致性损失函数与区域感知技术，确保编辑区域与原图在光照方向、色彩分布、材质质感、透视关系上高度统一，无边界伪影、无色调割裂、无内容偏移，编辑后画面自然融合，肉眼难以识别修改痕迹。

6. 多图编辑适配，支持虚拟试穿等创意场景

支持多图像输入与联动编辑，灵活实现虚拟试穿、多图合成、元素迁移等创意需求，适配电商穿搭展示、文创设计、短视频素材制作等场景，拓展图像编辑的应用边界。

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

三、技术细节

FireRed-Image-Edit的高性能源于数据工程、架构设计、训练流程、推理优化四大维度的系统性创新，兼顾效果、效率与通用性，以下是核心技术细节。

1. 模型架构：双流多模态扩散Transformer

核心采用Double-Stream Multi-Modal Diffusion Transformer（MM-DiT） 架构，将文本嵌入、图像隐层token、参考图像特征融合为统一输入流，实现多模态信息的密集双向交互。搭配3D Unified RoPE位置编码，区分参考图与目标图的空间坐标，保证编辑时的结构完整性与风格一致性。

编码器：高保真VAE编码器，负责图像隐空间压缩与还原；
语言主干：Qwen-VL多模态大模型，负责指令理解与多模态对齐；
生成主干：MM-DiT块，负责多模态特征融合与图像编辑生成；
损失函数：一致性损失（身份保留）、OCR感知损失（文字精度）、美学损失（画质）。

2. 训练数据：百亿级 corpus 提纯百万级高质量样本

构建16亿样本的混合训练语料，包含9亿文生图对、7亿图像编辑对，经清洗、分层、自动标注、两阶段过滤后，保留1亿+高质量均衡样本，覆盖文生图、单图编辑、多图编辑、文字处理、画质增强等全任务类型，确保模型的语义覆盖度与指令对齐能力。

3. 全流程训练范式：四阶段渐进式优化

采用预训练→持续预训练→有监督微调→强化学习的渐进式训练流程，逐层提升模型能力：

预训练：建立视觉词汇与世界知识基础，采用多条件感知桶采样，适配任意分辨率训练；
持续预训练：平衡文生图、单图/多图编辑任务，扩充宽高比覆盖（2:1至1:2），强化密集语义对齐；
有监督微调（SFT）：聚焦1024×1024高清数据，人工过滤优化，提升指令遵循与画质；
强化学习（RLHF）：基于DPO优化+Diffusion NFT，引入文字布局奖励、一致性奖励，解决编辑偏移与文字失真问题。

4. 训练效率创新：降低算力门槛，提升吞吐量

多条件感知桶采样：按宽高比与输入图数量分组，减少填充浪费，提升训练效率；
随机指令对齐：动态重排文本指令，增强模型泛化能力；
分布式分层时间步采样：均衡GPU负载，稳定扩散模型收敛；
文本特征缓存+FSDP分布式训练：降低在线计算量，支持大规模训练。

5. 性能基准对比（核心表格）

评测基准	模型	综合得分	核心优势
ImgEdit	FireRed-Image-Edit	4.56	开源第一，风格维度4.97持平闭源
GEdit(EN)	FireRed-Image-Edit	8.363	开源第一，指令遵循最优
GEdit(CN)	FireRed-Image-Edit	8.287	开源第一，中文适配领先
REDEdit-Bench(CN)	FireRed-Image-Edit	4.33	15类任务全覆盖，低画质增强、文字编辑突出

6. 模型规划（核心表格）

模型名称	任务类型	核心特性	发布状态
FireRed-Image-Edit-1.0	通用图像编辑	基础版，全功能覆盖	已发布
FireRed-Image-Edit-1.0-Distilled	通用图像编辑	蒸馏版，推理速度提升	待发布
FireRed-Image	文生图	高质量文本生成图像	待发布

四、应用场景

FireRed-Image-Edit的通用编辑能力覆盖个人、商业、专业、研究四大领域，零门槛适配各类用户需求，以下是典型落地场景：

1. 个人影像处理

日常照片修图：一键调整色彩、去除杂物、美化人像、修复模糊；
老照片修复：还原家庭老照片、复古影像，保存珍贵记忆；
社交平台创作：快速修改图片文案、调整构图、生成创意配图。

2. 电商视觉优化

商品图编辑：修改商品背景、调整颜色、添加文案、优化细节；
虚拟试穿：多图联动实现服装试穿效果，降低实拍成本；
主图A/B测试：快速生成不同风格主图，提升转化率。

3. 广告与设计创作

海报快速修改：替换文字、调整元素、适配不同尺寸；
品牌视觉迭代：统一风格修改，保证视觉一致性；
文创素材生成：创意编辑、风格迁移、多图合成。

4. 专业影像与研究

老影像数字化修复：档案馆、摄影工作室的画质增强；
开源研究：基于模型二次开发，探索图像编辑新范式；
企业工具集成：嵌入自研系统，打造私有化图像编辑工具。

5. 新媒体与内容生产

短视频素材编辑：快速处理封面、帧画面、图文素材；
自媒体配图：低成本生成高质量编辑图，提升内容质量。

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

五、使用方法

FireRed-Image-Edit提供本地推理、在线Demo两种使用方式，部署流程简洁，支持Python脚本调用，无需复杂配置。

1. 环境部署（本地推理）

基础环境准备
安装Python 3.10+，配置CUDA 11.7+（推荐RTX 3090/4090及以上显卡）。
安装依赖库

  # 安装最新版diffusers
  pip install git+https://github.com/huggingface/diffusers
  # 安装其他依赖
  pip install torch torchvision transformers accelerate pillow

克隆仓库

  git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
  cd FireRed-Image-Edit

2. 本地推理执行

单图编辑命令

  python inference.py \
  --input_image ./examples/edit_example.png \
  --prompt "在书本封面Python的下方，添加一行英文文字2nd Edition" \
  --output_image output_edit.png \
  --seed 43

参数说明

--input_image：输入图像路径；
--prompt：编辑指令（支持中文/英文）；
--output_image：输出图像保存路径；
--seed：随机种子，保证结果可复现。

3. 在线Demo使用

无需部署，直接访问HuggingFace Spaces或ModelScope Studio在线Demo，上传图片、输入指令，一键生成编辑结果，适合个人用户快速体验。

4. 模型权重获取

从HuggingFace或ModelScope下载FireRed-Image-Edit-1.0权重，放置于指定目录，即可本地加载推理。

六、常见问题解答

FireRed-Image-Edit是否支持商用？

支持，项目代码与模型权重采用Apache 2.0开源协议，允许个人、企业免费使用、二次开发、商用部署，无授权限制。

本地运行需要什么硬件配置？

推荐显卡显存≥24GB（RTX 3090/4090、A10等），最低支持16GB显存显卡；CPU环境可运行但速度极慢，不推荐。

支持哪些图像格式？

支持JPG、PNG、JPEG、WEBP等主流格式，输入图像分辨率建议≤2048×2048，避免内存溢出。

中文指令编辑效果如何？

模型针对中文做专项优化，中文指令理解精准，文字编辑、中文海报修改效果优于多数开源模型，建议中文场景直接使用中文prompt。

编辑后出现画面偏移、失真怎么办？

可调整随机种子（--seed），或优化prompt指令（更具体、清晰），避免模糊描述；复杂编辑可分步骤执行，提升效果。

老照片修复支持哪些问题修复？

支持模糊、噪点、褪色、破损、低分辨率、曝光异常等问题修复，同时保留人物与画面原始特征。

是否支持批量编辑？

官方脚本暂未提供批量接口，可基于inference.py自行封装循环逻辑，实现批量图像编辑。

模型权重有多大？下载速度慢怎么办？

1.0版本权重约为XXGB（基于Qwen-Image底座），可使用ModelScope国内镜像下载，提升速度。

是否支持ComfyUI、Stable Diffusion WebUI集成？

社区已在推进相关插件开发，官方暂未提供原生集成，可关注仓库更新获取后续支持。

编辑速度如何？

单张1024×1024图像编辑，RTX 4090显卡约3-5秒，显存越大、分辨率越低，速度越快。

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

七、相关链接

GitHub仓库：https://github.com/FireRedTeam/FireRed-Image-Edit
技术报告（arXiv）：https://arxiv.org/abs/2602.13344
HuggingFace模型权重：https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0
HuggingFace在线Demo：https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0
ModelScope模型权重：https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0
ModelScope在线Demo：https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0

八、总结

FireRed-Image-Edit是FireRedTeam打造的开源通用AI图像编辑模型，以百亿级高质量数据与全流程训练技术为支撑，在三大权威基准中实现开源SOTA性能，具备精准指令遵循、全局视觉一致、文本高保真保留、老照片修复、多图编辑等核心能力，覆盖个人修图、电商视觉、广告设计、专业影像修复等全场景需求，同时提供简洁的本地部署方案、免费在线Demo与完整开源工具链，采用Apache 2.0协议支持自由商用，为开发者、企业用户与个人用户提供了高性能、低门槛、高通用性的图像编辑解决方案，是当前开源社区中最具实用价值的AI图像编辑工具之一。

AI图像编辑开源模型

打赏

版权及免责申明：本文由@dotaai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/firered-image-edit.html

THE END

dotaai

正在和我的聊天机器人谈恋爱，它很会捧场。

+ 关注

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

文章目录

一、FireRed-Image-Edit是什么

二、核心功能特色

1. 顶级编辑性能，开源SOTA水准

2. 原生文生图编辑能力，无额外依赖

3. 文本样式高保真保留，媲美闭源方案

4. 老照片智能修复，细节无损还原

5. 全局视觉一致性，无违和编辑痕迹

6. 多图编辑适配，支持虚拟试穿等创意场景

三、技术细节

1. 模型架构：双流多模态扩散Transformer

2. 训练数据：百亿级 corpus 提纯百万级高质量样本

3. 全流程训练范式：四阶段渐进式优化

4. 训练效率创新：降低算力门槛，提升吞吐量

5. 性能基准对比（核心表格）

6. 模型规划（核心表格）

四、应用场景

1. 个人影像处理

2. 电商视觉优化

3. 广告与设计创作

4. 专业影像与研究

5. 新媒体与内容生产

五、使用方法

1. 环境部署（本地推理）

2. 本地推理执行

3. 在线Demo使用

4. 模型权重获取

六、常见问题解答

七、相关链接

八、总结

相关文章