FireRed-Image-Edit:小红书开源的通用AI图像编辑模型,高保真指令遵循与视觉一致性编辑

原创 发布日期:
63

一、FireRed-Image-Edit是什么

FireRed-Image-Edit是由小红书FireRedTeam(超级智能团队) 于2026年2月正式开源的通用型指令式AI图像编辑模型,属于Diffusion Transformer架构,以“自然语言指令驱动、高保真编辑、全局视觉一致”为核心定位,是小红书FireRed全媒体AI工具套件的重要组成部分。

该模型打破传统图像编辑工具的操作门槛,无需专业修图技能,用户仅通过简单的中文/英文文本指令,即可完成图像元素增删改、色彩调整、人像美化、文字编辑、老照片修复、虚拟试穿等全类型编辑任务。它基于成熟开源文生图底座(Qwen-Image)构建,通过预训练+有监督微调+强化学习的全流程训练范式,实现了从“生成”到“编辑”的能力原生迁移,不依赖额外插件或辅助模型,具备轻量化、高可控、高稳定的特性。

作为开源社区的新晋SOTA模型,FireRed-Image-Edit在三大权威评测基准中全面超越主流开源模型,部分指标媲美闭源商业产品,同时开放代码、权重、Demo与评测方案,为开发者、研究者、企业用户提供可二次开发、可商用的高性能图像编辑解决方案。

二、核心功能特色

FireRed-Image-Edit围绕“实用、精准、稳定、通用”四大核心需求,打造了六大差异化功能特色,覆盖个人日常修图、商业内容生产、专业影像修复等全场景需求。

1. 顶级编辑性能,开源SOTA水准

模型在ImgEdit、GEdit、REDEdit-Bench三大国际权威图像编辑基准中,综合得分均位列开源模型第一,指令遵循度、图像质量、视觉一致性三大核心指标领先行业。其中ImgEdit综合得分4.56,风格维度高达4.97,与闭源旗舰模型持平;GEdit中英文综合得分分别为8.363、8.287,稳居开源榜首;自研REDEdit-Bench覆盖15类编辑任务,中文场景综合得分4.33,全面领先同类产品。

2. 原生文生图编辑能力,无额外依赖

区别于多数“生成+编辑”分离的方案,FireRed-Image-Edit直接基于文生图骨干模型赋予编辑能力,无需额外训练分支或插件,支持单图/多图输入、任意分辨率适配,编辑流程与生成流程无缝衔接,兼顾推理效率与效果稳定性。

3. 文本样式高保真保留,媲美闭源方案

针对海报、封面、文档等含文字图像的编辑需求,模型通过Layout-Aware OCR Reward机制,在文字替换、重写、添加场景中,精准保留原始字体、字号、排版、颜色与视觉细节,无错别字、无错位、无失真,完美适配商业设计、文案修改等专业场景。

4. 老照片智能修复,细节无损还原

内置超分、去噪、去模糊、光影增强、色彩修复一体化能力,可快速修复老旧照片、模糊照片、破损照片,在提升清晰度的同时,严格保留人物身份特征、画面风格与历史质感,解决个人影像归档、复古内容创作的核心痛点。

5. 全局视觉一致性,无违和编辑痕迹

创新一致性损失函数与区域感知技术,确保编辑区域与原图在光照方向、色彩分布、材质质感、透视关系上高度统一,无边界伪影、无色调割裂、无内容偏移,编辑后画面自然融合,肉眼难以识别修改痕迹。

6. 多图编辑适配,支持虚拟试穿等创意场景

支持多图像输入与联动编辑,灵活实现虚拟试穿、多图合成、元素迁移等创意需求,适配电商穿搭展示、文创设计、短视频素材制作等场景,拓展图像编辑的应用边界。

FireRed-Image-Edit:小红书开源的通用AI图像编辑模型,高保真指令遵循与视觉一致性编辑

三、技术细节

FireRed-Image-Edit的高性能源于数据工程、架构设计、训练流程、推理优化四大维度的系统性创新,兼顾效果、效率与通用性,以下是核心技术细节。

1. 模型架构:双流多模态扩散Transformer

核心采用Double-Stream Multi-Modal Diffusion Transformer(MM-DiT) 架构,将文本嵌入、图像隐层token、参考图像特征融合为统一输入流,实现多模态信息的密集双向交互。搭配3D Unified RoPE位置编码,区分参考图与目标图的空间坐标,保证编辑时的结构完整性与风格一致性。

  • 编码器:高保真VAE编码器,负责图像隐空间压缩与还原;

  • 语言主干:Qwen-VL多模态大模型,负责指令理解与多模态对齐;

  • 生成主干:MM-DiT块,负责多模态特征融合与图像编辑生成;

  • 损失函数:一致性损失(身份保留)、OCR感知损失(文字精度)、美学损失(画质)。

2. 训练数据:百亿级 corpus 提纯百万级高质量样本

构建16亿样本的混合训练语料,包含9亿文生图对、7亿图像编辑对,经清洗、分层、自动标注、两阶段过滤后,保留1亿+高质量均衡样本,覆盖文生图、单图编辑、多图编辑、文字处理、画质增强等全任务类型,确保模型的语义覆盖度与指令对齐能力。

3. 全流程训练范式:四阶段渐进式优化

采用预训练→持续预训练→有监督微调→强化学习的渐进式训练流程,逐层提升模型能力:

  1. 预训练:建立视觉词汇与世界知识基础,采用多条件感知桶采样,适配任意分辨率训练;

  2. 持续预训练:平衡文生图、单图/多图编辑任务,扩充宽高比覆盖(2:1至1:2),强化密集语义对齐;

  3. 有监督微调(SFT):聚焦1024×1024高清数据,人工过滤优化,提升指令遵循与画质;

  4. 强化学习(RLHF):基于DPO优化+Diffusion NFT,引入文字布局奖励、一致性奖励,解决编辑偏移与文字失真问题。

4. 训练效率创新:降低算力门槛,提升吞吐量

  • 多条件感知桶采样:按宽高比与输入图数量分组,减少填充浪费,提升训练效率;

  • 随机指令对齐:动态重排文本指令,增强模型泛化能力;

  • 分布式分层时间步采样:均衡GPU负载,稳定扩散模型收敛;

  • 文本特征缓存+FSDP分布式训练:降低在线计算量,支持大规模训练。

5. 性能基准对比(核心表格)

评测基准 模型 综合得分 核心优势
ImgEdit FireRed-Image-Edit 4.56 开源第一,风格维度4.97持平闭源
GEdit(EN) FireRed-Image-Edit 8.363 开源第一,指令遵循最优
GEdit(CN) FireRed-Image-Edit 8.287 开源第一,中文适配领先
REDEdit-Bench(CN) FireRed-Image-Edit 4.33 15类任务全覆盖,低画质增强、文字编辑突出

6. 模型规划(核心表格)

模型名称 任务类型 核心特性 发布状态
FireRed-Image-Edit-1.0 通用图像编辑 基础版,全功能覆盖 已发布
FireRed-Image-Edit-1.0-Distilled 通用图像编辑 蒸馏版,推理速度提升 待发布
FireRed-Image 文生图 高质量文本生成图像 待发布

四、应用场景

FireRed-Image-Edit的通用编辑能力覆盖个人、商业、专业、研究四大领域,零门槛适配各类用户需求,以下是典型落地场景:

1. 个人影像处理

  • 日常照片修图:一键调整色彩、去除杂物、美化人像、修复模糊;

  • 老照片修复:还原家庭老照片、复古影像,保存珍贵记忆;

  • 社交平台创作:快速修改图片文案、调整构图、生成创意配图。

2. 电商视觉优化

  • 商品图编辑:修改商品背景、调整颜色、添加文案、优化细节;

  • 虚拟试穿:多图联动实现服装试穿效果,降低实拍成本;

  • 主图A/B测试:快速生成不同风格主图,提升转化率。

3. 广告与设计创作

  • 海报快速修改:替换文字、调整元素、适配不同尺寸;

  • 品牌视觉迭代:统一风格修改,保证视觉一致性;

  • 文创素材生成:创意编辑、风格迁移、多图合成。

4. 专业影像与研究

  • 老影像数字化修复:档案馆、摄影工作室的画质增强;

  • 开源研究:基于模型二次开发,探索图像编辑新范式;

  • 企业工具集成:嵌入自研系统,打造私有化图像编辑工具。

5. 新媒体与内容生产

  • 短视频素材编辑:快速处理封面、帧画面、图文素材;

  • 自媒体配图:低成本生成高质量编辑图,提升内容质量。

FireRed-Image-Edit:小红书开源的通用AI图像编辑模型,高保真指令遵循与视觉一致性编辑

五、使用方法

FireRed-Image-Edit提供本地推理、在线Demo两种使用方式,部署流程简洁,支持Python脚本调用,无需复杂配置。

1. 环境部署(本地推理)

  1. 基础环境准备
    安装Python 3.10+,配置CUDA 11.7+(推荐RTX 3090/4090及以上显卡)。

  2. 安装依赖库

  # 安装最新版diffusers
  pip install git+https://github.com/huggingface/diffusers
  # 安装其他依赖
  pip install torch torchvision transformers accelerate pillow
  1. 克隆仓库

  git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
  cd FireRed-Image-Edit

2. 本地推理执行

  1. 单图编辑命令

  python inference.py \
  --input_image ./examples/edit_example.png \
  --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \
  --output_image output_edit.png \
  --seed 43
  1. 参数说明

    • --input_image:输入图像路径;

    • --prompt:编辑指令(支持中文/英文);

    • --output_image:输出图像保存路径;

    • --seed:随机种子,保证结果可复现。

3. 在线Demo使用

无需部署,直接访问HuggingFace Spaces或ModelScope Studio在线Demo,上传图片、输入指令,一键生成编辑结果,适合个人用户快速体验。

4. 模型权重获取

从HuggingFace或ModelScope下载FireRed-Image-Edit-1.0权重,放置于指定目录,即可本地加载推理。

六、常见问题解答

FireRed-Image-Edit是否支持商用?

支持,项目代码与模型权重采用Apache 2.0开源协议,允许个人、企业免费使用、二次开发、商用部署,无授权限制。

本地运行需要什么硬件配置?

推荐显卡显存≥24GB(RTX 3090/4090、A10等),最低支持16GB显存显卡;CPU环境可运行但速度极慢,不推荐。

支持哪些图像格式?

支持JPG、PNG、JPEG、WEBP等主流格式,输入图像分辨率建议≤2048×2048,避免内存溢出。

中文指令编辑效果如何?

模型针对中文做专项优化,中文指令理解精准,文字编辑、中文海报修改效果优于多数开源模型,建议中文场景直接使用中文prompt。

编辑后出现画面偏移、失真怎么办?

可调整随机种子(--seed),或优化prompt指令(更具体、清晰),避免模糊描述;复杂编辑可分步骤执行,提升效果。

老照片修复支持哪些问题修复?

支持模糊、噪点、褪色、破损、低分辨率、曝光异常等问题修复,同时保留人物与画面原始特征。

是否支持批量编辑?

官方脚本暂未提供批量接口,可基于inference.py自行封装循环逻辑,实现批量图像编辑。

模型权重有多大?下载速度慢怎么办?

1.0版本权重约为XXGB(基于Qwen-Image底座),可使用ModelScope国内镜像下载,提升速度。

是否支持ComfyUI、Stable Diffusion WebUI集成?

社区已在推进相关插件开发,官方暂未提供原生集成,可关注仓库更新获取后续支持。

编辑速度如何?

单张1024×1024图像编辑,RTX 4090显卡约3-5秒,显存越大、分辨率越低,速度越快。

FireRed-Image-Edit:小红书开源的通用AI图像编辑模型,高保真指令遵循与视觉一致性编辑

七、相关链接

  1. GitHub仓库:https://github.com/FireRedTeam/FireRed-Image-Edit

  2. 技术报告(arXiv):https://arxiv.org/abs/2602.13344

  3. HuggingFace模型权重:https://huggingface.co/FireRedTeam/FireRed-Image-Edit-1.0

  4. HuggingFace在线Demo:https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

  5. ModelScope模型权重:https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0

  6. ModelScope在线Demo:https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0

八、总结

FireRed-Image-Edit是FireRedTeam打造的开源通用AI图像编辑模型,以百亿级高质量数据与全流程训练技术为支撑,在三大权威基准中实现开源SOTA性能,具备精准指令遵循、全局视觉一致、文本高保真保留、老照片修复、多图编辑等核心能力,覆盖个人修图、电商视觉、广告设计、专业影像修复等全场景需求,同时提供简洁的本地部署方案、免费在线Demo与完整开源工具链,采用Apache 2.0协议支持自由商用,为开发者、企业用户与个人用户提供了高性能、低门槛、高通用性的图像编辑解决方案,是当前开源社区中最具实用价值的AI图像编辑工具之一。

打赏
THE END
作者头像
dotaai
正在和我的聊天机器人谈恋爱,它很会捧场。