DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

原创发布日期：2026-02-23

110

一、DeepGen 1.0是什么

DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型，聚焦于图像生成与编辑核心任务，是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理效率低等问题打造的轻量化解决方案。该模型整体参数量仅为5B，由3B的视觉语言模型（VLM）和2B的扩散变换器（DiT）组成双塔架构，却能在通用图像生成、推理式图像编辑等四大核心任务的权威基准测试中，实现对参数量3~16倍的主流多模态模型（如80B的Hunyuan-Image-3.0、27B的Qwen-Image-Edit）的超越。

DeepGen 1.0并非简单的“小模型精简版”，而是通过创新的架构设计和数据-centric的训练策略，实现了“轻量但全能”的技术突破，其核心定位是为学术界和工业界提供高效、低成本、高可用的多模态图像生成编辑基础模型，让中小研发团队和开发者也能便捷地使用高性能多模态技术，推动多模态生成技术的平民化和普及化。目前，该项目已在GitHub开源全流程代码、权重checkpoint（托管于Huggingface），并在ArXiv发布了完整技术报告，同时提供了详细的环境搭建、训练、推理、评估文档，支持开发者快速上手和二次开发。

二、功能特色

作为一款轻量化统一多模态模型，DeepGen 1.0的核心特色体现在轻量化、全能力、高性能、易部署、开源化五大维度，相较于传统大参数量多模态图像生成编辑模型，具备显著的技术和使用优势，具体特色如下：

1. 极致轻量化，资源消耗低

DeepGen 1.0总参数量仅5B（3B VLM+2B DiT），远低于主流多模态模型（如Hunyuan-Image-3.0 80B、Qwen-Image 27B、BAGEL 14B），训练阶段仅需基于约50M样本即可完成全流程训练，大幅降低了训练所需的计算资源、存储资源和时间成本；部署阶段无需超高配的GPU硬件，普通工业级显卡即可实现高效推理，解决了大模型“训练难、部署难、推理慢”的行业痛点。

2. 单模型集成五大核心能力，一站式解决图像生成编辑需求

不同于传统模型单一任务的设计思路，DeepGen 1.0实现了通用图像生成、通用图像编辑、推理式图像生成、推理式图像编辑、文本渲染五大核心能力的一体化集成，所有能力均基于同一个模型架构实现，无需为不同任务部署不同的模型实例。无论是简单的文本生成图像（T2I）、图像修改编辑，还是复杂的带逻辑推理的图像生成（如“生成一个由3个正方体和2个球体组成的立体几何场景”）、推理式图像编辑（如“将图片中的小猫替换为小狗，同时保持背景的草地和蓝天不变，且小狗的动作与原小猫一致”），甚至是图像中的文本精准渲染，都能通过该模型一站式实现，大幅提升了开发和使用的效率。

3. 轻量模型实现超高性能，媲美甚至超越大参数量模型

在多个权威的图像生成与编辑基准测试中，DeepGen 1.0（SFT/RL版本）均实现了对大参数量模型的反超，充分验证了其“轻量但高性能”的技术实力。其中，推理式图像生成任务中，RL版本的WISE指标达0.73（冠军），较80B的Hunyuan-Image-3.0提升28%；推理式图像编辑任务中，SFT版本的UniREditBench指标达77.5（冠军），较27B的Qwen-Image-Edit提升37%。即使是在通用图像生成、通用图像编辑等基础任务中，其性能也能跻身行业前列，远超同参数量级模型，打破了“参数量越大，性能越好”的固有认知。

4. 三阶段训练策略，兼顾性能与训练稳定性

DeepGen 1.0设计了对齐预训练、联合监督微调、MR-GRPO强化学习三阶段渐进式训练策略，各阶段分工明确、层层递进，既保证了模型的语义理解、生成能力的逐步提升，又避免了传统训练方式中易出现的视觉伪影、训练不稳定、人类偏好对齐度低等问题。尤其是第三阶段的MR-GRPO强化学习，融合了多奖励函数和监督信号，在提升生成质量的同时，能有效保持训练的稳定性，让模型生成的内容更符合人类的视觉和认知偏好。

5. 全流程开源，易部署、易二次开发

项目实现了代码、权重、数据集、技术报告的全开源，GitHub仓库中提供了详细的环境搭建脚本、训练脚本、推理脚本、评估脚本，以及DATA.md、TRAIN.md、INFERENCE.md、EVAL.md等全流程文档，开发者只需按照文档步骤，即可快速完成环境搭建、模型推理和二次训练。同时，模型的依赖库均为开源主流库（如transformers、flash_attn、xtuner），无专属闭源组件，部署方式灵活，支持本地部署、云端部署等多种形式，适配学术界和工业界的不同使用需求。

6. 创新架构设计，解决轻量模型核心短板

针对轻量模型在语义理解不足、细粒度控制能力弱等核心短板，DeepGen 1.0创新提出了堆叠通道桥接框架（SCB）和可学习的“Think Tokens（思维令牌）”，通过提取VLM多层级特征并与思维令牌融合，为图像生成提供结构化、富推理的指导，让轻量模型也能实现精准的语义理解和细粒度的图像生成编辑控制，解决了轻量模型“生成内容与文本指令脱节、细节控制差”的问题。

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

三、技术细节

DeepGen 1.0的高性能核心源于创新的双塔架构设计、堆叠通道桥接框架（SCB）、可学习Think Tokens、三阶段渐进式训练策略四大核心技术模块，各模块相互配合、协同优化，最终实现了轻量模型的性能突破，以下为各技术细节的详细解析：

1. 整体架构：VLM-DiT双塔架构

DeepGen 1.0采用经典的视觉语言模型（VLM）+扩散变换器（DiT） 双塔架构，整体参数量分配为3B VLM + 2B DiT，总参数量5B，两个子模型各司其职、协同工作：

3B VLM模块：基于Qwen2.5 VL-3B打造，核心负责多模态语义理解、推理、指令解析，能精准理解文本指令的语义信息、逻辑关系，甚至是隐含的推理需求，同时提取图像的视觉特征，为后续图像生成提供语义指导；
2B DiT模块：基于UniPic2-SD3.5M-Kontext-2B打造，作为生成骨干网络，核心负责图像的生成与编辑，将VLM模块传递的语义特征转化为高质量的像素图像，支持文本生成图像、图像编辑、文本渲染等多种生成任务；
架构连接：两个模块通过堆叠通道桥接框架（SCB） 实现特征融合和信息传递，SCB作为轻量级连接器，既保证了VLM和DiT的特征同步，又避免了额外的参数量开销，让双塔架构在轻量的前提下实现高效协同。

2. 核心创新：堆叠通道桥接框架（SCB）

堆叠通道桥接框架（SCB）是DeepGen 1.0的核心架构创新，专为解决轻量模型语义理解与生成能力脱节、多层级特征利用不足的问题设计，是实现VLM和DiT特征高效融合的关键。

SCB的核心原理是：从VLM的低、中、高三个层级提取分层视觉语言特征，其中低层级特征聚焦于图像的细节信息（如边缘、纹理、颜色），中层级特征聚焦于图像的局部结构信息（如物体的形状、位置），高层级特征聚焦于图像的全局语义信息（如物体的类别、场景的逻辑关系）。通过通道拼接（Channel Concatenation） 和Transformer编码器，将这三个层级的特征进行融合，同时与可学习的Think Tokens结合，最终将融合后的结构化、富推理的特征传递给DiT模块，为图像生成提供全方位的特征指导。

相较于传统的单一层级特征传递方式，SCB的优势在于：充分利用了VLM的多层级特征，既保证了生成图像的细节精度，又保证了生成内容与文本指令的语义一致性，让轻量模型也能实现“细节丰富、语义精准”的图像生成。同时，SCB本身是轻量级架构，无额外的大参数量开销，不会增加模型的整体复杂度。

3. 辅助创新：可学习Think Tokens（思维令牌）

为进一步提升模型的推理能力和细粒度控制能力，DeepGen 1.0在文本序列后追加了128个可学习的Think Tokens，其本质是一组可训练的向量，充当模型的“隐式思维链”，让模型在生成图像前，先对文本指令进行逻辑推理和特征整合，再将推理结果传递给DiT模块。

Think Tokens的核心作用体现在两个方面：一是针对推理式图像生成/编辑任务，帮助模型解析文本指令中的逻辑关系（如数量、位置、因果关系），让生成的内容符合逻辑推理要求；二是对VLM提取的多层级特征进行整合和优化，过滤无效特征、强化关键特征，提升特征传递的效率和精准度。在训练过程中，Think Tokens会与SCB框架一起被训练，逐步适配不同任务的推理和生成需求，最终成为模型“推理能力”的重要组成部分。

4. 核心策略：三阶段渐进式训练策略

DeepGen 1.0摒弃了传统的“端到端一次性训练”方式，设计了对齐预训练、联合监督微调（SFT）、MR-GRPO强化学习三阶段渐进式训练策略，各阶段训练目标明确、参数训练范围可控，既保证了模型能力的逐步提升，又避免了训练过程中的过拟合、视觉伪影、训练不稳定等问题，同时大幅减少了训练所需的样本量和计算资源。以下为各阶段的详细训练目标和训练方式：

训练阶段	核心训练目标	训练范围	训练数据	核心效果
对齐预训练	实现VLM和DiT的特征同步，让两个模块的特征表示处于同一空间，解决特征脱节问题	仅训练SCB框架和Think Tokens，VLM和DiT所有参数冻结	大规模图像-文本对、图像编辑三元组（原图+编辑指令+编辑后图）	完成VLM和DiT的基础特征对齐，为后续任务训练奠定基础
联合监督微调（SFT）	打造模型的全能力，让模型掌握通用生成、编辑、推理、文本渲染五大核心能力	DiT模块全参数解冻训练，VLM模块采用LoRA轻量化微调，SCB和Think Tokens继续训练	高质量混合任务数据集，涵盖生成、编辑、推理、文本渲染四大类任务	模型具备完整的五大核心能力，能完成各类基础和复杂的图像生成编辑任务
MR-GRPO强化学习	提升生成质量、人类偏好对齐度，优化细节控制，避免视觉伪影	全模型轻量级微调	融合多奖励函数的标注数据，包含VLM偏好、OCR准确率、CLIP相似度等多个评价维度	生成图像的质量大幅提升，更符合人类的视觉和认知偏好，训练过程稳定，无视觉伪影

其中，第三阶段的MR-GRPO（Multi-Reward Group Relative Policy Optimization） 是对传统强化学习算法的优化，核心是融合点态奖励（如VLM偏好、OCR准确率） 和成对奖励（如CLIP相似度对比） 组成多奖励函数，同时引入辅助SFT损失，让模型在强化学习过程中，既能提升生成质量，又能保持对文本指令的精准对齐，避免出现“为了提升视觉效果而脱离文本指令”的问题，同时保证训练过程的稳定性。

5. 基础组件依赖

DeepGen 1.0的核心基础组件均基于开源主流项目打造，无专属闭源组件，既保证了模型的高性能，又提升了开源的兼容性和可扩展性，核心基础组件如下：

VLM基础：Qwen2.5 VL-3B（高效的多模态理解能力）；
DiT基础：UniPic2-SD3.5M-Kontext-2B（高效的图像生成和编辑能力）；
强化学习奖励模型：UnifiedReward-Think（高精度的人类偏好对齐能力）；
训练/推理依赖：transformers、flash_attn、xtuner、triton等开源主流库。

四、应用场景

DeepGen 1.0凭借轻量化、全能力、高性能、易部署的核心优势，可适配学术界和工业界的多种图像生成编辑需求，其五大核心能力覆盖了基础视觉创作、工业设计、智能内容生产、学术研究、个性化定制等多个领域，具体典型应用场景如下：

1. 基础视觉内容创作

适用于自媒体创作者、设计师、普通用户的日常视觉内容创作需求，包括海报生成、插画创作、表情包制作、背景图设计等。用户只需输入简单的文本指令（如“生成一张蓝色调的海边日落海报，包含沙滩、椰树、海鸥，风格为手绘风”），DeepGen 1.0即可快速生成符合要求的图像；同时支持对生成的图像进行二次编辑（如“将海报中的椰树替换为灯塔，保持整体风格和色调不变”），无需专业的设计软件，大幅降低了视觉内容创作的门槛。

2. 工业设计与产品原型绘制

适用于工业设计、产品设计、室内设计等领域的原型绘制和方案迭代。设计师可通过文本指令生成产品的外观原型（如“生成一款简约风格的无线蓝牙耳机，机身为白色，耳机柄为弧形，带有呼吸灯”），或室内设计的场景图（如“生成一个北欧风格的客厅，包含布艺沙发、原木茶几、落地灯，墙面为浅灰色”）；同时支持推理式编辑（如“将客厅中的布艺沙发替换为皮质沙发，同时调整茶几的尺寸，使其与皮质沙发匹配”），帮助设计师快速迭代设计方案，提升设计效率。

3. 智能内容生产与媒体传播

适用于新媒体、电商、广告等行业的智能内容生产，包括电商商品图生成、广告创意图制作、媒体图文配图等。例如，电商商家可输入商品描述指令，生成符合平台要求的商品展示图（如“生成一款红色的连衣裙，模特为长发女性，背景为白色简约背景，展示正面和侧面效果”）；媒体平台可根据文章内容，生成对应的图文配图（如“为一篇关于人工智能发展的文章，生成一张包含机器人、大数据、云计算元素的科技风配图”），同时支持对图像中的文本进行精准渲染（如在配图中添加文章标题、关键词），提升内容的传播效果。

4. 推理式视觉任务与智能交互

适用于需要逻辑推理的视觉任务，如教育领域的立体几何图形生成、科研领域的实验场景模拟、智能机器人的视觉理解与生成等。例如，教育工作者可输入指令“生成一个由正四棱锥和正方体拼接而成的立体几何图形，正方体的上表面与正四棱锥的底面完全重合”，模型可生成符合逻辑的几何图形，辅助教学；科研人员可输入指令“生成一个细胞分裂的微观场景，包含3个分裂中的细胞，背景为黑色，细胞为蓝色荧光效果”，模拟实验场景，为科研分析提供参考。

5. 个性化图像定制与本地部署应用

适用于中小研发团队的个性化图像定制需求，如打造专属的图像生成机器人、本地图像编辑工具等。由于DeepGen 1.0轻量化、易部署的特点，研发团队可基于该模型进行二次开发，结合自身业务需求，训练专属的定制化模型（如针对动漫风格的图像生成模型、针对logo设计的图像编辑模型），并部署在本地服务器或终端设备上，实现私有化的图像生成编辑服务，避免数据泄露，同时保证推理效率。

6. 多模态学术研究与技术创新

适用于高校、科研院所的多模态生成领域的学术研究，包括轻量级多模态模型架构设计、训练策略优化、图像生成编辑算法创新等。DeepGen 1.0开源了全流程代码、权重和数据集，为研究者提供了一个高质量的基础研究平台，研究者可基于该模型进行架构改进、训练策略优化、新算法验证等研究工作，推动轻量级多模态模型技术的发展。

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

五、使用方法

DeepGen 1.0的使用流程涵盖环境搭建、数据准备、模型推理、模型训练、模型评估五大核心步骤，所有步骤均提供了详细的脚本和文档，开发者只需按照步骤操作，即可快速上手，以下为各步骤的详细操作方法（基于Linux系统，Windows系统可参考适配）：

1. 环境搭建

DeepGen 1.0基于Python 3.12开发，推荐使用conda创建独立虚拟环境，避免依赖库冲突，具体步骤如下：

克隆项目代码：打开终端，执行命令git clone https://github.com/deepgenteam/deepgen.git，将项目代码克隆到本地；
进入项目目录：执行命令cd deepgen，切换到项目根目录；
创建conda虚拟环境：执行命令conda create -n deepgen python=3.12 -y，创建名为deepgen的虚拟环境，Python版本指定为3.12；
激活虚拟环境：执行命令conda activate deepgen，激活创建的虚拟环境；
安装基础依赖：执行命令pip install -r requirements.txt，安装项目基础依赖库；
安装指定版本专属依赖：依次执行以下命令，安装指定版本的核心依赖库，保证模型的兼容性和性能：

pip install flash_attn==2.8.3 --no-build-isolation
pip install xtuner==0.2.0
pip install transformers==4.56.1
pip install triton==2.3.0
pip install -U opencv-python-headless

2. 数据准备

模型的推理、训练、评估均需要对应的数据集，项目根目录下的DATA.md文档提供了详细的数据集下载、处理、使用方法，具体遵循以下原则：

推理阶段：可使用自定义的文本指令，无需额外准备大规模数据集，若需进行图像编辑推理，只需准备待编辑的原图即可；
训练阶段（预训练/SFT）：DATA.md中提供了预训练和监督微调所需的数据集下载链接、数据格式要求、数据预处理脚本，开发者只需按照文档步骤，下载数据集并执行预处理脚本，即可得到符合模型训练要求的数据集；
评估阶段：DATA.md中提供了各基准测试（如Geneval、DPGBench、RISE）的数据集下载链接，下载后可直接用于模型评估。

3. 模型推理

模型推理支持文本生成图像（T2I）、图像编辑、推理式生成、推理式编辑、文本渲染五大任务，项目根目录下的INFERENCE.md文档提供了详细的推理脚本、参数设置和使用示例，核心操作步骤如下：

下载模型权重：模型的预训练、SFT、RL版本权重均托管于Huggingface，INFERENCE.md中提供了各版本权重的下载链接，将权重下载后，放在项目指定的权重目录下；
执行推理脚本：项目的scripts目录下提供了各任务的推理脚本（如image2image.py用于图像编辑），开发者可根据自身需求，修改脚本中的文本指令、图像路径、权重路径等参数，然后执行脚本即可完成推理；
查看推理结果：推理完成后，生成的图像会保存到脚本指定的输出目录下，开发者可直接查看和使用。

4. 模型训练

项目提供了预训练、监督微调（SFT）、强化学习（RL） 全流程训练脚本，项目根目录下的TRAIN.md文档提供了详细的训练参数设置、脚本使用方法、自定义训练配置，核心操作步骤如下：

准备训练数据：按照DATA.md的要求，完成训练数据的下载和预处理；
配置训练参数：打开scripts目录下的训练脚本（如sft.sh用于监督微调），根据自身的硬件资源（如GPU数量、显存大小），修改脚本中的批次大小、学习率、训练轮数、权重路径等参数；
执行训练脚本：在终端中执行命令bash scripts/sft.sh（以SFT训练为例），开始模型训练；
保存训练权重：训练过程中，模型的权重会按照脚本的配置，定期保存到指定目录下，训练完成后，即可使用自定义训练的权重进行推理。

5. 模型评估

项目提供了针对通用图像生成、通用图像编辑、推理式图像生成、推理式编辑四大任务的评估脚本，支持Geneval、DPGBench、WISE、RISE等多个权威基准测试，项目根目录下的EVAL.md文档提供了详细的评估脚本、数据集配置、指标计算方法，核心操作步骤如下：

准备评估数据：按照DATA.md的要求，下载各基准测试的评估数据集；
配置评估参数：打开scripts目录下的评估脚本，修改脚本中的模型权重路径、评估数据集路径、指标计算方式等参数；
执行评估脚本：在终端中执行对应的评估脚本，开始模型评估；
查看评估结果：评估完成后，脚本会输出模型在各基准测试上的指标得分，开发者可根据得分分析模型的性能。

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

六、常见问题解答

Q1：DeepGen 1.0支持哪些操作系统？

A1：DeepGen 1.0的核心代码基于Python开源库开发，原生支持Linux（Ubuntu 20.04/22.04） 系统，这也是官方推荐的训练和部署系统；同时，可通过WSL2在Windows 10/11系统上运行，支持推理和小规模训练；MacOS系统仅支持基于CPU的轻量级推理，不支持GPU训练和大规模推理。

Q2：运行DeepGen 1.0需要什么样的硬件配置？

A2：根据使用场景的不同，硬件配置要求不同，官方推荐配置如下：

1）推理阶段：单张NVIDIA RTX 3090/4090（24G显存）即可实现高效推理，支持批量生成；
2）训练阶段：预训练/SFT阶段推荐使用4张及以上NVIDIA A100（40G/80G显存），强化学习阶段推荐使用2张及以上NVIDIA A100（40G/80G显存）；
3）最低配置：单张NVIDIA RTX 3060（12G显存）可实现小规模推理，不支持训练。

Q3：DeepGen 1.0的SFT版本和RL版本有什么区别？该如何选择？

A3：SFT版本是经过联合监督微调后的基础版本，具备五大核心能力，性能稳定，推理速度快，适合基础图像生成、编辑、二次开发训练等场景；RL版本是在SFT版本基础上，经过MR-GRPO强化学习优化后的版本，生成质量更高、人类偏好对齐度更好、细节控制更精准，适合高质量图像生成、推理式任务、产品级部署等场景。若对推理速度要求高，选择SFT版本；若对生成质量要求高，选择RL版本。

Q4：能否基于DeepGen 1.0进行二次开发和商业使用？

A4：可以。DeepGen 1.0是开源项目，项目根目录下提供了LICENSE文件，遵循开源协议，开发者可基于该模型进行二次开发、定制化训练；同时，该模型支持商业使用，中小研发团队和企业可将其集成到自身的产品和服务中，无需支付额外的授权费用（具体请参考LICENSE文件的详细条款）。

Q5：运行模型时出现“显存不足”的问题，该如何解决？

A5：可通过以下几种方式解决：

1）降低推理/训练的批次大小（batch size），这是最直接有效的方法；
2）启用模型混合精度训练/推理，在脚本中添加--fp16或--bf16参数，减少显存占用；
3）使用模型量化技术，将模型量化为4/8位精度，降低显存需求；
4）分布式推理/训练，将模型拆分到多张GPU上运行，分摊显存压力。

Q6：DeepGen 1.0支持中文文本指令吗？

A6：支持。模型的VLM模块基于Qwen2.5 VL-3B打造，原生支持中文语义理解，同时在训练过程中，使用了大量的中文图像-文本对和中文编辑指令数据集，因此能精准理解中文文本指令，无论是中文基础指令还是中文推理式指令，都能实现高效的图像生成和编辑。

Q7：训练模型时出现“视觉伪影”（如图像模糊、色彩失真、物体变形），该如何解决？

A7：训练过程中出现视觉伪影，主要原因是训练参数设置不合理或训练数据质量低，可通过以下方式解决：

1）降低学习率，减缓模型的训练速度，避免过拟合；
2）增加训练数据的多样性，加入更多高质量的图像-文本对和编辑数据集；
3）启用MR-GRPO强化学习的辅助SFT损失，提升训练的稳定性；
4）检查数据集的格式，确保数据格式符合模型的训练要求，避免脏数据进入训练流程。

Q8：DeepGen 1.0的推理速度如何？能否支持实时生成？

A8：DeepGen 1.0作为轻量化模型，推理速度远快于大参数量模型，在单张NVIDIA A100（80G显存）上，生成一张512×512分辨率的图像，SFT版本推理时间约12秒，RL版本推理时间约23秒，基本能实现准实时生成；若降低生成图像的分辨率（如256×256），推理时间可缩短至1秒内，实现实时生成。

Q9：如何将DeepGen 1.0部署到云端？

A9：DeepGen 1.0支持多种云端部署方式，核心步骤如下：

1）在云端服务器（如阿里云、腾讯云、AWS）上搭建符合要求的运行环境（参考环境搭建步骤）；
2）将模型代码和权重上传到云端服务器；
3）基于FastAPI/Flask搭建模型推理接口，将推理脚本封装为API接口；
4）配置云端服务器的端口和安全组，对外提供推理服务，开发者可通过调用API接口，实现云端模型推理。

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

七、相关链接

项目GitHub代码仓：https://github.com/deepgenteam/deepgen
技术报告ArXiv链接：https://arxiv.org/abs/2602.12205
DeepGen-RL专项代码仓：https://github.com/deepgenteam/deepgen_rl
模型地址：https://huggingface.co/deepgenteam/DeepGen-1.0

八、总结

DeepGen 1.0是上海创智研究院DeepGen团队研发的一款轻量级统一多模态开源模型，以5B的极致参数量实现了通用图像生成、通用图像编辑、推理式图像生成、推理式图像编辑、文本渲染五大核心能力的一体化集成，通过堆叠通道桥接框架（SCB）、可学习Think Tokens和三阶段渐进式训练策略三大核心创新，解决了轻量模型语义理解不足、细粒度控制能力弱的核心短板，在多个权威基准测试中媲美甚至超越参数量3~16倍的主流多模态模型，打破了高性能多模态生成依赖模型规模化的固有认知。该项目实现了代码、权重、数据集、技术报告的全开源，提供了详细的环境搭建、训练、推理、评估文档和脚本，依赖库均为开源主流库，无专属闭源组件，部署方式灵活，支持本地部署、云端部署和二次开发，大幅降低了多模态图像生成编辑技术的使用门槛，为学术界提供了高质量的轻量级多模态模型研究平台，也为工业界提供了高效、低成本、高可用的基础模型，尤其适合中小研发团队和开发者的使用需求。同时，DeepGen 1.0的技术突破证明，通过创新的架构设计和数据-centric的训练策略，轻量模型也能实现高性能的多模态生成，为多模态模型的发展提供了新的思路和方向，推动了多模态生成技术的平民化和普及化。

AI图像生成 AI图像编辑开源模型

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/deepgen1-0.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

文章目录

一、DeepGen 1.0是什么

二、功能特色

1. 极致轻量化，资源消耗低

2. 单模型集成五大核心能力，一站式解决图像生成编辑需求

3. 轻量模型实现超高性能，媲美甚至超越大参数量模型

4. 三阶段训练策略，兼顾性能与训练稳定性

5. 全流程开源，易部署、易二次开发

6. 创新架构设计，解决轻量模型核心短板

三、技术细节

1. 整体架构：VLM-DiT双塔架构

2. 核心创新：堆叠通道桥接框架（SCB）

3. 辅助创新：可学习Think Tokens（思维令牌）

4. 核心策略：三阶段渐进式训练策略

5. 基础组件依赖

四、应用场景

1. 基础视觉内容创作

2. 工业设计与产品原型绘制

3. 智能内容生产与媒体传播

4. 推理式视觉任务与智能交互

5. 个性化图像定制与本地部署应用

6. 多模态学术研究与技术创新

五、使用方法

1. 环境搭建

2. 数据准备

3. 模型推理

4. 模型训练

5. 模型评估

六、常见问题解答

七、相关链接

八、总结

相关文章