DeepGen 1.0:上海创智研究院推出的5B参数多模态图像生成编辑模型

原创 发布日期:
61

一、DeepGen 1.0是什么

DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型,聚焦于图像生成与编辑核心任务,是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理效率低等问题打造的轻量化解决方案。该模型整体参数量仅为5B,由3B的视觉语言模型(VLM)和2B的扩散变换器(DiT)组成双塔架构,却能在通用图像生成、推理式图像编辑等四大核心任务的权威基准测试中,实现对参数量3~16倍的主流多模态模型(如80B的Hunyuan-Image-3.0、27B的Qwen-Image-Edit)的超越。

DeepGen 1.0并非简单的“小模型精简版”,而是通过创新的架构设计和数据-centric的训练策略,实现了“轻量但全能”的技术突破,其核心定位是为学术界和工业界提供高效、低成本、高可用的多模态图像生成编辑基础模型,让中小研发团队和开发者也能便捷地使用高性能多模态技术,推动多模态生成技术的平民化和普及化。目前,该项目已在GitHub开源全流程代码、权重checkpoint(托管于Huggingface),并在ArXiv发布了完整技术报告,同时提供了详细的环境搭建、训练、推理、评估文档,支持开发者快速上手和二次开发。

二、功能特色

作为一款轻量化统一多模态模型,DeepGen 1.0的核心特色体现在轻量化、全能力、高性能、易部署、开源化五大维度,相较于传统大参数量多模态图像生成编辑模型,具备显著的技术和使用优势,具体特色如下:

1. 极致轻量化,资源消耗低

DeepGen 1.0总参数量仅5B(3B VLM+2B DiT),远低于主流多模态模型(如Hunyuan-Image-3.0 80B、Qwen-Image 27B、BAGEL 14B),训练阶段仅需基于约50M样本即可完成全流程训练,大幅降低了训练所需的计算资源、存储资源和时间成本;部署阶段无需超高配的GPU硬件,普通工业级显卡即可实现高效推理,解决了大模型“训练难、部署难、推理慢”的行业痛点。

2. 单模型集成五大核心能力,一站式解决图像生成编辑需求

不同于传统模型单一任务的设计思路,DeepGen 1.0实现了通用图像生成、通用图像编辑、推理式图像生成、推理式图像编辑、文本渲染五大核心能力的一体化集成,所有能力均基于同一个模型架构实现,无需为不同任务部署不同的模型实例。无论是简单的文本生成图像(T2I)、图像修改编辑,还是复杂的带逻辑推理的图像生成(如“生成一个由3个正方体和2个球体组成的立体几何场景”)、推理式图像编辑(如“将图片中的小猫替换为小狗,同时保持背景的草地和蓝天不变,且小狗的动作与原小猫一致”),甚至是图像中的文本精准渲染,都能通过该模型一站式实现,大幅提升了开发和使用的效率。

3. 轻量模型实现超高性能,媲美甚至超越大参数量模型

在多个权威的图像生成与编辑基准测试中,DeepGen 1.0(SFT/RL版本)均实现了对大参数量模型的反超,充分验证了其“轻量但高性能”的技术实力。其中,推理式图像生成任务中,RL版本的WISE指标达0.73(冠军),较80B的Hunyuan-Image-3.0提升28%;推理式图像编辑任务中,SFT版本的UniREditBench指标达77.5(冠军),较27B的Qwen-Image-Edit提升37%。即使是在通用图像生成、通用图像编辑等基础任务中,其性能也能跻身行业前列,远超同参数量级模型,打破了“参数量越大,性能越好”的固有认知。

4. 三阶段训练策略,兼顾性能与训练稳定性

DeepGen 1.0设计了对齐预训练、联合监督微调、MR-GRPO强化学习三阶段渐进式训练策略,各阶段分工明确、层层递进,既保证了模型的语义理解、生成能力的逐步提升,又避免了传统训练方式中易出现的视觉伪影、训练不稳定、人类偏好对齐度低等问题。尤其是第三阶段的MR-GRPO强化学习,融合了多奖励函数和监督信号,在提升生成质量的同时,能有效保持训练的稳定性,让模型生成的内容更符合人类的视觉和认知偏好。

5. 全流程开源,易部署、易二次开发

项目实现了代码、权重、数据集、技术报告的全开源,GitHub仓库中提供了详细的环境搭建脚本、训练脚本、推理脚本、评估脚本,以及DATA.md、TRAIN.md、INFERENCE.md、EVAL.md等全流程文档,开发者只需按照文档步骤,即可快速完成环境搭建、模型推理和二次训练。同时,模型的依赖库均为开源主流库(如transformers、flash_attn、xtuner),无专属闭源组件,部署方式灵活,支持本地部署、云端部署等多种形式,适配学术界和工业界的不同使用需求。

6. 创新架构设计,解决轻量模型核心短板

针对轻量模型在语义理解不足、细粒度控制能力弱等核心短板,DeepGen 1.0创新提出了堆叠通道桥接框架(SCB)和可学习的“Think Tokens(思维令牌)”,通过提取VLM多层级特征并与思维令牌融合,为图像生成提供结构化、富推理的指导,让轻量模型也能实现精准的语义理解和细粒度的图像生成编辑控制,解决了轻量模型“生成内容与文本指令脱节、细节控制差”的问题。

DeepGen 1.0:上海创智研究院推出的5B参数多模态图像生成编辑模型

三、技术细节

DeepGen 1.0的高性能核心源于创新的双塔架构设计、堆叠通道桥接框架(SCB)、可学习Think Tokens、三阶段渐进式训练策略四大核心技术模块,各模块相互配合、协同优化,最终实现了轻量模型的性能突破,以下为各技术细节的详细解析:

1. 整体架构:VLM-DiT双塔架构

DeepGen 1.0采用经典的视觉语言模型(VLM)+扩散变换器(DiT) 双塔架构,整体参数量分配为3B VLM + 2B DiT,总参数量5B,两个子模型各司其职、协同工作:

  • 3B VLM模块:基于Qwen2.5 VL-3B打造,核心负责多模态语义理解、推理、指令解析,能精准理解文本指令的语义信息、逻辑关系,甚至是隐含的推理需求,同时提取图像的视觉特征,为后续图像生成提供语义指导;

  • 2B DiT模块:基于UniPic2-SD3.5M-Kontext-2B打造,作为生成骨干网络,核心负责图像的生成与编辑,将VLM模块传递的语义特征转化为高质量的像素图像,支持文本生成图像、图像编辑、文本渲染等多种生成任务;

  • 架构连接:两个模块通过堆叠通道桥接框架(SCB) 实现特征融合和信息传递,SCB作为轻量级连接器,既保证了VLM和DiT的特征同步,又避免了额外的参数量开销,让双塔架构在轻量的前提下实现高效协同。

2. 核心创新:堆叠通道桥接框架(SCB)

堆叠通道桥接框架(SCB)是DeepGen 1.0的核心架构创新,专为解决轻量模型语义理解与生成能力脱节、多层级特征利用不足的问题设计,是实现VLM和DiT特征高效融合的关键。

SCB的核心原理是:从VLM的低、中、高三个层级提取分层视觉语言特征,其中低层级特征聚焦于图像的细节信息(如边缘、纹理、颜色),中层级特征聚焦于图像的局部结构信息(如物体的形状、位置),高层级特征聚焦于图像的全局语义信息(如物体的类别、场景的逻辑关系)。通过通道拼接(Channel Concatenation) 和Transformer编码器,将这三个层级的特征进行融合,同时与可学习的Think Tokens结合,最终将融合后的结构化、富推理的特征传递给DiT模块,为图像生成提供全方位的特征指导。

相较于传统的单一层级特征传递方式,SCB的优势在于:充分利用了VLM的多层级特征,既保证了生成图像的细节精度,又保证了生成内容与文本指令的语义一致性,让轻量模型也能实现“细节丰富、语义精准”的图像生成。同时,SCB本身是轻量级架构,无额外的大参数量开销,不会增加模型的整体复杂度。

3. 辅助创新:可学习Think Tokens(思维令牌)

为进一步提升模型的推理能力和细粒度控制能力,DeepGen 1.0在文本序列后追加了128个可学习的Think Tokens,其本质是一组可训练的向量,充当模型的“隐式思维链”,让模型在生成图像前,先对文本指令进行逻辑推理和特征整合,再将推理结果传递给DiT模块。

Think Tokens的核心作用体现在两个方面:一是针对推理式图像生成/编辑任务,帮助模型解析文本指令中的逻辑关系(如数量、位置、因果关系),让生成的内容符合逻辑推理要求;二是对VLM提取的多层级特征进行整合和优化,过滤无效特征、强化关键特征,提升特征传递的效率和精准度。在训练过程中,Think Tokens会与SCB框架一起被训练,逐步适配不同任务的推理和生成需求,最终成为模型“推理能力”的重要组成部分。

4. 核心策略:三阶段渐进式训练策略

DeepGen 1.0摒弃了传统的“端到端一次性训练”方式,设计了对齐预训练、联合监督微调(SFT)、MR-GRPO强化学习三阶段渐进式训练策略,各阶段训练目标明确、参数训练范围可控,既保证了模型能力的逐步提升,又避免了训练过程中的过拟合、视觉伪影、训练不稳定等问题,同时大幅减少了训练所需的样本量和计算资源。以下为各阶段的详细训练目标和训练方式:

训练阶段 核心训练目标 训练范围 训练数据 核心效果
对齐预训练 实现VLM和DiT的特征同步,让两个模块的特征表示处于同一空间,解决特征脱节问题 仅训练SCB框架和Think Tokens,VLM和DiT所有参数冻结 大规模图像-文本对、图像编辑三元组(原图+编辑指令+编辑后图) 完成VLM和DiT的基础特征对齐,为后续任务训练奠定基础
联合监督微调(SFT) 打造模型的全能力,让模型掌握通用生成、编辑、推理、文本渲染五大核心能力 DiT模块全参数解冻训练,VLM模块采用LoRA轻量化微调,SCB和Think Tokens继续训练 高质量混合任务数据集,涵盖生成、编辑、推理、文本渲染四大类任务 模型具备完整的五大核心能力,能完成各类基础和复杂的图像生成编辑任务
MR-GRPO强化学习 提升生成质量、人类偏好对齐度,优化细节控制,避免视觉伪影 全模型轻量级微调 融合多奖励函数的标注数据,包含VLM偏好、OCR准确率、CLIP相似度等多个评价维度 生成图像的质量大幅提升,更符合人类的视觉和认知偏好,训练过程稳定,无视觉伪影

其中,第三阶段的MR-GRPO(Multi-Reward Group Relative Policy Optimization) 是对传统强化学习算法的优化,核心是融合点态奖励(如VLM偏好、OCR准确率)成对奖励(如CLIP相似度对比) 组成多奖励函数,同时引入辅助SFT损失,让模型在强化学习过程中,既能提升生成质量,又能保持对文本指令的精准对齐,避免出现“为了提升视觉效果而脱离文本指令”的问题,同时保证训练过程的稳定性。

5. 基础组件依赖

DeepGen 1.0的核心基础组件均基于开源主流项目打造,无专属闭源组件,既保证了模型的高性能,又提升了开源的兼容性和可扩展性,核心基础组件如下:

  • VLM基础:Qwen2.5 VL-3B(高效的多模态理解能力);

  • DiT基础:UniPic2-SD3.5M-Kontext-2B(高效的图像生成和编辑能力);

  • 强化学习奖励模型:UnifiedReward-Think(高精度的人类偏好对齐能力);

  • 训练/推理依赖:transformers、flash_attn、xtuner、triton等开源主流库。

四、应用场景

DeepGen 1.0凭借轻量化、全能力、高性能、易部署的核心优势,可适配学术界和工业界的多种图像生成编辑需求,其五大核心能力覆盖了基础视觉创作、工业设计、智能内容生产、学术研究、个性化定制等多个领域,具体典型应用场景如下:

1. 基础视觉内容创作

适用于自媒体创作者、设计师、普通用户的日常视觉内容创作需求,包括海报生成、插画创作、表情包制作、背景图设计等。用户只需输入简单的文本指令(如“生成一张蓝色调的海边日落海报,包含沙滩、椰树、海鸥,风格为手绘风”),DeepGen 1.0即可快速生成符合要求的图像;同时支持对生成的图像进行二次编辑(如“将海报中的椰树替换为灯塔,保持整体风格和色调不变”),无需专业的设计软件,大幅降低了视觉内容创作的门槛。

2. 工业设计与产品原型绘制

适用于工业设计、产品设计、室内设计等领域的原型绘制和方案迭代。设计师可通过文本指令生成产品的外观原型(如“生成一款简约风格的无线蓝牙耳机,机身为白色,耳机柄为弧形,带有呼吸灯”),或室内设计的场景图(如“生成一个北欧风格的客厅,包含布艺沙发、原木茶几、落地灯,墙面为浅灰色”);同时支持推理式编辑(如“将客厅中的布艺沙发替换为皮质沙发,同时调整茶几的尺寸,使其与皮质沙发匹配”),帮助设计师快速迭代设计方案,提升设计效率。

3. 智能内容生产与媒体传播

适用于新媒体、电商、广告等行业的智能内容生产,包括电商商品图生成、广告创意图制作、媒体图文配图等。例如,电商商家可输入商品描述指令,生成符合平台要求的商品展示图(如“生成一款红色的连衣裙,模特为长发女性,背景为白色简约背景,展示正面和侧面效果”);媒体平台可根据文章内容,生成对应的图文配图(如“为一篇关于人工智能发展的文章,生成一张包含机器人、大数据、云计算元素的科技风配图”),同时支持对图像中的文本进行精准渲染(如在配图中添加文章标题、关键词),提升内容的传播效果。

4. 推理式视觉任务与智能交互

适用于需要逻辑推理的视觉任务,如教育领域的立体几何图形生成、科研领域的实验场景模拟、智能机器人的视觉理解与生成等。例如,教育工作者可输入指令“生成一个由正四棱锥和正方体拼接而成的立体几何图形,正方体的上表面与正四棱锥的底面完全重合”,模型可生成符合逻辑的几何图形,辅助教学;科研人员可输入指令“生成一个细胞分裂的微观场景,包含3个分裂中的细胞,背景为黑色,细胞为蓝色荧光效果”,模拟实验场景,为科研分析提供参考。

5. 个性化图像定制与本地部署应用

适用于中小研发团队的个性化图像定制需求,如打造专属的图像生成机器人、本地图像编辑工具等。由于DeepGen 1.0轻量化、易部署的特点,研发团队可基于该模型进行二次开发,结合自身业务需求,训练专属的定制化模型(如针对动漫风格的图像生成模型、针对logo设计的图像编辑模型),并部署在本地服务器或终端设备上,实现私有化的图像生成编辑服务,避免数据泄露,同时保证推理效率。

6. 多模态学术研究与技术创新

适用于高校、科研院所的多模态生成领域的学术研究,包括轻量级多模态模型架构设计、训练策略优化、图像生成编辑算法创新等。DeepGen 1.0开源了全流程代码、权重和数据集,为研究者提供了一个高质量的基础研究平台,研究者可基于该模型进行架构改进、训练策略优化、新算法验证等研究工作,推动轻量级多模态模型技术的发展。

DeepGen 1.0:上海创智研究院推出的5B参数多模态图像生成编辑模型

五、使用方法

DeepGen 1.0的使用流程涵盖环境搭建、数据准备、模型推理、模型训练、模型评估五大核心步骤,所有步骤均提供了详细的脚本和文档,开发者只需按照步骤操作,即可快速上手,以下为各步骤的详细操作方法(基于Linux系统,Windows系统可参考适配):

1. 环境搭建

DeepGen 1.0基于Python 3.12开发,推荐使用conda创建独立虚拟环境,避免依赖库冲突,具体步骤如下:

  1. 克隆项目代码:打开终端,执行命令git clone https://github.com/deepgenteam/deepgen.git,将项目代码克隆到本地;

  2. 进入项目目录:执行命令cd deepgen,切换到项目根目录;

  3. 创建conda虚拟环境:执行命令conda create -n deepgen python=3.12 -y,创建名为deepgen的虚拟环境,Python版本指定为3.12;

  4. 激活虚拟环境:执行命令conda activate deepgen,激活创建的虚拟环境;

  5. 安装基础依赖:执行命令pip install -r requirements.txt,安装项目基础依赖库;

  6. 安装指定版本专属依赖:依次执行以下命令,安装指定版本的核心依赖库,保证模型的兼容性和性能:

    • pip install flash_attn==2.8.3 --no-build-isolation

    • pip install xtuner==0.2.0

    • pip install transformers==4.56.1

    • pip install triton==2.3.0

    • pip install -U opencv-python-headless

2. 数据准备

模型的推理、训练、评估均需要对应的数据集,项目根目录下的DATA.md文档提供了详细的数据集下载、处理、使用方法,具体遵循以下原则:

  1. 推理阶段:可使用自定义的文本指令,无需额外准备大规模数据集,若需进行图像编辑推理,只需准备待编辑的原图即可;

  2. 训练阶段(预训练/SFT):DATA.md中提供了预训练和监督微调所需的数据集下载链接、数据格式要求、数据预处理脚本,开发者只需按照文档步骤,下载数据集并执行预处理脚本,即可得到符合模型训练要求的数据集;

  3. 评估阶段:DATA.md中提供了各基准测试(如Geneval、DPGBench、RISE)的数据集下载链接,下载后可直接用于模型评估。

3. 模型推理

模型推理支持文本生成图像(T2I)、图像编辑、推理式生成、推理式编辑、文本渲染五大任务,项目根目录下的INFERENCE.md文档提供了详细的推理脚本、参数设置和使用示例,核心操作步骤如下:

  1. 下载模型权重:模型的预训练、SFT、RL版本权重均托管于Huggingface,INFERENCE.md中提供了各版本权重的下载链接,将权重下载后,放在项目指定的权重目录下;

  2. 执行推理脚本:项目的scripts目录下提供了各任务的推理脚本(如image2image.py用于图像编辑),开发者可根据自身需求,修改脚本中的文本指令、图像路径、权重路径等参数,然后执行脚本即可完成推理;

  3. 查看推理结果:推理完成后,生成的图像会保存到脚本指定的输出目录下,开发者可直接查看和使用。

4. 模型训练

项目提供了预训练、监督微调(SFT)、强化学习(RL) 全流程训练脚本,项目根目录下的TRAIN.md文档提供了详细的训练参数设置、脚本使用方法、自定义训练配置,核心操作步骤如下:

  1. 准备训练数据:按照DATA.md的要求,完成训练数据的下载和预处理;

  2. 配置训练参数:打开scripts目录下的训练脚本(如sft.sh用于监督微调),根据自身的硬件资源(如GPU数量、显存大小),修改脚本中的批次大小、学习率、训练轮数、权重路径等参数;

  3. 执行训练脚本:在终端中执行命令bash scripts/sft.sh(以SFT训练为例),开始模型训练;

  4. 保存训练权重:训练过程中,模型的权重会按照脚本的配置,定期保存到指定目录下,训练完成后,即可使用自定义训练的权重进行推理。

5. 模型评估

项目提供了针对通用图像生成、通用图像编辑、推理式图像生成、推理式编辑四大任务的评估脚本,支持Geneval、DPGBench、WISE、RISE等多个权威基准测试,项目根目录下的EVAL.md文档提供了详细的评估脚本、数据集配置、指标计算方法,核心操作步骤如下:

  1. 准备评估数据:按照DATA.md的要求,下载各基准测试的评估数据集;

  2. 配置评估参数:打开scripts目录下的评估脚本,修改脚本中的模型权重路径、评估数据集路径、指标计算方式等参数;

  3. 执行评估脚本:在终端中执行对应的评估脚本,开始模型评估;

  4. 查看评估结果:评估完成后,脚本会输出模型在各基准测试上的指标得分,开发者可根据得分分析模型的性能。

DeepGen 1.0:上海创智研究院推出的5B参数多模态图像生成编辑模型

六、常见问题解答

Q1:DeepGen 1.0支持哪些操作系统?

A1:DeepGen 1.0的核心代码基于Python开源库开发,原生支持Linux(Ubuntu 20.04/22.04) 系统,这也是官方推荐的训练和部署系统;同时,可通过WSL2在Windows 10/11系统上运行,支持推理和小规模训练;MacOS系统仅支持基于CPU的轻量级推理,不支持GPU训练和大规模推理。

Q2:运行DeepGen 1.0需要什么样的硬件配置?

A2:根据使用场景的不同,硬件配置要求不同,官方推荐配置如下:

  • 1)推理阶段:单张NVIDIA RTX 3090/4090(24G显存)即可实现高效推理,支持批量生成;

  • 2)训练阶段:预训练/SFT阶段推荐使用4张及以上NVIDIA A100(40G/80G显存),强化学习阶段推荐使用2张及以上NVIDIA A100(40G/80G显存);

  • 3)最低配置:单张NVIDIA RTX 3060(12G显存)可实现小规模推理,不支持训练。

Q3:DeepGen 1.0的SFT版本和RL版本有什么区别?该如何选择?

A3:SFT版本是经过联合监督微调后的基础版本,具备五大核心能力,性能稳定,推理速度快,适合基础图像生成、编辑、二次开发训练等场景;RL版本是在SFT版本基础上,经过MR-GRPO强化学习优化后的版本,生成质量更高、人类偏好对齐度更好、细节控制更精准,适合高质量图像生成、推理式任务、产品级部署等场景。若对推理速度要求高,选择SFT版本;若对生成质量要求高,选择RL版本。

Q4:能否基于DeepGen 1.0进行二次开发和商业使用?

A4:可以。DeepGen 1.0是开源项目,项目根目录下提供了LICENSE文件,遵循开源协议,开发者可基于该模型进行二次开发、定制化训练;同时,该模型支持商业使用,中小研发团队和企业可将其集成到自身的产品和服务中,无需支付额外的授权费用(具体请参考LICENSE文件的详细条款)。

Q5:运行模型时出现“显存不足”的问题,该如何解决?

A5:可通过以下几种方式解决:

  • 1)降低推理/训练的批次大小(batch size),这是最直接有效的方法;

  • 2)启用模型混合精度训练/推理,在脚本中添加--fp16--bf16参数,减少显存占用;

  • 3)使用模型量化技术,将模型量化为4/8位精度,降低显存需求;

  • 4)分布式推理/训练,将模型拆分到多张GPU上运行,分摊显存压力。

Q6:DeepGen 1.0支持中文文本指令吗?

A6:支持。模型的VLM模块基于Qwen2.5 VL-3B打造,原生支持中文语义理解,同时在训练过程中,使用了大量的中文图像-文本对和中文编辑指令数据集,因此能精准理解中文文本指令,无论是中文基础指令还是中文推理式指令,都能实现高效的图像生成和编辑。

Q7:训练模型时出现“视觉伪影”(如图像模糊、色彩失真、物体变形),该如何解决?

A7:训练过程中出现视觉伪影,主要原因是训练参数设置不合理或训练数据质量低,可通过以下方式解决:

  • 1)降低学习率,减缓模型的训练速度,避免过拟合;

  • 2)增加训练数据的多样性,加入更多高质量的图像-文本对和编辑数据集;

  • 3)启用MR-GRPO强化学习的辅助SFT损失,提升训练的稳定性;

  • 4)检查数据集的格式,确保数据格式符合模型的训练要求,避免脏数据进入训练流程。

Q8:DeepGen 1.0的推理速度如何?能否支持实时生成?

A8:DeepGen 1.0作为轻量化模型,推理速度远快于大参数量模型,在单张NVIDIA A100(80G显存)上,生成一张512×512分辨率的图像,SFT版本推理时间约12秒,RL版本推理时间约23秒,基本能实现准实时生成;若降低生成图像的分辨率(如256×256),推理时间可缩短至1秒内,实现实时生成。

Q9:如何将DeepGen 1.0部署到云端?

A9:DeepGen 1.0支持多种云端部署方式,核心步骤如下:

  • 1)在云端服务器(如阿里云、腾讯云、AWS)上搭建符合要求的运行环境(参考环境搭建步骤);

  • 2)将模型代码和权重上传到云端服务器;

  • 3)基于FastAPI/Flask搭建模型推理接口,将推理脚本封装为API接口;

  • 4)配置云端服务器的端口和安全组,对外提供推理服务,开发者可通过调用API接口,实现云端模型推理。

DeepGen 1.0:上海创智研究院推出的5B参数多模态图像生成编辑模型

七、相关链接

  1. 项目GitHub代码仓:https://github.com/deepgenteam/deepgen

  2. 技术报告ArXiv链接:https://arxiv.org/abs/2602.12205

  3. DeepGen-RL专项代码仓:https://github.com/deepgenteam/deepgen_rl

  4. 模型地址:https://huggingface.co/deepgenteam/DeepGen-1.0

八、总结

DeepGen 1.0是上海创智研究院DeepGen团队研发的一款轻量级统一多模态开源模型,以5B的极致参数量实现了通用图像生成、通用图像编辑、推理式图像生成、推理式图像编辑、文本渲染五大核心能力的一体化集成,通过堆叠通道桥接框架(SCB)、可学习Think Tokens和三阶段渐进式训练策略三大核心创新,解决了轻量模型语义理解不足、细粒度控制能力弱的核心短板,在多个权威基准测试中媲美甚至超越参数量3~16倍的主流多模态模型,打破了高性能多模态生成依赖模型规模化的固有认知。该项目实现了代码、权重、数据集、技术报告的全开源,提供了详细的环境搭建、训练、推理、评估文档和脚本,依赖库均为开源主流库,无专属闭源组件,部署方式灵活,支持本地部署、云端部署和二次开发,大幅降低了多模态图像生成编辑技术的使用门槛,为学术界提供了高质量的轻量级多模态模型研究平台,也为工业界提供了高效、低成本、高可用的基础模型,尤其适合中小研发团队和开发者的使用需求。同时,DeepGen 1.0的技术突破证明,通过创新的架构设计和数据-centric的训练策略,轻量模型也能实现高性能的多模态生成,为多模态模型的发展提供了新的思路和方向,推动了多模态生成技术的平民化和普及化。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法