Emu3.5:北京智源开源的原生多模态世界模型

原创 发布日期:
60

一、Emu3.5是什么

Emu3.5(又称“悟界·Emu3.5”)是由北京人工智能研究院(BAAI)研发并开源的大规模原生多模态世界模型,其基于单一340亿参数Transformer架构,以“下一状态预测(NSP)”为核心训练目标,在超13万亿多模态Token(含790年时长视频及对应转录文本)上完成端到端预训练。该模型突破了传统多模态模型“模态割裂”“推理低效”“缺乏时空因果”的痛点,实现了图像、文本、视频的统一建模与生成,同时通过离散扩散适配(DiDA)技术将图像推理速度提升20倍。其具备长视野视觉-语言生成、任意到图像合成、具身智能指导、虚拟世界探索等核心能力,可广泛应用于内容创作、机器人操控、虚拟仿真等领域,且已开源代码与模型权重,为多模态AI研究与落地提供了高效且通用的开源工具。

研发背景

在AI多模态领域,传统模型存在三大核心痛点:一是模态割裂,需为图像、文本、视频分别设计专用模块,无法实现原生的跨模态交互;二是缺乏时空因果,仅能完成短序列的静态内容生成,难以理解“杯子落地会碎”“炒菜需先倒油”这类物理规律与步骤逻辑;三是推理效率低,自回归模型逐Token生成的模式导致图像生成耗时过长,无法满足实时应用需求。

在此背景下,BAAI团队延续Emu3“单一自回归目标统一多模态任务”的技术路线,通过扩大模型规模、升级训练数据、创新推理加速技术,推出了Emu3.5,首次实现了多模态模型从“任务工具”到“世界理解与交互载体”的跃迁。

核心定位

Emu3.5的核心定位是“多模态世界模型”,其目标并非单纯生成高质量图像,而是让AI学会“理解世界、预测变化、指导交互”。例如输入“如何制作虾仁芹菜饺子”的指令,模型不仅能输出文字步骤,还能按逻辑生成从备料、拌馅、包饺子到煮制的连贯视觉序列,且每一步都符合真实的烹饪物理规律与时空顺序。

Emu3.5:北京智源开源的原生多模态世界模型

二、Emu3.5核心功能特色

Emu3.5的功能特色围绕“原生多模态统一”“时空因果连贯”“高效推理”“通用任务适配”四大维度展开,具体如下:

1. 真正的原生多模态统一I/O

不同于传统多模态模型依赖“模态适配器”或“任务专用头”的拼接式架构,Emu3.5从输入阶段就将所有模态转化为统一的离散Token序列。无论是单张图像、长文本描述,还是多帧视频,都能在同一个Transformer架构中完成编码、理解与生成,支持“文本→图像→文本→视频”的交错式输入输出。例如用户可先上传一张“松鼠在草地”的照片,再输入文本指令“将背景换成雪地并添加落日光影”,模型能直接生成符合要求的新图像,且松鼠的姿态、毛发质感与新场景的光影完全适配,无“拼贴感”。

2. 时空连贯的世界规律建模

依托“下一状态预测(NSP)”的训练目标,Emu3.5可学习物理世界的时空连续性与因果逻辑,而非仅模仿像素或文本的表面关联。其能力体现在两个层面:一是长序列视觉叙事,能生成5分钟以上的连贯视觉故事,且前后帧的物体位置、光影、逻辑保持一致,如生成“卧室→逐步进入房间→调整家具→模拟100年后房间状态”的完整探索序列;二是物理因果推理,可识别并遵循真实世界的物理规则,例如指导机器人折叠T恤时,会生成“左手抓左下衣角→右手抓右下衣角→同步向上折叠”的符合力学的步骤,避免出现“抓空”“穿模”等物理错误。

3. 20倍提速的高效推理能力

针对自回归模型“图像生成慢”的行业痛点,Emu3.5创新提出**离散扩散适配(DiDA)**技术,将传统的“逐Token串行解码”转化为“双向并行预测”,在不损失生成质量的前提下,将单张图像的推理速度提升约20倍,达到闭源扩散模型的实用级效率。实测数据显示,传统自回归模型生成一张512×512的图像需51秒,而Emu3.5通过DiDA加速后仅需2.2秒,可满足机器人实时操控、在线内容生成等低延迟场景需求。

4. 泛化性强的具身智能指导

Emu3.5突破了多模态模型“仅能生成虚拟内容”的局限,可直接为真实机器人提供视觉-语言操控指导,解决了传统模型“步骤断片”“物理错误”“延迟过高”的三大痛点。在实测中,其指导家用Songling Aloha机器人折叠T恤的7步全对率从30%提升至60%,指导工业Agibot双臂机器人完成12步餐桌清理任务的成功率达82%(传统模型仅40%),且指导延迟从50秒压缩至2秒,实现了机器人操控的实时性与准确性统一。

5. 高精度的任意到图像(X2I)生成

在图像生成与编辑领域,Emu3.5支持多类X2I任务,且细节还原度与指令对齐度表现优异:一是精准内容编辑,可实现“添加物体”“替换背景”“修复老照片”等操作,如将鼓楼夜景从仰视视角改为鸟瞰视角时,能自动补全周边建筑与道路,保持场景逻辑一致;二是高保真文本渲染,可生成包含复杂文字的图像,如带“π=3.1415926535”数学公式的黑板、含“欢迎回家”霓虹灯牌的城堡,字符清晰度达印刷级标准;三是跨风格迁移,能根据指令生成迪士尼动画、写实油画、赛博朋克等多样风格的图像,且风格统一无割裂感。

三、Emu3.5技术细节

1. 模型架构与核心参数

Emu3.5采用纯Transformer解码器架构,未引入任何专用模态处理模块,其核心参数相较于前代Emu3实现了全方位升级,具体对比如下表1所示:

参数维度 Emu3(2024版) Emu3.5(2025版) 升级价值
模型参数量 80亿 340亿(312亿Transformer+29亿嵌入层) 支撑长序列时空建模与复杂因果推理
Transformer层数 32层 64层 提升特征抽象能力,适配高分辨率视觉信号
隐藏层维度 4096 5120 扩大特征容量,增强多模态信号融合精度
注意力头配置 32个Q头/8个KV头 64个Q头/8个KV头 提升细粒度注意力分配,优化文本渲染与局部编辑
词汇表规模 18.4万(混合视觉/文本) 28.3万(15.2万文本+13.1万视觉) 分离视觉/文本嵌入,减少模态干扰,提升细节表达
最大上下文长度 131072 Token 32768 Token 结合视频交错打包技术,实现5分钟长视频建模
支持最高分辨率 720×720(图像) 2048×2048(图像)/1080p(视频) 满足高清内容生成与编辑需求

表1:Emu3与Emu3.5核心参数对比表

此外,Emu3.5在架构上新增两项关键优化:一是QK-Norm归一化,解决长序列训练中注意力矩阵不稳定的问题;二是分离式视觉/文本嵌入层,避免不同模态Token的特征干扰,同时从SigLIP模型蒸馏视觉特征,提升Token的语义表达能力。

2. 训练数据与训练流程

(1)训练数据规模与构成

Emu3.5的训练数据总量达13万亿Token,分为两阶段构建,核心数据为“视频-文本交错序列”,具体构成如下:

  • 第一阶段(10万亿Token):以通用多模态数据为主,包含5亿+图像-文本对、3000万+短视频、6300万条“视频帧+ASR转录文本”交错序列,其中视频总时长超790年,覆盖教育、烹饪、工业操控、娱乐等12大领域,且通过PySceneDetect完成智能场景分割,保留核心视觉信息,剔除冗余帧;

  • 第二阶段(3万亿Token):以高质量数据为主,包含2735万条X2I专用数据、高分辨率图像数据及精细标注数据(如语义分割、多模态总结),通过CLIP美学评估与SimHash去重技术,过滤低质与冗余内容,确保数据的有效性。

该数据体系的核心优势是“时空连贯性”,例如“炒菜”视频会按“倒油→热油→下菜→翻炒”的时序提供帧与文本的对应关系,让模型自然学习到真实世界的步骤逻辑与物理规律。

(2)四阶段训练流程

Emu3.5采用“预训练→监督微调(SFT)→强化学习(RL)→DiDA适配”的四阶段训练流程,实现从“基础能力”到“任务适配”再到“高效推理”的能力跃迁:

  1. 大规模预训练:在13万亿Token数据上执行“下一状态预测(NSP)”任务,让模型学习多模态对齐关系与世界基本规律,此阶段不区分具体任务,仅强化通用建模能力;

  2. 两阶段监督微调:先在标准分辨率数据上统一多任务接口,再在高分辨率数据上提升细节生成质量,使模型学会遵循人类指令,实现X2I、视觉叙事等任务的精准对齐;

  3. 多模态强化学习:基于“美学质量+指令对齐+物理一致性”的多维奖励系统,采用GRPO算法优化模型,使其生成内容更符合人类偏好,且规避物理错误;

  4. DiDA推理适配:在130亿Token的微调数据上完成DiDA技术适配,将自回归串行生成转化为并行生成,实现推理效率的大幅提升。

3. 核心技术原理

(1)下一状态预测(NSP)

NSP是Emu3.5区别于传统“下一个Token预测(NTP)”的核心创新。传统NTP仅预测序列中的单个Token,而NSP以“完整状态”为预测单元,例如对于“视频帧A→文本描述A→视频帧B”的序列,NSP会直接预测“视频帧B+对应文本描述B”的完整状态,而非逐Token生成。这一目标迫使模型必须学习帧间的时空关联、物体的运动规律及事件的因果逻辑,从而具备世界建模能力。

(2)离散扩散适配(DiDA)

DiDA是解决自回归模型推理低效的关键技术,其核心逻辑是“将串行Token生成转化为并行状态优化”:首先为视觉Token添加可控噪声,再通过双向扩散模型同步优化所有Token的状态,最后通过去噪得到完整的视觉序列。该技术不改变模型的预训练能力,仅在推理阶段做适配,实现了“速度提升20倍”与“质量无损失”的平衡,让自回归模型首次具备媲美闭源扩散模型的实用效率。

4. 模型权重类型

Emu3.5开源了三类模型权重,适配不同任务场景,具体如下表2所示:

权重名称 核心定位 适用场景 关键优势
Emu3.5 通用多模态预测 交错视觉-文本生成、X2I、视觉叙事 兼顾多任务能力,支持复杂多模态交互
Emu3.5-Image 专用图像生成 文本到图像(T2I)、图像编辑、高分辨率生成 优化图像细节与风格一致性,文本渲染精度高
Emu3.5-VisionTokenizer 视觉Token化工具 多模态数据预处理、第三方模型适配 压缩效率高,1024×1024图像仅需1024个Token

表2:Emu3.5模型权重类型与适配场景表

Emu3.5:北京智源开源的原生多模态世界模型

四、Emu3.5典型应用场景

Emu3.5的能力覆盖“虚拟内容创作”“真实世界交互”“学术研究”三大领域,以下为典型应用场景及案例:

1. 高质量内容创作与编辑

在内容创作领域,Emu3.5可满足自媒体、设计师、文创从业者的多样化需求:

  • 商业海报生成:输入“为咖啡新品设计海报,背景为秋日落叶,包含‘秋日限定’艺术字,风格为日系治愈风”,可直接生成符合品牌调性的高清海报,且文字与图像融合自然;

  • 老照片修复与重绘:上传泛黄的黑白家庭老照片,指令“还原色彩并添加复古相框,背景替换为老上海街景”,模型可精准还原人物面部细节,且新背景与人物的光影、年代感保持一致;

  • 多模态教程制作:为烹饪博主生成“虾仁芹菜饺子”的图文教程,不仅输出步骤文字,还能生成每一步的实景图,且步骤逻辑与物理操作完全匹配,可直接用于视频剪辑素材。

2. 长时程视觉叙事与知识科普

Emu3.5的时空连贯能力使其成为知识科普与故事创作的高效工具:

  • 教育类视觉叙事:为中小学物理课生成“杠杆原理实验”的动态视觉序列,从“搭建支架→悬挂砝码→观察平衡”逐步展示,且每一步都标注物理公式与原理,实现“可视化教学”;

  • 虚构故事创作:输入“写一个‘小狐狸与女孩的厨房冒险’故事,并生成对应插画”,模型可输出连贯的文字故事,同时生成多幅风格统一的插画,且插画的场景、人物服饰与故事剧情完全匹配。

3. 机器人具身智能操控指导

Emu3.5的物理因果能力可直接赋能工业与家用机器人,解决传统操控模型的痛点:

  • 家用机器人任务:指导Songling Aloha机器人完成“折叠T恤”任务,生成“左手抓左下衣角→右手抓右下衣角→同步上折→整理领口”的7步视觉-语言指导,物理错误率从45%降至12%,抓握成功率从50%提升至85%;

  • 工业机器人任务:为Agibot双臂机器人提供“餐桌清理”指导,不仅生成连贯的12步动作序列,还能在机器人漏拿餐巾时自动补全中间步骤,任务完成率从40%提升至82%。

4. 虚拟世界探索与仿真

Emu3.5可构建具备时空一致性的虚拟世界,支持沉浸式探索与未来场景模拟:

  • 虚拟场景漫游:先生成“复古卧室”的初始图像,再通过“向前走→左转→打开抽屉→查看窗外”的指令,逐步生成连贯的视角切换图像,构建可“行走”的虚拟空间;

  • 未来场景预测:输入“预测该卧室100年后的样子”,模型可基于时代演变规律,生成“智能家具替换老式家具、墙面出现科技感装饰、窗外建筑现代化”的合理场景,且保持房间的核心结构不变。

五、Emu3.5使用方法

1. 环境配置要求

Emu3.5对软硬件有明确要求,基础环境配置步骤如下:

(1)硬件要求

  • 显卡:需NVIDIA GPU,显存≥24GB(推荐A100、RTX 3090及以上型号,多卡可提升高分辨率生成效率);

  • 内存:主机内存≥64GB,确保数据加载与模型运行的稳定性;

  • 存储:预留≥200GB空间,用于存放模型权重、数据集及输出结果。

(2)软件环境配置

Emu3.5要求Python 3.12及以上版本,具体依赖安装步骤如下:

# 1. 克隆开源仓库
git clone https://github.com/baaivision/Emu3.5
cd Emu3.5

# 2. 安装基础依赖
pip install -r requirements/transformers.txt

# 3. 安装flash_attn加速库(必装,提升注意力计算效率)
pip install flash_attn==2.8.3 --no-build-isolation

# 4. 可选:安装vLLM依赖(用于离线高效推理)
pip install -r requirements/vllm.txt

2. 模型权重获取

Emu3.5的模型权重托管于Hugging Face平台,用户可通过两种方式获取:

  1. 直接下载:访问Emu3.5 Hugging Face仓库,根据需求下载对应权重(如Emu3.5-Image适用于图像生成);

  2. 代码自动加载:在推理脚本中配置Hugging Face仓库地址,运行时自动下载权重,示例代码片段如下:

from src.modeling_emu import EmuForCausalLM
from src.tokenization_emu import EmuTokenizer

# 加载tokenizer与模型
tokenizer = EmuTokenizer.from_pretrained("baaivision/Emu3.5")
model = EmuForCausalLM.from_pretrained("baaivision/Emu3.5", device_map="auto")

3. 基础推理流程

Emu3.5支持多种任务的推理,以“文本到图像(T2I)”为例,具体步骤如下:

(1)配置推理参数

编辑仓库内configs/config.py文件,核心参数设置如下:

# 任务类型:t2i为文本到图像,x2i为任意到图像,interleave为交错生成
task_type = "t2i"
# 模型权重路径(本地路径或Hugging Face仓库名)
model_path = "baaivision/Emu3.5-Image"
# 生成图像分辨率
image_size = (1024, 1024)
# 采样步数(DiDA加速下可设为4步,平衡速度与质量)
sample_steps = 4

(2)运行推理脚本

执行以下命令启动推理,生成对应图像:

python inference.py --cfg configs/config.py

(3)自定义指令输入

在推理过程中,可通过命令行或脚本传入自定义指令,例如输入“迪士尼风格的橙色狐狸与辫子女孩在厨房做蛋糕”,模型将自动生成符合要求的图像。

4. 交互式演示工具

Emu3.5提供Gradio交互式演示工具,支持可视化操作,具体启动命令如下:

(1)图像生成专用演示

# 支持T2I/X2I,需双卡GPU(单卡可调整参数)
CUDA_VISIBLE_DEVICES=0,1 python gradio_demo_image.py --host 0.0.0.0 --port 7860

(2)交错生成演示(支持视觉叙事/世界探索)

CUDA_VISIBLE_DEVICES=0,1 python gradio_demo_interleave.py --host 0.0.0.0 --port 7860

启动后,用户可在浏览器访问http://localhost:7860,通过可视化界面输入指令、上传图像,实时查看生成结果。

Emu3.5:北京智源开源的原生多模态世界模型

六、常见问题解答(FAQ)

Q1:安装flash_attn时出现编译错误,如何解决?

A1:flash_attn依赖CUDA环境,需确保本地CUDA版本≥11.7,且PyTorch版本与CUDA版本匹配;若编译失败,可尝试安装预编译版本:pip install flash-attn --no-build-isolation --find-links https://flash-attn.s3.amazonaws.com/wheels.html

Q2:运行时提示“显存不足”,如何优化?

A2:可通过以下方式降低显存占用:① 降低生成图像分辨率(如从1024×1024改为512×512);② 启用模型量化(加载权重时添加load_in_4bit=True参数);③ 采用vLLM推理框架(可大幅降低显存占用,且提升推理速度)。

Q3:为何我的推理速度未达到官方宣称的20倍提升?

A3:DiDA加速需加载专用适配权重,且需启用vLLM推理框架;若使用基础自回归推理,无法实现加速。可切换至inference_vllm.py脚本,并确保权重包含DiDA适配模块。

Q4:生成的图像存在文字模糊、人脸失真问题,如何优化?

A4:可启用模型的“扩散解码器”选项(在config中设置use_diffusion_decoder=True),该解码器通过LoRA蒸馏技术优化细节,能显著提升文本渲染与面部生成质量,但会增加少量推理耗时。

Q5:Hugging Face下载权重速度慢,有无替代方案?

A5:可通过国内镜像源(如ModelScope)获取权重,访问Emu3.5 ModelScope仓库即可下载,且支持与Hugging Face相同的加载方式。

Q6:能否使用自定义数据集对Emu3.5进行微调?

A6:支持自定义微调,需将数据集转化为“视觉-文本交错Token序列”格式,并参考仓库内finetune.py脚本完成微调;建议先使用小批量数据测试,且微调时需保留NSP训练目标,以维持模型的世界建模能力。

Q7:如何将Emu3.5用于机器人操控任务?

A7:需先将机器人的操控数据转化为“动作帧+文本指令”的交错序列,对模型进行任务专用微调,再通过实时推理接口将模型生成的视觉-语言步骤传输至机器人控制系统;仓库内提供了机器人任务的微调示例脚本(finetune_embodied.py),可直接参考适配。

七、相关链接

  1. 开源仓库https://github.com/baaivision/Emu3.5

  2. 模型权重(Hugging Face)https://huggingface.co/baaivision/Emu3.5

  3. 官方项目主页https://emu.world/pages/web/landingPage

  4. 技术论文https://arxiv.org/pdf/2510.26583

  5. 国内镜像仓库(ModelScope)https://modelscope.cn/models/baaivision/Emu3.5/summary

八、总结

Emu3.5是一款由北京智源研究院研发的开源原生多模态世界模型,其以340亿参数的纯Transformer架构为基础,通过“下一状态预测”的统一训练目标和超13万亿多模态Token的端到端训练,实现了图像、文本、视频的原生统一建模,同时依托DiDA技术解决了自回归模型推理低效的行业痛点。该模型不仅具备高质量的图像生成与编辑能力,还能通过学习物理世界的时空因果规律,为机器人具身操控、虚拟世界探索等真实交互场景提供连贯指导,其开源的代码与权重为多模态AI的研究与落地提供了高效且通用的工具,既填补了“世界模型”类开源工具的空白,又为多模态Scaling范式的验证提供了重要实践载体,在内容创作、工业智能、教育科普等领域具备极高的实用价值与研究意义。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐