Stable Diffusion：全能开源AI绘图模型，覆盖图像生成、编辑与风格创作

AI新闻 dotaai 1个月前

106

一、Stable Diffusion是什么

Stable Diffusion 是由慕尼黑大学计算机视觉与学习实验室（CompVis）联合 Stability AI、Runway ML 共同开发的开源潜在扩散模型（Latent Diffusion Model, LDM），主打文本生成图像、图像编辑等多模态视觉创作能力。项目代码托管于 GitHub，是全球最早一批实现轻量化、可本地部署的开源文生图大模型，彻底降低了 AI 绘画的使用门槛。

该项目基于论文 High-Resolution Image Synthesis with Latent Diffusion Models 落地开发，依托海量公开图文数据集训练，摒弃了传统扩散模型算力消耗过高的弊端，将图像运算迁移至隐空间完成。自开源以来，衍生出海量插件、UI 客户端、二次开发项目，如今已成为 AI 绘画领域的底层标杆框架，广泛应用于个人创作、设计行业、内容生产等多个领域。

Stable Diffusion 本质是基于隐空间的扩散生成模型，核心逻辑分为扩散过程与逆扩散过程两大环节：

正向扩散：向原始图像不断添加高斯噪声，逐步抹去图像细节，最终将图像转化为纯噪声数据。
逆向扩散：以文本提示词（Prompt）、参考图像等作为条件约束，逐步去除噪声，还原出符合语义描述的全新图像。

区别于早期像素级扩散模型，Stable Diffusion 先通过编码器将高清图像压缩至低维隐空间，所有加噪、去噪运算都在隐空间内执行，运算量大幅减少。普通消费级独立显卡即可流畅运行，也是它能够快速普及的核心原因。

该项目包含完整的训练代码、推理代码、预训练模型权重、示例脚本，支持开发者二次开发、模型微调、功能拓展，同时面向普通用户提供纯可视化使用方案，兼顾技术开发与大众创作两类人群。

二、功能特色

Stable Diffusion 原生集成多项图像生成与编辑能力，同时依托开源生态拓展出丰富附加功能，核心特色如下：

文生图（Text to Image）：输入自然语言描述，自动生成对应风格、构图、内容的原创图像，支持中英文提示词。
图生图（Image to Image）：上传参考图，结合文本指令修改画面风格、元素、构图，保留原图基础轮廓。
图像修复（Inpainting）：框选图像局部区域，重新生成该区域内容，实现瑕疵修复、元素替换、画面补全。
图像超分/降噪：搭配拓展模型可实现图片放大、去除噪点、提升画面清晰度。
自由分辨率生成：原生支持 512×512 标准分辨率，通过参数调整可适配不同尺寸画面。
模型可定制微调：开发者可使用自有数据集训练专属 LoRA、Embedding、大模型权重，打造垂直领域专属绘图模型。
跨平台运行：支持 Linux、Windows、macOS 系统，同时适配云端服务器、本地 GPU、低配显卡（启用显存优化）。
开放接口调用：提供 Python 代码接口，可嵌入网站、软件、小程序，实现 AI 绘画能力集成。

三、技术细节

3.1 整体架构

Stable Diffusion 整体由三大核心模块串联组成，模块间协同完成图文转图像任务，架构清晰且模块化程度高：

CLIP 文本编码器
采用 CLIP ViT-L/14 模型，作用是将用户输入的自然语言提示词，转化为模型可识别的文本语义向量，建立文字与视觉特征的映射关系。该模块不参与图像生成，仅负责语义解析。
VAE 变分自编码器
分为编码器（Encoder）和解码器（Decoder）。编码器把像素空间的图像压缩为低维隐向量，降低计算维度；解码器则将隐空间生成的向量还原为可视像素图像，是隐空间与图像空间的转换枢纽。
UNet 去噪网络
整个模型的核心生成模块，参数体量最大。接收文本向量、隐空间噪声图像，通过多层网络迭代完成逆向去噪，一步步生成符合文本描述的隐空间图像。

3.2 核心参数与硬件要求

硬件配置参考表

运行场景	最低显存	推荐显存	系统环境	补充说明
基础推理（512×512）	4GB（启用显存优化）	8GB+	Windows/Linux	仅文生图、图生图基础功能
正常全功能使用	8GB	10GB~12GB	Windows/Linux	支持 Inpainting、多插件
模型训练/微调	12GB	16GB+	Linux 优先	训练 LoRA、全模型微调

3.3 核心技术原理要点

隐空间计算
传统扩散模型直接在像素空间运算，一张 512×512 图像包含海量像素数据，算力开销极大。Stable Diffusion 通过 VAE 将图像压缩至 1/8 尺寸的隐向量，计算量直接下降两个数量级，这是模型能够本地运行的核心技术突破。
扩散迭代步数
默认迭代步数为 20~50 步，步数越高画面细节越丰富，但生成耗时越长；步数过低会出现画面模糊、元素错乱等问题，用户可根据需求灵活调整。
引导强度（CFG Scale）
控制文本提示词对图像的约束力度，数值越高，图像越贴合文字描述；数值过低，模型会自由发挥，画面和提示词偏差较大，常规使用取值 7~12。

3.4 代码结构简述

项目仓库代码采用 Python 编写，依赖 PyTorch、Transformers、Diffusers 等主流 AI 库，核心目录分工明确：

stable-diffusion/
├── configs/    # 模型配置文件、参数配置
├── models/     # UNet、VAE、CLIP 等核心网络代码
├── scripts/    # 推理、训练、图生图、修复等执行脚本
├── utils/     # 工具函数、数据处理、显存优化工具
└── main.py     # 项目主入口文件

Stable Diffusion（图1）

四、应用场景

Stable Diffusion 凭借开源、灵活、低成本的特性，覆盖个人创作、商业设计、工业生产、内容文娱等全场景，主流应用分类如下：

艺术与插画创作
插画师、原画师用于快速出草图、绘制概念图、动漫插画、二次元人设，大幅提升创作效率，也可用于艺术风格试验。
商业平面设计
海报、电商主图、宣传物料、LOGO 辅助图形、包装设计，快速产出多版设计方案，降低设计成本。
游戏与影视行业
游戏场景原画、角色设定、影视分镜、概念场景绘制，辅助美术团队完成前期创意工作。
自媒体与内容创作
短视频封面、公众号配图、图文素材、表情包制作，批量生成配图，满足自媒体高频出图需求。
工业与建筑设计
建筑效果图、室内设计方案、工业产品概念渲染，快速可视化设计思路。
教育与科研
AI 算法学习、扩散模型原理教学、计算机视觉相关课题研究，开源代码是优质学习案例。
二次开发与产品集成
开发者将模型封装为在线绘图网站、桌面软件、小程序、APP，对外提供 AI 绘画服务。

五、使用方法

Stable Diffusion 分为原生代码运行和可视化客户端运行两种主流使用方式，前者面向开发者，后者面向普通用户。

5.1 前置环境准备

基础依赖：Python 3.8~3.10、PyTorch、CUDA（NVIDIA 显卡）
必备文件：项目源码、官方预训练权重文件（.ckpt/.safetensors 格式）

5.2 方式一：原生命令行运行（开发者）

克隆官方代码仓库

git clone https://github.com/CompVis/stable-diffusion.git
cd stable-diffusion

安装项目依赖

pip install -r requirements.txt

放置预训练模型权重至指定目录，执行文生图脚本

python scripts/txt2img.py --prompt "a beautiful landscape"

执行后，生成的图像会自动保存至项目输出文件夹。

5.3 方式二：可视化客户端运行（普通用户，主流方案）

原生命令行操作复杂，市面上基于该项目衍生了多款可视化 UI，以 AUTOMATIC1111 Stable Diffusion WebUI 为例，通用步骤：

下载 WebUI 客户端与模型权重；
双击启动程序，自动加载环境与模型；
在文本框输入正向提示词（画面内容、风格）和反向提示词（规避瑕疵、不良元素）；
设置分辨率、迭代步数、CFG 强度等参数；
点击生成按钮，等待数秒即可获取图像，同时支持图生图、局部修复等功能切换。

六、竞品对比

选取当下主流三款文生图模型进行综合对比，分别为 Stable Diffusion、Midjourney、DALL·E 3，从开源性、部署方式、画质、使用成本、定制能力多维度分析。

对比维度	Stable Diffusion	Midjourney	DALL·E 3
开源属性	完全开源，代码、权重公开	闭源，无公开代码与权重	闭源，仅开放 API 调用
部署方式	本地部署、服务器部署、云端部署	仅在线使用（Discord/官网）	在线调用、API 对接
硬件要求	可在消费级显卡本地运行	无需本地显卡，纯云端运算	无需本地显卡
使用成本	一次性部署，免费使用（本地）	按月订阅付费	按调用次数计费/整合进订阅服务
自定义能力	极强，支持模型微调、LoRA、插件拓展、二次开发	弱，仅支持提示词调整，无法自定义模型	较弱，仅支持基础参数与提示词
画面风格	风格多样，依赖模型与插件，写实、二次元、艺术风全覆盖	艺术质感强，氛围感、光影表现顶尖	语义理解精准，贴合文字描述，写实风优秀
适用人群	开发者、设计师、深度创作用户、团队部署	普通创作者、艺术爱好者	普通用户、办公配图、轻量创作

七、常见问题解答

Q：Stable Diffusion 运行时报显存不足该如何解决？

A：可以开启显存优化模式，包括启用 xformers 加速、低显存模式、CPU 内存分流等配置；同时适当降低生成图像分辨率与迭代步数，低配显卡也能正常运行基础功能。

Q：生成的图像和输入的提示词差距很大是什么原因？

A：主要分为三点原因，一是 CFG 引导强度数值过低，文本约束能力不足；二是提示词描述过于模糊、语义混乱，模型无法精准理解；三是所用模型权重偏向特定风格，和描述内容不匹配，可更换权重或优化提示词。

Q：Stable Diffusion 可以商用吗？

A：官方权重遵循 CreativeML OpenRAIL M 协议，在遵守协议规范、做好内容安全管控的前提下，支持个人及企业商业使用；二次训练的衍生模型，需同步遵循对应开源协议。

Q：新手入门推荐使用原生代码还是可视化客户端？

A：纯创作、无代码基础的新手优先选择 AUTOMATIC1111 等可视化 WebUI；如果想要学习模型原理、二次开发、训练模型，则建议从原生代码入手学习。

Q：模型权重文件 .ckpt 和 .safetensors 有什么区别？

A：两者都是模型权重格式，.ckpt 为传统格式，存在安全风险；.safetensors 是安全格式，杜绝恶意代码嵌入，目前主流社区都推荐使用 .safetensors 格式权重。

Q：为什么相同提示词，每次生成的图片都不一样？

A：扩散模型生成过程带有随机噪声因子，在未固定随机种子（Seed）的情况下，每次初始噪声不同，最终图像也会存在差异；固定种子后，相同参数可复现一模一样的图像。

八、相关链接

GitHub仓库地址：https://github.com/CompVis/stable-diffusion
论文原址（Latent Diffusion Models）：https://arxiv.org/abs/2112.10752

九、总结

Stable Diffusion 作为开源潜在扩散模型的标杆项目，凭借隐空间运算的核心技术突破，打破了高端 AI 绘画模型依赖超高算力、闭源收费的行业现状，让普通用户和中小型团队都能低成本拥有专业级图像生成能力。项目代码结构模块化、拓展性极强，不仅本身是优秀的文生图工具，更催生出庞大的上下游生态，涵盖可视化客户端、专属模型、插件、微调工具等各类衍生产品。它兼顾了普通创作者的使用需求与技术人员的开发需求，应用场景覆盖艺术设计、内容生产、行业赋能、技术学习等多个领域，时至今日依旧是 AI 视觉生成领域最核心、使用最广泛的底层框架之一。