Anima:CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

原创 发布日期:
60

一、Anima是什么

Anima是一款面向动漫与非写实艺术创作的20亿参数开源文本到图像(Text-to-Image)模型,由CircleStone Labs与Comfy Org联合研发,基于NVIDIA Cosmos架构构建,托管于Hugging Face平台,原生支持ComfyUI工作流平台。该模型的核心定位是专注动漫概念、角色、风格的生成与创作,同时可拓展至各类非写实艺术插画制作,从设计初衷上便放弃了写实风格的优化,因此不适合生成照片级逼真图像,是一款为二次元艺术、插画创作量身打造的AI工具。

目前Anima发布的为预览版(intermediate model checkpoint),属于模型训练过程中的中间检查点版本,仍在持续训练优化中,后续最终版本将重点提升图像的精细细节表现与整体美学效果。该模型无合成数据训练背景,训练数据由数百万张动漫图像+约80万张非动漫艺术图像构成,且动漫训练数据的知识截止日期为2025年9月,能够覆盖最新的动漫角色、风格与创作概念,保证了生成内容的时效性与潮流性。同时,Anima作为Cosmos-Predict2-2B-Text2Image的衍生模型,还需遵循NVIDIA开放模型许可证相关约束,现阶段仅开放非商业使用权限。

二、功能特色

Anima凭借精准的定位、独特的训练体系与灵活的使用方式,在众多文生图模型中形成了差异化的功能特色,核心亮点集中在风格专注度、数据纯净度、使用灵活性、平台适配性等多个方面,具体如下:

(一)深耕动漫风格,非写实创作能力突出

Anima的核心研发目标是打造专业的动漫艺术生成工具,模型从训练数据筛选、参数优化到提示词体系设计,均围绕动漫风格展开,能够精准还原日式赛璐珞、二次元萌系、动漫插画等多种经典动漫风格,对动漫角色的五官、肢体、服饰、场景的刻画贴合二次元创作审美。同时,模型并非局限于单一动漫风格,还能结合非写实艺术特点,生成抽象画、数字绘画、油画风格插画等多种内容,满足多元化的艺术创作需求。

(二)纯真实数据训练,内容风格原汁原味

模型训练全程未使用任何AI生成的合成数据,所有训练素材均为真实的动漫图像与艺术插画,从源头保证了生成内容的风格纯粹性,避免了合成数据带来的风格同质化、细节失真等问题。数百万张动漫图像的训练基础,让模型能够精准捕捉不同动漫风格的创作特点,生成的内容更贴合人工创作的审美与细节表现。

(三)双提示词体系,标签与自然语言灵活兼容

Anima支持Danbooru风格标签自然语言描述两种提示词模式,同时也支持两种模式的混合使用,适配不同用户的使用习惯。专业的动漫创作者可使用Danbooru标签实现精准的细节控制,普通用户则可通过自然语言描述快速表达创作需求,模型对两种模式的理解能力均经过针对性训练,有效降低了使用门槛,提升了创作效率。

(四)融合多源艺术数据集,风格多样性拉满

为避免动漫风格的单一化,模型在核心动漫数据之外,额外融入了经过严格过滤的LAION-POP(ye-pop版本)与DeviantArt两大非动漫艺术数据集,且两个数据集均已剔除所有照片类素材,仅保留艺术创作内容。这一设计让模型不仅能生成经典动漫内容,还能吸收插画、数字绘画、抽象艺术等多种艺术形式的创作特点,实现不同艺术风格的融合生成,大幅提升了内容创作的多样性。

(五)原生适配ComfyUI,工作流灵活可定制

Anima是专为ComfyUI平台研发的文生图模型,与ComfyUI实现原生深度适配,无需额外的插件或适配工具即可直接使用。ComfyUI作为基于节点的图像生成界面,支持用户通过拖拽节点的方式搭建自定义工作流,Anima在该平台上可实现生成参数的精细化调整、多模型对比生成、风格混合等多种高级操作,满足专业创作者的定制化需求。

(六)轻量级参数,兼顾性能与生成质量

Anima的参数量为20亿,属于轻量级文生图模型,相较于动辄数十亿、上百亿参数的大型模型,其对硬件设备的要求更低,在普通的GPU设备上即可实现流畅的推理生成,同时研发团队通过精准的参数优化,在轻量级参数基础上保证了生成内容的质量,实现了性能与质量的平衡,让更多普通用户能够轻松上手使用。

(七)配套模型对比工具,便捷实现效果选型

官方为Anima提供了专属的ComfyUI工作流文件anima_comparison.json,该工具可生成图像网格,实现Anima与其他文生图模型的输出效果对比,默认支持Anima、NetaYume、Newbie-Image的对比,还可配置拓展至SDXL、Lumina、Chroma等多款主流模型,方便用户根据创作需求选择合适的模型,也为模型研发与优化提供了直观的参考依据。

Anima:CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

三、技术细节

Anima的技术架构围绕动漫与非写实艺术生成展开,从模型基础架构、训练体系到生成参数设计,均经过针对性的优化,核心技术细节涵盖模型架构、训练数据、文本编码、生成参数体系等多个方面,其中关键参数体系整理如下表:

Anima核心生成参数配置表

参数类型 推荐配置 适用场景与说明
分辨率 1MP左右(1024x1024/896x1152/1152x896) 预览版模型的最优分辨率区间,过高分辨率会导致细节失真
生成步数 30-50步 步数过低图像细节不足,步数过高会增加生成时间,无明显质量提升
CFG值 4-5 控制提示词的遵循度,该区间能平衡生成灵活性与提示词还原度

(一)模型基础架构

Anima基于NVIDIA Cosmos架构构建,是Cosmos-Predict2-2B-Text2Image的衍生模型,核心参数量为20亿,属于轻量级文生图模型。模型的技术架构由三大核心模块构成,分别为扩散模型主体、文本编码器与VAE(变分自编码器),其中文本编码器采用Qwen3 (0.6B)模型,具备卓越的提示词理解能力,能够精准捕捉标签与自然语言中的创作细节;VAE模块采用Qwen-Image VAE,负责图像的编码与解码,保证生成图像的清晰度与细节表现。

(二)训练数据体系

  1. 核心数据:数百万张动漫图像,覆盖不同风格、年代、题材的动漫内容,知识截止日期为2025年9月,保证了模型对最新动漫风格的捕捉能力;

  2. 补充数据:约80万张非动漫艺术图像,涵盖插画、数字绘画、油画等多种艺术形式;

  3. 拓展数据:LAION-POP(ye-pop版本)、DeviantArt数据集,均经过过滤剔除照片类素材,仅保留艺术创作内容,用于提升模型的风格多样性;

  4. 数据特点:全程无合成数据参与,所有训练素材均为真实图像,保证了风格的纯粹性与真实性。

(三)提示词技术体系

Anima的提示词体系是其核心技术特色之一,模型针对Danbooru标签与自然语言分别进行了针对性训练,同时设计了科学的标签使用规则,实现了创作需求的精准传递。其中Danbooru标签采用分层式结构,具体顺序为:[质量/元/年份/安全标签]→[人物数量标签]→[角色]→[作品系列]→[艺术家]→[通用标签],同层级内标签顺序可自由调整,模型能精准识别不同层级标签的核心含义,实现细节化的创作控制。

同时,模型采用随机标签丢弃训练机制,无需用户罗列所有相关标签,仅需输入核心标签即可生成符合需求的内容,有效降低了标签使用的复杂度。针对非动漫艺术风格生成,模型还设计了数据集标签机制,通过在提示词开头添加专属数据集标签(ye-pop/deviantart),可精准调用对应数据集的艺术风格,实现风格的快速切换。

(四)采样器体系

模型支持多款主流扩散模型采样器,官方针对动漫与非写实艺术创作特点,筛选出三款适配性最优的采样器,并进行了针对性优化,不同采样器的风格特点与适用场景各有差异,具体如下:

  1. er_sde:中性风格,平色表现,线条锐利,是官方推荐的默认采样器,适配绝大多数动漫与插画创作场景,生成效果稳定;

  2. euler_a:线条更柔和、纤细,易生成2.5D效果,CFG值可适当提高(高于其他采样器),且不会出现图像过曝(burning)问题,适配萌系动漫、唯美插画等创作场景;

  3. dpmpp_2m_sde_gpu:风格与er_sde相近,但其生成的内容多样性与创意性更强,能够产生更多意想不到的创作效果,缺点是部分提示词下会出现风格过于夸张的问题,适配创意性艺术创作场景。

四、应用场景

Anima凭借专业的动漫风格生成能力、灵活的使用方式与多样化的艺术表现,可应用于个人创作、专业设计、创意探索、教学研究等多个场景,覆盖不同用户群体的需求,具体应用场景如下:

(一)二次元个人艺术创作

对于动漫爱好者、二次元创作者而言,Anima是高效的艺术创作辅助工具。用户可通过简单的提示词,快速生成动漫角色、同人插画、动漫场景等内容,无需具备专业的绘画功底,即可实现自己的二次元创作想法。同时,模型支持细节化的标签控制,能够精准还原用户对角色外貌、服饰、场景的要求,满足个性化的创作需求。

(二)专业动漫与插画设计

对于动漫设计师、插画师、游戏原画师等专业创作者,Anima可作为创意灵感工具与快速原型制作工具。在创作初期,设计师可通过模型快速生成多种创意方案,获取创作灵感;在原型制作阶段,可利用模型快速生成角色、场景的初稿,大幅提升设计效率,节省手工绘制的时间,让设计师将更多精力放在细节优化与创意打磨上。

(三)文创产品设计

Anima的非写实艺术生成能力可应用于文创产品设计领域,如文创周边、海报、明信片、笔记本封面等设计。设计师可通过模型生成动漫风格、抽象艺术风格的设计素材,结合文创产品的特点进行二次优化,打造具有独特艺术风格的文创产品,满足文创市场对个性化、多元化设计的需求。

(四)AI艺术教学与研究

对于高校艺术专业、人工智能专业的师生,Anima可作为AI艺术教学与研究的案例工具。在教学中,可通过模型讲解文生图模型的工作原理、提示词设计技巧、动漫风格的数字化生成方法;在研究中,可基于模型的开源架构,探索轻量级文生图模型的优化方向、动漫风格的特征提取方法、多数据集融合训练的技术要点等,为AI艺术领域的研究提供实践基础。

(五)多模型对比测试

借助官方提供的anima_comparison.json工作流工具,Anima可应用于文生图模型的对比测试场景。AI研发人员、模型爱好者可通过该工具,对比Anima与其他主流文生图模型在动漫风格、非写实艺术风格上的生成效果,分析不同模型的技术特点、优势与不足,为模型的研发、优化与选型提供参考依据。

Anima:CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

五、使用方法

Anima原生支持ComfyUI平台,使用前需完成ComfyUI的安装、模型文件的部署与生成参数的配置,整体使用流程分为环境准备、模型部署、参数设置、提示词编写、图像生成五个步骤,操作难度适中,普通用户可快速上手,具体使用方法如下:

(一)环境准备

  1. 安装ComfyUI平台:ComfyUI是基于Python的开源图像生成平台,支持Windows、Linux、MacOS系统,用户可从其官方仓库下载安装包,按照官方教程完成安装,推荐安装Python3.8及以上版本,且建议配备8GB及以上显存的GPU,保证模型的推理生成速度;

  2. 安装依赖库:在ComfyUI目录下创建虚拟环境,激活后通过pip install -r requirements.txt命令安装所需依赖库,确保平台能够正常运行。

(二)模型部署

Anima的模型文件包含三个核心文件,需将其分别放置在ComfyUI模型目录的对应文件夹中,具体部署路径如下:

  1. anima-preview.safetensors:放置在ComfyUI/models/diffusion_models目录下,为模型的核心扩散模型文件;

  2. qwen_3_06b_base.safetensors:放置在ComfyUI/models/text_encoders目录下,为模型的文本编码器文件;

  3. qwen_image_vae.safetensors:放置在ComfyUI/models/vae目录下,为模型的VAE文件,该文件为通用文件,若用户此前安装过Qwen-Image VAE,可无需重复部署。

模型文件部署完成后,重启ComfyUI平台,即可在模型选择节点中找到Anima模型。

(三)生成参数设置

在ComfyUI中搭建Anima的生成工作流,依次添加输入节点、模型选择节点、采样器节点、输出节点,并在各节点中完成参数设置,核心参数需遵循官方推荐配置:

  1. 分辨率:设置为1MP左右,如1024x1024、896x1152、1152x896等,避免设置过高分辨率;

  2. 生成步数:设置为30-50步,根据需求微调,若追求更快的生成速度可设为30步,若追求更精细的细节可设为50步;

  3. CFG值:设置为4-5,控制模型对提示词的遵循度;

  4. 采样器选择:根据创作风格选择,默认推荐er_sde,追求2.5D效果选euler_a,追求创意性选dpmpp_2m_sde_gpu。

(四)提示词编写

Anima支持Danbooru标签、自然语言、二者混合三种编写方式,用户可根据自身需求选择,核心编写规则与技巧如下:

  1. Danbooru标签编写:严格遵循分层顺序[质量/元/年份/安全标签]→[人物数量标签]→[角色]→[作品系列]→[艺术家]→[通用标签],艺术家标签需加前缀@,否则效果极弱;如需调用非动漫数据集风格,在标签最开头添加数据集标签(ye-pop/deviantart)并换行,第二行可添加作品标题或图像描述;

  2. 自然语言编写:需保证描述的详细性,至少包含2个完整句子,避免过短的提示词;刻画多角色时,需先命名角色再描述其外貌特征,避免模型混淆;可将质量标签、艺术家标签放在自然语言开头,提升生成效果;

  3. 混合编写:将核心的质量、艺术家、安全标签与自然语言描述结合,既保证提示词的精准性,又降低编写复杂度,如masterpiece, best quality, @big chungus. An anime girl with medium-length blonde hair and big eyes, wearing a pink dress, standing in a cherry blossom forest.

(五)图像生成

完成参数设置与提示词编写后,连接所有节点,点击ComfyUI平台的生成按钮,模型即可开始推理生成图像。生成完成后,可在输出节点中查看图像效果,若对效果不满意,可通过微调提示词、调整生成参数、更换采样器等方式重新生成,直至得到满意的结果。同时,用户可利用ComfyUI的节点功能,对生成的图像进行二次处理,如超分辨率、风格调整、细节优化等。

六、常见问题解答

Anima支持生成写实风格的图像吗?

不支持。Anima的核心定位是动漫与非写实艺术创作,模型从设计到训练均未针对写实风格进行优化,因此生成写实风格图像的效果极差,不建议用于写实内容创作。

Anima的预览版与最终版有什么区别?

Anima的预览版是训练过程中的中间模型检查点,存在一些局限性,如高分辨率生成效果差、图像细节表现不足、未进行美学调优等;最终版将在预览版的基础上继续训练优化,重点提升图像的精细细节、整体美学表现,还会加入专门的高分辨率训练阶段,优化高分辨率图像的生成效果,同时会对模型的提示词理解能力、风格生成能力进行进一步提升。

使用Danbooru标签时,是否需要罗列所有相关标签?

不需要。Anima采用了随机标签丢弃的训练机制,模型在训练过程中已适应部分标签缺失的情况,因此用户仅需输入核心的相关标签即可,无需罗列所有标签,过多的标签反而可能影响模型的生成效果。

艺术家标签前的@可以省略吗?

不建议省略。模型对艺术家标签的训练规则为前缀@识别,若省略@,模型对艺术家风格的还原效果会极弱,无法精准捕捉对应艺术家的创作特点,因此在使用艺术家标签时,必须在艺术家名前添加@。

Anima对硬件设备有什么要求?

Anima为20亿参数的轻量级模型,对硬件的要求低于大型文生图模型,但仍建议配备8GB及以上显存的GPU,以保证模型的推理生成速度;若使用CPU进行生成,速度会非常缓慢,且可能出现内存不足的问题。同时,建议使用Windows10及以上、LinuxUbuntu18.04及以上、MacOS11及以上的系统,保证平台与模型的兼容性。

为什么我的提示词过短,生成的图像效果不符合预期?

Anima对短提示词的理解能力有限,尤其是纯自然语言的短提示词,容易导致模型生成非预期内容。解决方法是丰富提示词的描述,纯自然语言提示词至少包含2个完整句子,清晰描述创作的角色、场景、风格、细节等信息;同时可搭配质量标签、艺术家标签使用,提升生成效果。

Anima支持文字渲染吗?

模型的文字渲染能力较弱,仅能处理单个单词或极短的短语,无法实现长文本的精准渲染,因此不建议在提示词中要求模型生成大量文字内容,若有文字渲染需求,可在图像生成后通过其他图像编辑工具进行添加。

如何实现Anima与其他模型的对比生成?

官方提供了专属的ComfyUI工作流文件anima_comparison.json,用户可将该文件导入ComfyUI,在工作流中选择需要对比的模型(默认支持Anima、NetaYume、Newbie-Image,可配置拓展至SDXL、Lumina等),设置相同的提示词、生成参数与随机种子,即可生成图像网格,实现不同模型的输出效果对比。

LAION-POP与DeviantArt数据集标签如何使用?

数据集标签需加在提示词的最开头,后跟换行,第二行可根据需求添加图像的alt-text(ye-pop)或作品标题(DeviantArt),然后再编写核心的创作标签或自然语言描述。例如使用ye-pop数据集的格式为:ye-pop(换行)For Sale: Others by Arun Prem(换行)抽象油画,三个无脸蓝皮肤人物,极简主义风格。

七、相关链接

  1. Anima模型官方仓库:https://huggingface.co/circlestone-labs/Anima

  2. ComfyUI官方仓库:https://github.com/comfyanonymous/ComfyUI

  3. 模型地址:

八、总结

Anima是由CircleStone Labs与Comfy Org联合开发的20亿参数开源文生图模型,是一款专为动漫与非写实艺术创作打造的AI工具,其基于NVIDIA Cosmos架构构建,原生适配ComfyUI平台,采用数百万张动漫图像+80万张非动漫艺术图像的纯真实数据训练,无合成数据参与,动漫训练数据知识截止至2025年9月,保证了生成内容的时效性与风格纯粹性。该模型支持Danbooru标签与自然语言双提示词体系,搭配科学的标签分层规则与随机标签丢弃机制,既实现了创作需求的精准控制,又降低了使用门槛,同时融合LAION-POP、DeviantArt数据集,让风格生成更具多样性。模型的生成参数经过针对性优化,推荐1MP分辨率、30-50步、CFG4-5的配置,还提供了er_sde、euler_a、dpmpp_2m_sde_gpu三款适配性最优的采样器,满足不同创作风格的需求。官方还为其配备了模型对比工作流工具,方便用户实现多模型效果对比。现阶段Anima为预览版,存在高分辨率生成效果差、文字渲染能力弱、未进行美学调优等局限性,且仅开放非商业使用权限,但其凭借轻量级参数、专业的动漫风格生成能力、灵活的使用方式,已成为二次元爱好者、动漫设计师、AI艺术爱好者的优质创作工具,同时也为AI艺术的教学、研究提供了良好的实践平台。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!