Capybara:开源统一视觉创作模型,一站式支持文生图/文生视频/指令级图像视频编辑
Capybara是由xgen-universe团队开源的统一视觉创作模型框架,基于先进扩散模型与Transformer架构,一站式支持文本生成图像(T2I)、文本生成视频(T2V)、指令驱动图像编辑...
Capybara是由xgen-universe团队开源的统一视觉创作模型框架,基于先进扩散模型与Transformer架构,一站式支持文本生成图像(T2I)、文本生成视频(T2V)、指令驱动图像编辑...
LoRWeB是NVIDIA研究院发布的开源视觉类比学习框架,核心通过可学习的LoRA权重基底与轻量级编码器动态加权组合,实现“示例驱动”的通用图像编辑。给定图像三元组{a,a'...
BAGEL是字节跳动Seed团队开源的一款All-in-One多模态统一基础模型,具备7B活跃参数(总参数14B),采用创新的混合Transformer专家(MoT)架构,基于大规模交错式文本、图像...
Saber-Translator是一款开源的一站式 AI 漫画翻译与编辑工具,支持从图像/PDF导入、文本区域检测、多引擎OCR识别、AI翻译到图像修复和文本渲染的全流程处理。该工具集成了多...
DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型,支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务,能精准保持对象身份、姿...