Z-Image Turbo Controlnet Union:阿里开源多条件控制 ControlNet 模型,低显存高效支持精准图像生成与编辑
Z-Image Turbo Controlnet Union是阿里通义实验室开源的ControlNet扩展模型,基于Z-Image系列单流扩散架构,6B参数实现 photorealistic 渲染,支持Canny、HED、姿态等多模态...
Z-Image Turbo Controlnet Union是阿里通义实验室开源的ControlNet扩展模型,基于Z-Image系列单流扩散架构,6B参数实现 photorealistic 渲染,支持Canny、HED、姿态等多模态...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
Z-Image是阿里巴巴通义实验室开源的轻量级图像生成基础模型,以6B参数实现接近20B级商业模型的视觉质量,包含Turbo(高效推理)、Base(基础微调)、Edit(图像编辑)三个变...
Depth Anything 3是字节跳动Seed团队开源的3D视觉基础模型,旨在从任意数量、任意视角的视觉输入中恢复空间一致的三维几何结构。该模型采用“单Transformer主干+Depth-Ray统...
HunyuanOCR是腾讯混元开源的端到端OCR专家模型,基于混元原生多模态架构构建,仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...
Ruyi是Ruyi-Models项目的核心图像到视频(Image-to-Video, i2v)生成模型,由CreateAI团队开发并开源,旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...
MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型(Vision-Language Model, VLM),于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...
VibeThinker-1.5B是一款仅1.5B参数的开源小参数量密集型模型,核心突破在于通过“频谱到信号原理”和两阶段多样性探索蒸馏+强化学习优化,打破了“小模型缺乏强推理能力”的...
Bee是由清华大学与腾讯混元团队联合研发的全开源多模态大语言模型(MLLMs)全栈解决方案,项目通过三大核心产出——1500万条双级思维链(CoT)增强的高质量SFT数据集Honey-...
UniWorld-V2 是一款开源的AI图像编辑模型,专注于提升扩散模型的复杂编辑能力。该项目通过创新的 DiffusionNFT 技术和基于预训练多模态大模型(MLLMs)的无训练奖励模型,实...
Ouro 是多机构联合研发的开源循环语言模型系列,核心创新在于将“推理能力”融入预训练阶段,而非依赖传统大语言模型(LLM)的 post-training 显式文本生成。该系列包含 Ou...
LongCat-Flash-Omni是美团LongCat团队开发的开源全模态大模型,总参数规模达5600亿,基于LongCat-Flash的shortcut-connected混合专家(MoE)架构打造。该模型融合文本、音频...
Kimi Linear是由Moonshot AI开源的混合线性注意力架构,核心基于Kimi Delta Attention(KDA)机制,通过优化门控机制和混合架构设计,在长上下文任务中实现了内存效率与性能...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
LiveCC 是一款开源实时视频解说大语言模型(Video LLM),旨在通过融合视频视觉信息与流式语音转录(ASR)文本,实现对视频内容的实时理解与动态解说。该项目提供从数据生产...