开源大模型新标杆:DeepSeek-V3.2 凭何实现高效与智能双突破
DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型,其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用,不仅超越Grok 4、Claude Sonn...
DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型,其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用,不仅超越Grok 4、Claude Sonn...
DeepSeek-Math-V2 是由深度求索(deepseek-ai)团队基于 DeepSeek-V3.2-Exp-Base 模型打造的开源数学推理大模型,核心聚焦于可自我验证的数学推理能力构建。该模型创新性地...
Emu3.5是由北京人工智能研究院开源的大规模原生多模态世界模型,其基于单一340亿参数Transformer架构,以“下一状态预测(NSP)”为核心训练目标,在超13万亿多模态Token上...
Z-Image Turbo Controlnet Union是阿里通义实验室开源的ControlNet扩展模型,基于Z-Image系列单流扩散架构,6B参数实现 photorealistic 渲染,支持Canny、HED、姿态等多模态...
MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队(国内知名AI开源团队,曾推出MOSS大模型系列)研发的原生语音到语音(Speech-to-Speech, S2S)开源大模型,旨在打破...
Z-Image是阿里巴巴通义实验室开源的轻量级图像生成基础模型,以6B参数实现接近20B级商业模型的视觉质量,包含Turbo(高效推理)、Base(基础微调)、Edit(图像编辑)三个变...
Depth Anything 3是字节跳动Seed团队开源的3D视觉基础模型,旨在从任意数量、任意视角的视觉输入中恢复空间一致的三维几何结构。该模型采用“单Transformer主干+Depth-Ray统...
HunyuanOCR是腾讯混元开源的端到端OCR专家模型,基于混元原生多模态架构构建,仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...
Ruyi是Ruyi-Models项目的核心图像到视频(Image-to-Video, i2v)生成模型,由CreateAI团队开发并开源,旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...
MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型(Vision-Language Model, VLM),于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...
VibeThinker-1.5B是一款仅1.5B参数的开源小参数量密集型模型,核心突破在于通过“频谱到信号原理”和两阶段多样性探索蒸馏+强化学习优化,打破了“小模型缺乏强推理能力”的...
Bee是由清华大学与腾讯混元团队联合研发的全开源多模态大语言模型(MLLMs)全栈解决方案,项目通过三大核心产出——1500万条双级思维链(CoT)增强的高质量SFT数据集Honey-...
UniWorld-V2 是一款开源的AI图像编辑模型,专注于提升扩散模型的复杂编辑能力。该项目通过创新的 DiffusionNFT 技术和基于预训练多模态大模型(MLLMs)的无训练奖励模型,实...
Ouro 是多机构联合研发的开源循环语言模型系列,核心创新在于将“推理能力”融入预训练阶段,而非依赖传统大语言模型(LLM)的 post-training 显式文本生成。该系列包含 Ou...
LongCat-Flash-Omni是美团LongCat团队开发的开源全模态大模型,总参数规模达5600亿,基于LongCat-Flash的shortcut-connected混合专家(MoE)架构打造。该模型融合文本、音频...