TeleChat3:中国电信开源的国产算力大语言模型(LLM)项目
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Qwen-Image-Layered是阿里巴巴通义千问团队(QwenLM)开源的一款专注于图像分层与精准编辑的AI模型,是当前业内首个实现“原生图层解耦”的开源扩散模型,核心定位是让AI具...
Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型(Large Audio Language Model)。该模型创新性引入双分辨率语音表示架构...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
SenseNova-SI 是由 商汤科技开源的多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集,基于 Qwen3-VL、InternVL3 等主流基础模...
LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型(dLLMs),涵盖 16B 参数的基础版本与 100B 参数的混合专家(MoE)版本,是目前参数规模最大的扩散语言模型之一。该...
DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型,其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用,不仅超越Grok 4、Claude Sonn...
DeepSeek-Math-V2 是由深度求索(deepseek-ai)团队基于 DeepSeek-V3.2-Exp-Base 模型打造的开源数学推理大模型,核心聚焦于可自我验证的数学推理能力构建。该模型创新性地...
Emu3.5是由北京人工智能研究院开源的大规模原生多模态世界模型,其基于单一340亿参数Transformer架构,以“下一状态预测(NSP)”为核心训练目标,在超13万亿多模态Token上...