开源大语言模型

openPangu 2.0（开源盘古2.0）是华为发布的全栈自研开源稀疏大语言模型，由华为终端BG、昇腾计算联合盘古大模型团队联合打造，是国内首款完整依托国产昇腾NPU完成全链路预训...

DiffusionGemma是谷歌DeepMind推出的实验性开源文本扩散大模型，基于Gemma 4架构，采用26B混合专家设计，并行生成256个Token，推理速度最高提升4倍，量化后18GB显存即可在R...

Step 3.5 Flash是阶跃星辰（StepFun）发布的面向智能体（Agent）场景的开源基座大语言模型，采用稀疏混合专家（MoE）架构，总参数量196.81B，每token仅激活约11B参数，在保...

AgentCPM-Report是一款聚焦于深度研究报告生成的开源大语言模型代理（LLM Agent），由清华大学自然语言处理实验室（THUNLP）、中国人民大学RUCBM实验室与ModelBest联合研发...

MiniMind 是一个旨在拉低大语言模型（LLM）学习与实践门槛的开源项目，核心目标是让普通用户通过 “3 元 GPU 服务器成本 + 2 小时单卡训练”，从 0 构建并部署仅 25.8M 参数...

nanochat 是由 AI 领域知名开发者 Andrej Karpathy 团队开发的开源项目，旨在提供一个轻量、简洁、可定制的类 ChatGPT 全栈解决方案。该项目覆盖从分词、预训练、微调（SFT...

开源大语言模型新闻、工具、教程及资源推荐