openPangu 2.0:华为开源的稀疏大模型,512K 超长文本与昇腾鸿蒙全栈适配底座
openPangu 2.0(开源盘古2.0)是华为发布的全栈自研开源稀疏大语言模型,由华为终端BG、昇腾计算联合盘古大模型团队联合打造,是国内首款完整依托国产昇腾NPU完成全链路预训...
openPangu 2.0(开源盘古2.0)是华为发布的全栈自研开源稀疏大语言模型,由华为终端BG、昇腾计算联合盘古大模型团队联合打造,是国内首款完整依托国产昇腾NPU完成全链路预训...
DiffusionGemma是谷歌DeepMind推出的实验性开源文本扩散大模型,基于Gemma 4架构,采用26B混合专家设计,并行生成256个Token,推理速度最高提升4倍,量化后18GB显存即可在R...
Step 3.5 Flash是阶跃星辰(StepFun)发布的面向智能体(Agent)场景的开源基座大语言模型,采用稀疏混合专家(MoE)架构,总参数量196.81B,每token仅激活约11B参数,在保...
AgentCPM-Report是一款聚焦于深度研究报告生成的开源大语言模型代理(LLM Agent),由清华大学自然语言处理实验室(THUNLP)、中国人民大学RUCBM实验室与ModelBest联合研发...
MiniMind 是一个旨在拉低大语言模型(LLM)学习与实践门槛的开源项目,核心目标是让普通用户通过 “3 元 GPU 服务器成本 + 2 小时单卡训练”,从 0 构建并部署仅 25.8M 参数...
nanochat 是由 AI 领域知名开发者 Andrej Karpathy 团队开发的开源项目,旨在提供一个轻量、简洁、可定制的类 ChatGPT 全栈解决方案。该项目覆盖从分词、预训练、微调(SFT...