GLM-4.7-Flash:智谱开源的 30B 级轻量化混合专家模型,支持本地部署与多场景应用
GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家(MoE)大语言模型,总参数量达 30B,推理时仅激活 3B 参数,实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...
GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家(MoE)大语言模型,总参数量达 30B,推理时仅激活 3B 参数,实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...
AgentCPM是一套面向大语言模型智能体(LLM Agent)研发的开源项目,不同于单一功能的智能体工具,AgentCPM定位为“智能体研发全流程套件”,既包含可直接部署使用的基础智能...
EvoCUA(Evolving Computer Use Agent)是由美团公司重磅开源的一款通用多模态计算机使用智能体,核心能力为基于实时桌面截图与自然语言指令,实现对主流桌面软件的端到端、...
阿里巴巴Wan团队开源Wan2.2-Animate-14B模型,支持静态图生成高保真角色动画。本文详解Ubuntu系统下基于ComfyUI的本地部署全流程,涵盖环境配置、依赖安装、模型下载与运行...
XVERSE-Ent是由深圳元象并开源的面向娱乐领域的专用预训练大语言模型系列,基于混合专家(MoE)架构打造,包含中文XVERSE-Ent-A4.2B与英文XVERSE-Ent-A5.7B两款模型。该项目...
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
Qwen-Image-Layered是阿里巴巴通义千问团队(QwenLM)开源的一款专注于图像分层与精准编辑的AI模型,是当前业内首个实现“原生图层解耦”的开源扩散模型,核心定位是让AI具...
Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型(Large Audio Language Model)。该模型创新性引入双分辨率语音表示架构...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型,支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务,兼容单流与多流音频输入。该模型...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...