NitroGen:英伟达联合多所高校开源的通用游戏AI基础模型
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
微调(Fine-tuning)是指在大规模预训练模型的基础上,针对特定任务或领域的数据进行进一步训练,使模型能够更好地适应新任务,提升性能和效果。本文AI铺子将深入剖析大模型...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...
SenseNova-SI 是由 商汤科技开源的多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集,基于 Qwen3-VL、InternVL3 等主流基础模...
联邦学习(Federated Learning, FL)是一种分布式机器学习框架,允许多个参与方(如移动设备、医疗机构、金融机构等)在保持本地数据私有化的前提下,通过交换模型参数或梯...
Paper2Slides是一款开源的自动化内容转换工具,专注于将PDF、Word、Markdown等多格式研究论文、报告类文档一键转换为符合出版级设计标准的幻灯片和学术海报。该工具基于RAG...
PosterCopilot是由南京大学PRLab、LibLib.ai与中国科学院自动化研究所联合开发的开源多模态海报设计框架,该框架基于大型多模态模型(LMMs)构建,创新采用三阶段训练范式,...
VibeVoice是微软开源的一款高性能语音AI研究框架,聚焦于解决传统文本转语音(TTS)系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...
DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型,其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用,不仅超越Grok 4、Claude Sonn...
