Gamma-World:英伟达联合清华研发的AI世界模型,虚实场景高效协同仿真
Gamma-World(γ-World)是NVIDIA联合清华、多伦多大学推出的生成式多智能体世界模型,通过单纯形旋转智能体编码与稀疏枢纽注意力两大创新,解决传统模型对称性缺失、算力爆...
Gamma-World(γ-World)是NVIDIA联合清华、多伦多大学推出的生成式多智能体世界模型,通过单纯形旋转智能体编码与稀疏枢纽注意力两大创新,解决传统模型对称性缺失、算力爆...
Cosmos 3是英伟达(NVIDIA)完全开源的全模态物理AI基础模型,采用创新混合Transformer架构,原生集成视觉推理、世界生成与动作预测能力,可理解并生成文本、图像、视频、环...
Polar是由NVIDIA NeMo团队开发的强化学习训练框架,专为真实世界智能体(Agent)工具箱(Harness)设计。其核心理念是“将工具箱视为环境”,允许开发者将现有智能体评估框...
OmniVoice Studio 是一个完全开源、本地运行的 AI 语音工具集,定位为 ElevenLabs 的替代品。它支持 646 种语言的零样本语音克隆、语音设计(多参数调节)、全流程视频配音...
Webwright是微软开源的终端原生Web智能体框架,核心采用代码驱动范式,让大模型自动生成Playwright脚本操控浏览器,摒弃传统点击预测模式。框架极简轻量(约1000行代码),...
Qwen‑VLA是阿里通义千问推出的开源通用视觉‑语言‑动作统一具身智能模型,基于Qwen多模态基座构建,通过四阶段训练实现视觉感知、语言理解与连续动作生成的端到端融合,单...
Qwen3.7-Plus是由阿里达摩院通义千问团队自研、依托Qwen3.7原生基座迭代升级的多模态通用智能体大模型,主打视觉+文本+代码三位一体的自主智能体闭环能力,Qwen3.7-Plus从底...
AgentMemory是一款开源的AI编程智能体持久记忆系统,基于iii-engine构建,支持Claude Code、Cursor等工具接入,具备全自动捕获、四层结构化存储、混合检索等功能,本地私有...
ControlFoley是小米开源的可控视频音效生成框架,支持文本引导、文本控制、参考音频控制三大配音任务,通过联合视觉编码、时间-音色解耦等技术,实现高可控、高同步、高音质...
Qwen-Image-Bench是阿里通义千问团队开源的文生图专业评测基准,配套1000条中英双语分层数据集与自研Q-Judger评估引擎,可对AI绘画模型进行5大核心能力、56项指标的自动化量...