FLM-Audio:原生全双工音语融合模型,支持中英文低延迟对话交互
FLM-Audio 是一款开源的音频 - 语言融合模型,作为 RoboEgo/FLM-Ego 的子版本,具备原生全双工能力,可同时实现监听、说话与内部独白构建,支持中英文双语言环境下的低延迟...
FLM-Audio 是一款开源的音频 - 语言融合模型,作为 RoboEgo/FLM-Ego 的子版本,具备原生全双工能力,可同时实现监听、说话与内部独白构建,支持中英文双语言环境下的低延迟...
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
MeloTTS 是由 MyShell AI 开发的开源文本转语音(TTS)项目,基于先进的深度学习技术,提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言,可...
Audio2Face-3D 是 NVIDIA 开源的音频驱动 3D 面部动画生成项目,能够从语音音频实时生成高精度的 3D 面部动画,包括精确的唇形同步、表情变化和情感驱动。该项目提供了从训...
CWM (Code World Model) 是 Meta 发布的一个 320 亿参数的开源大语言模型,专为代码生成和代码状态推理而设计。它不仅能理解和生成代码,还能通过工具调用与容器化环境交互...
Neovate Code是一款开源的AI编码代理工具,基于TypeScript构建,支持CLI命令行与VSCode扩展双端使用。该工具以自然语言交互为核心,可辅助开发者完成代码生成、bug修复、代...
Aider是一个开源的AI结对编程工具,它将大型语言模型(LLMs)直接引入你的开发工作流中。通过在终端中运行,Aider能够理解你的代码库结构,直接修改代码文件,并与你进行实时...
Matrix-Game是昆仑万维(Skywork AI)推出的一系列开源世界模型(world models)项目,包含1.0和2.0两个版本,旨在构建能够模拟、交互并生成虚拟世界内容的AI框架。该项目融合...
Matrix-3D是由昆仑万维(SkyworkAI)开发的开源3D场景生成框架,专注于实现“全向可探索3D世界”的构建。该项目通过融合全景表示技术、条件视频生成模型与全景3D重建算法,支...
Klavis AI 是一个专注于 AI 代理工具集成的开源项目,通过提供 MCP(Module Communication Protocol)集成层,让 AI 代理能够可靠地使用数千种工具。该项目具备 Strata 统一...