Spark-TTS:开源的文本到语音合成(TTS)系统,支持高质量语音克隆与多语言合成
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
MeloTTS 是由 MyShell AI 开发的开源文本转语音(TTS)项目,基于先进的深度学习技术,提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言,可...
Audio2Face-3D 是 NVIDIA 开源的音频驱动 3D 面部动画生成项目,能够从语音音频实时生成高精度的 3D 面部动画,包括精确的唇形同步、表情变化和情感驱动。该项目提供了从训...
CWM (Code World Model) 是 Meta 发布的一个 320 亿参数的开源大语言模型,专为代码生成和代码状态推理而设计。它不仅能理解和生成代码,还能通过工具调用与容器化环境交互...
Neovate Code是一款开源的AI编码代理工具,基于TypeScript构建,支持CLI命令行与VSCode扩展双端使用。该工具以自然语言交互为核心,可辅助开发者完成代码生成、bug修复、代...
Aider是一个开源的AI结对编程工具,它将大型语言模型(LLMs)直接引入你的开发工作流中。通过在终端中运行,Aider能够理解你的代码库结构,直接修改代码文件,并与你进行实时...
Matrix-Game是昆仑万维(Skywork AI)推出的一系列开源世界模型(world models)项目,包含1.0和2.0两个版本,旨在构建能够模拟、交互并生成虚拟世界内容的AI框架。该项目融合...
Matrix-3D是由昆仑万维(SkyworkAI)开发的开源3D场景生成框架,专注于实现“全向可探索3D世界”的构建。该项目通过融合全景表示技术、条件视频生成模型与全景3D重建算法,支...
Klavis AI 是一个专注于 AI 代理工具集成的开源项目,通过提供 MCP(Module Communication Protocol)集成层,让 AI 代理能够可靠地使用数千种工具。该项目具备 Strata 统一...
AI-Researcher是由HKUDS开源的科研全流程AI辅助工具,旨在解决传统科研中“文献筛选耗时、实验复现难、数据处理繁琐、协作效率低”等痛点。工具集成智能文献管理、实验自动...
Qwen3-Omni是由阿里达摩院推出的开源全模态基础模型,支持文本、图像、音频、视频等多类型输入,并能实时输出文本或自然语音。该模型采用创新的“Thinker-Talker”架构与Mo...
FLUX是由Black Forest Labs开发的开源图像生成与编辑模型系列,涵盖文本驱动图像生成、图像填充、结构控制等多元功能。该项目通过模块化设计提供高效推理代码,支持开发者与...
Hunyuan-MT是腾讯开源的高性能多语言翻译项目,包含Hunyuan-MT-7B基础模型与Hunyuan-MT-Chimera-7B集成模型,支持33种语言互译(含5种中国少数民族语言)。项目提供完整的训...
Qianfan-VL是百度智能云千帆推出的开源领域增强多模态理解模型系列,涵盖3B、8B、70B三种参数规模,专注于企业级应用场景。该模型系列在保持通用能力的同时,特别强化了文档...
Presentation-AI是一款开源的AI驱动PPT生成工具,旨在帮助用户摆脱传统PPT制作的繁琐流程——无需专业设计能力,只需输入主题、数量等基础信息,AI即可自动生成完整大纲、内...