VoxCPM:开源无分词器文本转语音系统,端到端实现高逼真语音合成
VoxCPM是一款创新型无分词器文本转语音(TTS)系统。该系统采用端到端的扩散自回归架构,能够直接从文本生成连续的语音表示,彻底摆脱了传统TTS系统中离散分词的限制,重新...
VoxCPM是一款创新型无分词器文本转语音(TTS)系统。该系统采用端到端的扩散自回归架构,能够直接从文本生成连续的语音表示,彻底摆脱了传统TTS系统中离散分词的限制,重新...
OpenAI Codex CLI是由OpenAI开发的一款可在本地计算机运行的AI编码代理工具。它旨在为开发者提供便捷、高效的编码辅助支持,能够与多种代码编辑器配合使用,也可基于云服务...
Codexia是一款基于Codex CLI的开源GUI工具包,旨在为开发者提供丰富的AI辅助开发体验。它通过直观的图形界面,将强大的AI能力与实用的开发工具相结合,帮助用户更高效地完成...
Unsloth是一个专注于大语言模型(LLM)高效微调的开源工具库,旨在解决大模型训练过程中普遍存在的速度慢、显存占用高的问题。该项目由Unsloth AI团队开发并维护,通过创新...
Lucy Edit Dev是由DecartAI开发的一款开源文本引导视频编辑工具,它作为ComfyUI的扩展节点存在,能够通过自然语言指令实现对视频内容的精准编辑。该项目基于先进的深度学习...
FastMTP是由腾讯BAC团队开发的一种针对大语言模型(LLM)的高效推理加速技术,旨在通过增强多token预测(Multi-Token Prediction, MTP)能力来显著提升大语言模型的推理速度...
Ling-V2是一款基于混合专家(Mixture of Experts,MoE)架构设计的开源大型语言模型系列,旨在实现高性能与计算效率的完美平衡。作为开源大语言模型领域的创新成果,Ling-V...
Translation Agent是由吴恩达其合作者开发的一款开源Python工具,核心依托大语言模型(LLM)构建智能体(agentic)反射工作流,实现机器翻译功能。不同于传统机器翻译系统直...
Nanobrowser是一款开源的AI网页自动化工具,以浏览器扩展程序的形式运行,作为OpenAI Operator的免费替代方案,它打破了传统网页自动化工具的局限,通过创新的多代理系统和...
SQLBot是一款基于大模型和RAG技术开发的开源智能问数系统,旨在通过自然语言交互的方式实现高质量的文本转SQL(text2sql)功能。它能够让用户无需掌握复杂的SQL语法,只需用...
FireRedTTS-2是一款开源的文本转语音(TTS)系统,专注于多角色对话场景下的长格式语音生成。该系统采用先进的深度学习架构,能够生成自然流畅的语音,同时支持多个说话人之...
DeepResearch是由阿里巴巴通义实验室(Tongyi Lab)开发的开源项目,专注于构建长周期、深度信息检索任务的智能代理模型。该项目旨在通过先进的人工智能技术,实现自动化的...
RustGPT是一个完全基于Rust编程语言实现的大型语言模型(LLM)开源项目,该项目的核心目标是展示如何在不依赖任何外部机器学习框架的情况下,仅使用Rust生态中的ndarray库进...
Wren AI是一个开源的生成式商业智能(GenBI)代理工具,旨在通过自然语言交互简化数据查询与分析流程。它能够让用户以日常语言提问的方式查询任何数据库,自动生成精确的SQ...
SenseVoice是由阿里通义实验室开源的一款具备强大音频理解能力的音频基础模型,致力于为各类语音及声学相关场景提供高效、精准的技术支撑。该模型基于深度学习技术构建,采...