Maya1:开源高拟真 TTS 系统,支持情感控制与流式音频生成
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架,由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...
VibeVoice是微软开源的一款高性能语音AI研究框架,聚焦于解决传统文本转语音(TTS)系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...
AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件,其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...
Repo2Run是字节跳动开源的一款基于大语言模型(LLM)的构建代理系统,其核心目标是为各类代码仓库自动化搭建可执行的容器化运行环境。该工具以Docker为沙箱实现构建过程隔离...
MemOS 是由 MemTensor 团队开发的开源 AI 智能体记忆操作系统,旨在解决传统 AI 智能体存在的 “记忆断层”“人格漂移” 和 “上下文召回能力弱” 等核心痛点。该框架通过模...
MemMachine是一款面向AI智能体的开源通用内存层工具,支持工作(短期)、持久(长期)、个性化(档案)三类记忆,其内存层可跨多个会话、代理及大语言模型持久化,将情景记...
ValueCell是一个基于开源协作模式构建的多智能体(Multi-Agent)金融应用工具,,核心定位为去中心化金融代理协作生态,旨在为用户提供股票/加密货币的选股、研究、跟踪及智...