开源项目

Sana：NVIDIA开源的高效高分辨率AI图像与视频生成框架

Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目，该项目支持512px-4Kpx高清图像生成、分钟级视频生成，通过线性化注意力机制、少步扩散...

5个月前 AI新闻

127

Kani TTS：轻量级高性能开源文本转语音(TTS)框架，支持多语言与跨硬件优化推理

Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音（Text-to-Speech，TTS）框架，旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...

5个月前 AI新闻

143

StreamDiffusionV2：开源实时交互式高帧率视频生成系统

StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统，不同于传统静态图像生成或低帧率视频生成工具，该项目聚焦“实时交互”与“高FPS输出”两大核...

5个月前 AI新闻

159

AutoPR：开源学术推广自动化框架，智能生成多平台论文推广内容

AutoPR 是一款面向科研学者的开源学术推广自动化框架，基于大语言模型构建，核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...

5个月前 AI新闻

109

DeepAgent：人大&小红书联合开源的端到端通用推理智能代理框架

DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架，核心在于摒弃预定义工作流，实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...

5个月前 AI新闻

113

FlashVSR：开源实时视频超分辨率框架，基于扩散模型实现高效高画质视频增强

FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架，主打高效性、可扩展性与高保真度，创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制，解决传统扩散模型视频超...

5个月前 AI新闻

149

Maya1：开源高拟真 TTS 系统，支持情感控制与流式音频生成

Maya1-Text-to-Speech（以下简称Maya1）是一款基于深度学习构建的开源文本转语音（TTS）系统，主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...

5个月前 AI新闻

150

Omnilingual ASR：Meta开源的多语言语音识别系统，支持1600+语言的高效语音转文字工具

Omnilingual ASR是由Meta（Facebook Research）开源的多语言语音识别系统，支持全球超过1600种语言（含数百种稀有语言），提供从300M到7B的多规格模型，支持零样本学习与无...

5个月前 AI新闻

107

LiveAvatar：开源实时流式虚拟人视频生成框架，支持无限长度交互式生成

LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架，由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...

5个月前 AI新闻

185

MotionEdit：腾讯 AI 与 UCLA 联合开源的运动感知图像编辑数据集与训练框架

MotionEdit是由腾讯AI（西雅图）与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目，包含MotionEdit-Bench专用基准数据集与MotionNFT（Motion-guided Negative-awar...

5个月前 AI新闻

113

SSVAE：智谱AI开源的视频生成专用谱结构 VAE 模型

SSVAE（Spectral-Structured VAE）是智谱AI针对视频生成场景优化的谱结构变分自编码器，聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...

5个月前 AI新闻

102

RealVideo：智谱AI开源的实时流媒体对话视频生成系统

RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统，采用 Python 编程语言开发，依托 WebSocket 技术实现客户端与服务端的双向实时通信，融合大语言模型与...

5个月前 AI新闻

213

SCAIL：智谱AI开源的工作室级角色动画生成框架

SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架，核心基于3D一致姿态表示的上下文学习技术，解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...

5个月前 AI新闻

253

GLM-TTS：智谱 AI 推出的开源文本转语音（TTS）合成工具

GLM-TTS是由智谱AI团队开源的一款基于大语言模型（LLM）的高质量文本转语音（TTS）合成系统，其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合，突破传统T...

5个月前 AI新闻

238

InkSight：谷歌研究院开源的离线手写文本数字化 AI 转换工具

InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统，基于视觉ViT与mT5编码器-解码器架构，融合阅读与写作先验知识构建多任务训练框架，可直接将照片中的手...

6个月前 AI新闻

155

开源项目新闻、工具、教程及资源推荐

Sana：NVIDIA开源的高效高分辨率AI图像与视频生成框架

Kani TTS：轻量级高性能开源文本转语音(TTS)框架，支持多语言与跨硬件优化推理

StreamDiffusionV2：开源实时交互式高帧率视频生成系统

AutoPR：开源学术推广自动化框架，智能生成多平台论文推广内容

DeepAgent：人大&小红书联合开源的端到端通用推理智能代理框架

FlashVSR：开源实时视频超分辨率框架，基于扩散模型实现高效高画质视频增强

Maya1：开源高拟真 TTS 系统，支持情感控制与流式音频生成

Omnilingual ASR：Meta开源的多语言语音识别系统，支持1600+语言的高效语音转文字工具

LiveAvatar：开源实时流式虚拟人视频生成框架，支持无限长度交互式生成

MotionEdit：腾讯 AI 与 UCLA 联合开源的运动感知图像编辑数据集与训练框架

SSVAE：智谱AI开源的视频生成专用谱结构 VAE 模型

RealVideo：智谱AI开源的实时流媒体对话视频生成系统

SCAIL：智谱AI开源的工作室级角色动画生成框架

GLM-TTS：智谱 AI 推出的开源文本转语音（TTS）合成工具

InkSight：谷歌研究院开源的离线手写文本数字化 AI 转换工具