AI新闻资讯 - 最新人工智能技术动态与热点资讯

FlashVSR：开源实时视频超分辨率框架，基于扩散模型实现高效高画质视频增强

FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架，主打高效性、可扩展性与高保真度，创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制，解决传统扩散模型视频超...

2个月前 AI铺子

79

SenseNova-SI：商汤科技开源的高性能多模态空间智能训练与推理模型

SenseNova-SI 是由商汤科技开源的多模态空间智能项目，聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集，基于 Qwen3-VL、InternVL3 等主流基础模...

2个月前 97ai

87

Maya1：开源高拟真 TTS 系统，支持情感控制与流式音频生成

Maya1-Text-to-Speech（以下简称Maya1）是一款基于深度学习构建的开源文本转语音（TTS）系统，主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...

3个月前 dotaai

93

Omnilingual ASR：Meta开源的多语言语音识别系统，支持1600+语言的高效语音转文字工具

Omnilingual ASR是由Meta（Facebook Research）开源的多语言语音识别系统，支持全球超过1600种语言（含数百种稀有语言），提供从300M到7B的多规格模型，支持零样本学习与无...

3个月前 AI工具集

73

LiveAvatar：开源实时流式虚拟人视频生成框架，支持无限长度交互式生成

LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架，由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...

3个月前 AI工具箱

102

YingVideo-MV：巨人网络开源的音乐驱动多阶段视频生成框架

YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架，它能够自动解析输入音频的语义特征，然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜，再利用扩散...

3个月前人工智能研究所

90

MotionEdit：腾讯 AI 与 UCLA 联合开源的运动感知图像编辑数据集与训练框架

MotionEdit是由腾讯AI（西雅图）与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目，包含MotionEdit-Bench专用基准数据集与MotionNFT（Motion-guided Negative-awar...

3个月前 AI铺子

83

AnyTalker：香港科技大学开源的音频驱动多人对话视频生成框架

AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具，该框架核心解决了“多人交互场景下视频生成...

3个月前 dotaai

90

Wan-Animate：阿里通义实验室推出的 AI 角色动画生成与视频角色替换框架

Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架，其构建于Wan模型之上，并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...