StreamDiffusionV2:开源实时交互式高帧率视频生成系统
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架,核心在于摒弃预定义工作流,实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架,主打高效性、可扩展性与高保真度,创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制,解决传统扩散模型视频超...
SenseNova-SI 是由 商汤科技开源的多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集,基于 Qwen3-VL、InternVL3 等主流基础模...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架,由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...