Sana:NVIDIA开源的高效高分辨率AI图像与视频生成框架
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...
AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具,该框架核心解决了“多人交互场景下视频生成...
Videoinu 是一款基于生成式人工智能技术的全栈式AI动画视频生成平台,致力于帮助用户通过简单的文本提示(Prompt)和角色设定,快速生成高质量、长时长、角色一致的动画视频...
Fanfun AI 是一款基于生成式人工智能技术的创新语音克隆与AI视频内容创作平台。它允许用户通过简单的操作,快速克隆全球知名人物的独特声音,如科比、Snoop Dogg、迈克尔·...
Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...
Cuty AI 是一个集成了世界领先AI模型的全能内容生成平台,致力于为用户提供从文本到图像、从静态图到动态视频的一站式AI创作解决方案。平台整合了包括 Google Veo、OpenAI ...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
BeatViz AI 是一款基于先进生成式人工智能技术的一站式AI音乐视频生成平台,专为音乐创作者、内容生产者和品牌营销团队设计。它能够将音频文件或纯文本提示(text prompt)...
LuoGen-agent 是 LuoGen-AI 团队开源的商业级爆款视频自动化生成智能体,集成智能文案处理、高保真语音克隆、数字人口播合成、多平台自动发布等全流程能力,基于 Whisper、...
Loova是一款以“多模型集成”为核心的AI生成平台,聚焦于图片与视频的智能化创作,旨在通过整合全球领先的AI生成模型,为用户提供“一站式”创作解决方案。无论是将文字描述...
STARFlow-V 是苹果团队研发的首款基于归一化流的因果视频生成模型,打破了视频生成领域扩散模型的技术垄断。该模型采用全局 - 局部架构实现时空特征解耦,结合流分数匹配去...
360智图是360推出的一款综合性AI图片视频创作平台,依托先进的生成式人工智能技术,整合图片处理、视频生成、素材资源等核心服务,打造从图片编辑到视频创作的全链路创意生...