A2UI:谷歌开源的一款专注于代理生成用户界面的声明式框架
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架,核心在于摒弃预定义工作流,实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...
FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架,主打高效性、可扩展性与高保真度,创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制,解决传统扩散模型视频超...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
LiveAvatar是一款专注于实时、流式、无限长度交互式虚拟人视频生成的开源框架,由阿里巴巴、中科大、北邮及浙大联合开源。该框架突破了传统虚拟人视频生成“长度有限、延迟...
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...