VideoRAG:港大开源的长视频智能交互工具,支持数百小时视频自然语言问答
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
StoryMem是一款开源的多镜头长视频叙事生成工具,依托记忆条件控制的单镜头视频扩散模型,能够根据含逐镜头文本描述的故事脚本,生成时长约一分钟、角色高度连贯且具备电影...
MAI-UI是阿里通义实验室推出的开源基础GUI智能体项目,核心定位是以现实世界为中心的全尺寸Foundation GUI Agents,聚焦移动场景的人机交互革新,旨在解决传统GUI智能体在实...
StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型,不同于传统AI仅能完成单一信息搜索或简单总结,StepDeepResearch实现了“需求理解→研究...
ML-Master 是上海交通大学 SAI 实验室牵头研发的开源 AI-for-AI 智能体,核心通过探索与推理深度融合范式 + 自适应记忆机制,实现机器学习任务全流程自主完成。该项目在 Op...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架,核心在于摒弃预定义工作流,实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...
FlashVSR 是一款开源的基于扩散模型的实时视频超分辨率框架,主打高效性、可扩展性与高保真度,创新性提出三阶段蒸馏管道与局部约束稀疏注意力机制,解决传统扩散模型视频超...