VideoRAG:港大开源的长视频智能交互工具,支持数百小时视频自然语言问答
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
ideoPipe是一款基于C++开发的轻量级开源视频分析与结构化框架,旨在简化计算机视觉算法的集成流程,支持x86_64/aarch64架构的Ubuntu系统及NVIDIA GPU、华为昇腾、瑞芯微RK3...
Prompt Fill是一款面向AI绘画场景的开源结构化提示词生成工具,核心通过可视化“填空”交互模式解决AI绘画提示词难记忆、难管理、修改繁琐的痛点。该工具支持动态词库管理、...
Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型(Large Audio Language Model)。该模型创新性引入双分辨率语音表示架构...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
如何将ELMo有效集成到下游任务中仍存在策略分歧:特征拼接(Feature Ensemble)与微调(Fine-tuning)作为两种主流方法,在实现方式、性能表现及适用场景上存在本质差异。本...
Maya1-Text-to-Speech(以下简称Maya1)是一款基于深度学习构建的开源文本转语音(TTS)系统,主打高拟真语音生成、精细化情感控制与低延迟流式音频输出能力。该项目支持通...
AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具,该框架核心解决了“多人交互场景下视频生成...
Claude-Mem 是一款专为 Claude Code 打造的开源持久化记忆插件,核心目标是解决 AI 代码助手跨会话上下文丢失的痛点。该工具通过钩子架构、混合搜索技术与轻量化数据库存储...
