WeKnora:腾讯开源的LLM文档理解与语义检索框架
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...
AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具,该框架核心解决了“多人交互场景下视频生成...
LightX2V 是一款轻量级视频生成推理框架,专注于文本到视频(T2V)与图像到视频(I2V)的高效合成任务。该框架整合了当下主流的视频生成技术,通过模型量化、特征缓存、并行...
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图...
PosterCopilot是由南京大学PRLab、LibLib.ai与中国科学院自动化研究所联合开发的开源多模态海报设计框架,该框架基于大型多模态模型(LMMs)构建,创新采用三阶段训练范式,...
GigaWorld-0是由极佳视界(GigaAI)开源的具身智能专用世界模型框架,其核心定位为“世界模型即数据引擎”,通过GigaWorld-0-Video和GigaWorld-0-3D两大协同组件,首次实现...
Stand-In是微信CV团队开源的一款轻量级、即插即用的视频生成身份控制框架,核心优势在于仅需训练基础视频生成模型1%的额外参数,就能在人脸相似度和自然度上达到行业领先水...
MobiAgent是一款开源的可定制移动智能体系统,该框架核心包含MobiMind代理模型家族、AgentRR加速框架与MobiFlow评测基准三大模块,支持通过ADB连接Android设备,实现跨应用...
InfiniteTalk是由美团视觉智能团队开源的音频驱动视频生成框架,专为稀疏帧视频配音(Sparse-Frame Video Dubbing)设计,同时支持图像到视频(Image-to-Video)和视频到视...
Parallax是一款开源的分布式模型服务框架,由AI技术公司Gradient开发并开源。其核心定位是“让用户在任何地方构建自己的AI集群”,解决传统LLM推理依赖高配置单节点或中心化...
ViMax是由香港大学开源多智能体视频生成框架,旨在解决当前AI视频生成“片段短、一致性差、缺乏叙事深度”的核心痛点。该工具集导演、编剧、制片人、视频生成器功能于一体,...
KTransformers是一款基于CPU-GPU异构计算的开源框架,专注于大型语言模型(LLM)的高效推理与微调优化。项目核心包含kt-kernel(高性能推理内核)和kt-sft(轻量化微调框架...
DroidRun是一款开源的移动设备自动化框架,核心定位是通过LLM(大语言模型)智能体实现对Android和iOS设备的自然语言控制,让非技术用户与专业开发者都能轻松完成移动设备的...
InfinityStar 是字节跳动开源的视觉生成框架,核心基于统一时空自回归建模,实现了图像与视频生成的一体化解决方案。该框架突破传统自回归模型的局限,首次支持工业级 720p...