DreamID-Omni:清华大学联合字节跳动开源的可控人本音视频生成统一框架
DreamID-Omni是一款由清华大学与字节跳动联合开源的可控以人为中心的音视频生成框架,其首次将“生成、编辑、动画”三类核心能力无缝整合到单一模型范式中,实现了从“参考...
DreamID-Omni是一款由清华大学与字节跳动联合开源的可控以人为中心的音视频生成框架,其首次将“生成、编辑、动画”三类核心能力无缝整合到单一模型范式中,实现了从“参考...
本文对 NullClaw、ZeroClaw、PicoClaw、NanoBot、OpenClaw 五款主流开源 AI 智能体框架进行真实、无虚构的全面对比测评,围绕二进制大小、峰值内存、0.8GHz 启动速度、测试...
TinyClaw是TinyAGI团队开源的一款轻量、高效、可私有化部署的多智能体协作AI框架,核心设计理念是“用极简代码与轻量化架构,实现复杂的AI智能体团队协作”,让普通用户与开...
DeerFlow是由字节跳动研发并开源的社区驱动型超级智能体编排框架(Super Agent Harness)。项目最初定位为深度研究(Deep Research)框架,经过2.0版本完全重构后,升级为通...
VideoMaMa是由高丽大学、Adobe研究院、KAIST AI团队联合研发的掩码引导式视频抠图框架,其基于视频生成先验技术打造,能够将粗糙的分割掩码转化为电影级的精细Alpha Matte,...
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
Fabric是由Daniel Miessler开发的开源AI增强框架,主打命令行原生交互,通过Pattern模式实现AI提示词的工程化管理与复用,支持多主流LLM模型与服务商适配,能将AI能力无缝集...
RAG-Anything 是由香港大学数据智能实验室(HKUDS)开源的一站式多模态检索增强生成(RAG)框架,基于 LightRAG 构建,突破传统文本类 RAG 系统的技术限制,可无缝处理 PDF...
UniVideo是由滑铁卢大学与快手Kling Team联合研发并开源的统一视频AI框架,基于Python语言构建,采用创新的双流架构融合多模态大语言模型(MLLM)与多模态扩散Transformer(...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
Genkit是Google Firebase团队开发并开源的全栈AI应用开发框架,核心目标是简化AI应用从开发、测试到生产部署的全流程。该框架提供统一接口,可无缝集成Google Gemini、Open...
MemU 是由 NevaMind-AI 开发的开源 AI 伴侣记忆框架,旨在为 AI 伴侣提供高精度、低成本、可扩展的记忆能力。通过文件系统式记忆组织、互联知识图谱、自适应遗忘机制等核心...
LongLive 是由 NVLabs 联合 MIT、HKUST (GZ)、HKU、THU 等机构开发的开源实时交互式AI长视频生成框架,该框架基于帧级自回归设计,整合 KV-recache、流式长调优、短窗口注意...