MotionEdit:腾讯 AI 与 UCLA 联合开源的运动感知图像编辑数据集与训练框架
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
MotionEdit是由腾讯AI(西雅图)与加州大学洛杉矶分校联合开发的开源运动中心图像编辑项目,包含MotionEdit-Bench专用基准数据集与MotionNFT(Motion-guided Negative-awar...
AnyTalker是由香港科技大学研发并开源的一款专注于“音频驱动多人人说话视频生成”的技术框架。不同于传统单一人脸动画生成工具,该框架核心解决了“多人交互场景下视频生成...
Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架,其构建于Wan模型之上,并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...
LightX2V 是一款轻量级视频生成推理框架,专注于文本到视频(T2V)与图像到视频(I2V)的高效合成任务。该框架整合了当下主流的视频生成技术,通过模型量化、特征缓存、并行...
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型(dLLMs),涵盖 16B 参数的基础版本与 100B 参数的混合专家(MoE)版本,是目前参数规模最大的扩散语言模型之一。该...
Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图...
Paper2Slides是一款开源的自动化内容转换工具,专注于将PDF、Word、Markdown等多格式研究论文、报告类文档一键转换为符合出版级设计标准的幻灯片和学术海报。该工具基于RAG...
Claude-Mem 是一款专为 Claude Code 打造的开源持久化记忆插件,核心目标是解决 AI 代码助手跨会话上下文丢失的痛点。该工具通过钩子架构、混合搜索技术与轻量化数据库存储...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...