UnityVideo:港科大 & 清华 & 快手可灵联合开源的视频理解与生成框架
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型(dLLMs),涵盖 16B 参数的基础版本与 100B 参数的混合专家(MoE)版本,是目前参数规模最大的扩散语言模型之一。该...
Wan-Move是由阿里通义实验室、清华大学、香港大学及香港中文大学等联合开源的运动可控视频生成框架,是人工智能领域顶会NeurIPS 2025的收录研究成果,核心定位是解决传统图...
Paper2Slides是一款开源的自动化内容转换工具,专注于将PDF、Word、Markdown等多格式研究论文、报告类文档一键转换为符合出版级设计标准的幻灯片和学术海报。该工具基于RAG...
Claude-Mem 是一款专为 Claude Code 打造的开源持久化记忆插件,核心目标是解决 AI 代码助手跨会话上下文丢失的痛点。该工具通过钩子架构、混合搜索技术与轻量化数据库存储...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
在数字化浪潮中,实体商业与人工智能的深度融合正重塑零售业态。以"AI铺子"为代表的智能零售解决方案,通过数据驱动、场景重构和服务升级,为商家开辟了精准化运营的新路径...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...