HoloCine:开源电影级多镜头长视频叙事生成框架,实现跨镜头视觉与叙事双一致性
HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频(T2V)项目,该项目以整体生成为核心理念,通过窗口交叉注意、稀疏镜头间自注意两大核心机制,实现电影...
HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频(T2V)项目,该项目以整体生成为核心理念,通过窗口交叉注意、稀疏镜头间自注意两大核心机制,实现电影...
vLLM是一款高性能开源大语言模型(LLM)推理与服务库,核心依托PagedAttention分页注意力机制、连续批处理等技术创新,解决传统LLM推理中显存利用率低、延迟高、吞吐量低的...
Calligrapher是蚂蚁×港科大推出的基于扩散模型的书法风格化AI工具,支持英文文本定制、多参考模式与字符级笔画控制。本文提供Ubuntu+PyTorch2.5+CUDA12.1完整部署教程,详...
HeartMuLa 是一套开源的多语言音乐基础模型项目,核心目标是构建全链路的音乐生成与音视频文本处理能力,为开发者、研究者和普通用户提供开箱即用的音乐 AI 工具集。它是首...
AgentCPM-Report是一款聚焦于深度研究报告生成的开源大语言模型代理(LLM Agent),由清华大学自然语言处理实验室(THUNLP)、中国人民大学RUCBM实验室与ModelBest联合研发...
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
Voice-Pro是一款基于Python开发的AI驱动型语音处理网页应用,集成Whisper、F5-TTS、Demucs等主流模型,提供语音识别、零样本语音克隆、多语言文本转语音、音频分离、YouTub...
本文提供EchoMimicV3完整部署教程,涵盖Ubuntu + CUDA环境配置、Python虚拟环境搭建、模型权重下载与路径修改、app_mm.py运行等全流程步骤,助你快速实现蚂蚁集团开源的高效...
PromptX(Prompt Manager)是一款面向AI时代的轻量级开源提示词管理工具,其具备智能分类、版本追踪、快速检索、跨平台适配等专业能力的管理系统,适配个人开发者、AI创作爱...
qqr(也称作hilichurl)是由阿里巴巴自然语言处理(NLP)团队开源的一款轻量级、非侵入式的开放式智能体训练扩展工具,核心开发语言为Python。该工具以slime为基础进行构建...
