InteractAvatar:面向场景物体交互的开源 AI 说话数字人生成框架
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
LLaMA-Factory是一站式统一高效大语言模型与多模态模型微调框架,项目核心目标是降低大模型定制化训练的技术门槛,让零基础用户、开发者、科研人员与企业工程师,都能在无需...
HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频(T2V)项目,该项目以整体生成为核心理念,通过窗口交叉注意、稀疏镜头间自注意两大核心机制,实现电影...
LingBot-World是一款面向交互式世界建模的开源世界模拟器,核心源于视频生成技术,由蚂蚁灵波开发并维护,定位为顶级开源世界模型。它通过从大规模游戏环境中学习物理规律与...
DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库,全称为Model Implementations for Inference,是DeepSpeed生态中聚焦于模型推理阶段的核心组件...
Earth2Studio是一款由英伟达基于Python开发的开源AI推理流水线工具包,核心定位是为天气和气候科学领域提供“开箱即用”的AI开发与应用解决方案。其核心目标是打破AI地球系...
vLLM是一款高性能开源大语言模型(LLM)推理与服务库,核心依托PagedAttention分页注意力机制、连续批处理等技术创新,解决传统LLM推理中显存利用率低、延迟高、吞吐量低的...
LingBot-Depth是蚂蚁集团旗下灵波科技(Robbyant)开源的高精度空间感知模型,基于创新的掩码深度建模(MDM)范式,无需更换高端硬件,即可将消费级RGB-D相机的原始深度数据...
FrankenMotion是一款开源的部位级人体运动生成与合成框架,项目构建了全球首个具备异步、部位级文本标注的Frankenstein运动数据集,并提出基于扩散模型的部位感知运动生成方...
OpenJudge是一款专为AI应用设计的开源评估框架,基于Python开发,核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...
Agentation是一款专为React 18+项目设计的agent-agnostic视觉反馈工具,通过可视化标注页面元素生成精准CSS选择器与结构化Markdown,解决AI编程助手定位代码模糊问题,提升...
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型,仅含 10 亿参数,却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限,可...
MTranServer 是一款开源的离线翻译服务器解决方案,基于优化的神经网络翻译模型构建,无需显卡支持即可在普通 CPU 设备上流畅运行。其核心优势在于超低资源消耗、50毫秒级极...