VerseCrafter:复旦、港大&腾讯联合开源的 4D 几何可控的动态真实视频世界模型
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...
Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作(VLA)基础模型,核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点,...
LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型,仅含 10 亿参数,却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限,可...
MTranServer 是一款开源的离线翻译服务器解决方案,基于优化的神经网络翻译模型构建,无需显卡支持即可在普通 CPU 设备上流畅运行。其核心优势在于超低资源消耗、50毫秒级极...
Claude-Ally-Health(WellAlly)是一款开源文件型个人健康信息管理系统,依托Claude Code CLI工具实现全流程健康数据管理。其整合了医疗报告智能识别、13个专科的多学科会诊...
Voice-Pro是一款基于Python开发的AI驱动型语音处理网页应用,集成Whisper、F5-TTS、Demucs等主流模型,提供语音识别、零样本语音克隆、多语言文本转语音、音频分离、YouTub...
ALwrity是一款基于Python和React构建的开源AI驱动数字营销平台,它整合了AI内容生成、SEO分析、多平台适配、事实核查等核心能力,适配博客、LinkedIn、社交媒体等多场景内容...
Pixelle-Video是一款基于Python开发的开源AI全自动短视频引擎,通过整合大语言模型(LLM)、AI生图/生视频模型、语音合成(TTS)、智能剪辑等多项技术,实现了从“主题输入...
ChatLab是一款免费开源、本地化部署的聊天记录分析应用,该工具以隐私安全为核心前提,通过流式计算、多线程并行架构实现百万条级聊天记录的高性能处理,同时集成AI Agent与...