VerseCrafter:复旦、港大&腾讯联合开源的 4D 几何可控的动态真实视频世界模型
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型,仅含 10 亿参数,却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限,可...
MTranServer 是一款开源的离线翻译服务器解决方案,基于优化的神经网络翻译模型构建,无需显卡支持即可在普通 CPU 设备上流畅运行。其核心优势在于超低资源消耗、50毫秒级极...
Claude-Ally-Health(WellAlly)是一款开源文件型个人健康信息管理系统,依托Claude Code CLI工具实现全流程健康数据管理。其整合了医疗报告智能识别、13个专科的多学科会诊...
Superpowers是一款专为AI编码代理打造的完整软件开发工作流增强框架,其核心是将人类软件工程中的经典最佳实践转化为AI可理解、可执行的强制性标准化协议,通过模块化的“技...
Baichuan-M3-235B是百川智能开源的2350亿参数级医疗增强大语言模型,主打原生低幻觉能力与端到端严肃问诊特性,该模型基于临床诊疗流程设计,能模拟医生思维主动追问关键信...
qqr(也称作hilichurl)是由阿里巴巴自然语言处理(NLP)团队开源的一款轻量级、非侵入式的开放式智能体训练扩展工具,核心开发语言为Python。该工具以slime为基础进行构建...
BabyVision是一款面向多模态大模型(MLLM)和图像生成模型的纯视觉推理能力开源评估基准,由UniPat-AI团队联合红杉中国xbench共同开发,隶属于xbench双轨评估体系中AGI Tra...
Engram是由DeepSeek AI开源的大语言模型条件记忆模块,作为混合专家(MoE)之外的互补稀疏性方案,它将经典N-gram嵌入现代化,实现了O(1)时间复杂度的知识查找。该模块通过...
ChatDev 是由 OpenBMB 团队研发的一款重量级开源零代码多智能体编排平台,该项目摆脱传统编码开发门槛,通过可视化配置与 YAML 文件定义智能体角色、协作流程与任务逻辑,实...
UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目,基于UI-TARS模型构建,集成Agent TARS通用多模态AI智能体栈,提供本地/远程计算机、浏览器GUI智能操作能力,...
Open Interpreter是一款开源的大语言模型代码执行工具,核心解决OpenAI官方Code Interpreter托管式、闭源、限制多的痛点,支持在本地环境运行Python、Javascript、Shell等多...
Paper2Any是OpenDCAI团队推出的一款开源多模态科研创作辅助工具,支持从论文PDF、截图、文本等多种输入形式,一键生成可编辑的模型架构图、技术路线图、实验数据图等科研绘...
MiroThinker是MiroMind研究院推出的开源搜索智能体(Search Agent)项目,聚焦增强工具辅助推理与信息检索能力,通过“交互式缩放”技术突破传统大模型性能瓶颈,提供多参数...
Vibe Kanban是由BloopAI开源的一款专为开发者设计的AI编码代理协作与项目管理工具,基于看板模式提供可视化任务管理界面。它支持Claude Code、Gemini CLI等主流AI编码代理的...