DeepSeek-OCR 2:DeepSeek-AI推出的开源类人逻辑OCR识别工具,适配图片与PDF全场景
DeepSeek-OCR 2是由deepseek-ai开源的新一代OCR(光学字符识别)模型,基于视觉因果流设计理念,核心是让AI模拟人类阅读逻辑处理图像与文档,该模型采用DeepEncoder V2架构...
DeepSeek-OCR 2是由deepseek-ai开源的新一代OCR(光学字符识别)模型,基于视觉因果流设计理念,核心是让AI模拟人类阅读逻辑处理图像与文档,该模型采用DeepEncoder V2架构...
LingBot-Depth是蚂蚁集团旗下灵波科技(Robbyant)开源的高精度空间感知模型,基于创新的掩码深度建模(MDM)范式,无需更换高端硬件,即可将消费级RGB-D相机的原始深度数据...
FrankenMotion是一款开源的部位级人体运动生成与合成框架,项目构建了全球首个具备异步、部位级文本标注的Frankenstein运动数据集,并提出基于扩散模型的部位感知运动生成方...
HeartMuLa 是一套开源的多语言音乐基础模型项目,核心目标是构建全链路的音乐生成与音视频文本处理能力,为开发者、研究者和普通用户提供开箱即用的音乐 AI 工具集。它是首...
D4RT是由Google DeepMind主导开发的开源4D重建与跟踪框架,核心是通过一套统一架构,从普通2D视频中精准还原动态场景的3D几何结构与时间维度的运动轨迹(即4D建模)。该框架...
FlowAct-R1是字节跳动开源的实时交互式数字人视频生成框架,基于MMDiT架构构建,其通过分块扩散强制策略、结构化记忆库与多阶段蒸馏技术,实现25FPS@480p分辨率、首帧1.5秒...
OpenJudge是一款专为AI应用设计的开源评估框架,基于Python开发,核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...
Prompt-Master是一款开源的Chrome浏览器扩展,专为解决AI提示词管理痛点而生,主打键盘+鼠标双友好操作体验,采用卡片式布局实现提示词快速查找、复制与管理,支持JSON格式...
Agentation是一款专为React 18+项目设计的agent-agnostic视觉反馈工具,通过可视化标注页面元素生成精准CSS选择器与结构化Markdown,解决AI编程助手定位代码模糊问题,提升...
AgentCPM-Report是一款聚焦于深度研究报告生成的开源大语言模型代理(LLM Agent),由清华大学自然语言处理实验室(THUNLP)、中国人民大学RUCBM实验室与ModelBest联合研发...