从零部署 MiniCPM-V 4.5:详解8B多模态模型在本地环境的完整搭建流程
深度解析 MiniCPM-V 4.5 多模态大模型,手把手教你完成本地部署。支持高精度 OCR 与长视频理解,基于 Ubuntu 环境,适配 GGUF 量化,轻松在消费级硬件运行视觉语言模型。
深度解析 MiniCPM-V 4.5 多模态大模型,手把手教你完成本地部署。支持高精度 OCR 与长视频理解,基于 Ubuntu 环境,适配 GGUF 量化,轻松在消费级硬件运行视觉语言模型。
AgentCPM-GUI是一款面向安卓系统的开源设备端GUI(图形用户界面)智能代理,核心能力是接收用户自然语言指令与智能手机屏幕截图,通过对GUI元素的识别、理解与推理,自主生...
Engram是由DeepSeek AI开源的大语言模型条件记忆模块,作为混合专家(MoE)之外的互补稀疏性方案,它将经典N-gram嵌入现代化,实现了O(1)时间复杂度的知识查找。该模块通过...
FantasyWorld 是由高德地图(AMAP)与北京邮电大学联合研发的开源 3D 世界建模框架,核心围绕几何一致的世界建模目标,通过在冻结的视频基础模型上增设可训练的几何分支,实...
手把手教你部署 SAM 3 模型!从环境搭建、模型下载到 Web 界面运行,完整教程覆盖 Ubuntu + Conda + Gradio 部署全流程,支持文本/点/框多模态分割提示,低显存友好,即刻体...
MMSI-Video-Bench是一款开源的视频空间智能专项评测基准。该基准聚焦多模态大模型(MLLMs)在视频场景下的空间智能能力评估,构建了覆盖“感知-规划-预测-跨视频推理”的四...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
阿里巴巴Wan团队开源Wan2.2-Animate-14B模型,支持静态图生成高保真角色动画。本文详解Ubuntu系统下基于ComfyUI的本地部署全流程,涵盖环境配置、依赖安装、模型下载与运行...
Open Interpreter是一款开源的大语言模型代码执行工具,核心解决OpenAI官方Code Interpreter托管式、闭源、限制多的痛点,支持在本地环境运行Python、Javascript、Shell等多...
DLCM(Dynamic Large Concept Models)是字节跳动等机构联合推出的开源分层语言建模框架,打破传统LLM的token级均匀计算范式,通过端到端学习语义边界,将计算资源从冗余to...
