手把手教你部署 SAM 3 模型:从环境搭建到 Web 界面运行

算家计算 发布日期:
74

引言

随着人工智能在计算机视觉领域的不断突破,可提示分割模型(Promptable Segmentation Models)正成为图像与视频理解的核心工具。SAM 3 作为最新一代统一基础模型,不仅支持图像和视频中基于点、框、掩码乃至文本提示的对象分割,更首次实现了对开放词汇概念的全面识别与实例分割。凭借创新的数据引擎和全新架构设计,SAM 3 在 SA-CO 基准上达到人类表现的 75–80%,覆盖高达 27 万个独特概念,是当前最先进、最强大的开源分割模型之一。本文将手把手带你从零开始部署 SAM 3 模型——涵盖环境配置、依赖安装、模型下载到 Web 可视化界面搭建全过程,助你快速构建本地可交互的智能分割系统。

一、模型介绍

SAM 3 是一个统一的基础模型,用于图像和视频中的可提示分割。它可以使用文本或视觉提示(如点、框和掩码)来检测、分割和跟踪对象。与它的前身 SAM 2 相比,SAM 3 引入了根据简短的文本短语或示例详尽地分割所有开放词汇概念实例的能力。与先前的工作不同,SAM 3 可以处理更大范围的开放词汇提示。在新 SA-CO 基准测试 上,它达到了人类表现的 75-80%,该基准包含 27 万个独特概念,比现有基准多出 50 多倍。

这一突破得益于一个创新的数据引擎,该引擎已自动注释超过 400 万个独特概念,创建了迄今为止最大的高质量开放词汇细分数据集。此外,SAM 3 引入了一种新的模型架构,具有一种存在令牌,能够更好地区分密切相关的文本提示(例如,“白衣玩家”与“红衣玩家”),以及一种解耦的检测器-追踪器设计,以最大限度减少任务干扰并高效扩展数据。

b86badc7_16012914

更多详情请见:sam3 · 模型库

二、部署流程

基础环境推荐:

环境名称 版本信息
Ubuntu 22.04.4 LTS
Cuda V12.4
Python 3.12
NVIDIA Corporation RTX 4090

注:该模型对于显存占用要求较低。

1.更新基础软件包

查看系统版本信息

#查看系统的版本信息,包括 ID(如 ubuntu、centos 等)、版本号、名称、版本号 ID 等
cat /etc/os-release

411b2758_16012914

更新软件包列表

#更新软件列表
apt-get update

9ec910b8_16012914

2.创建虚拟环境

创建虚拟环境

#创建名为DeepSeek-OCR的虚拟环境,python版本:3.12
conda create -n sam3 python=3.12

9cf03f32_16012914

激活虚拟环境

conda activate sam3

ac8c9553_16012914

3.克隆仓库、安装依赖

特别的,如需要该模型可视化访问页面,这里推荐 huggingface 上官方给出的 gradio 页面模板

git clone https://huggingface.co/spaces/hasanbasbunar/SAM3

806d814d_16012914

同样的,使用该模板,也需要进入SAM3 目录下,安装所需依赖项

04da55d5_16012914

4.模型下载

这里推荐转到魔塔社区官网下载模型文件:sam3 · 模型库

271d9f5e_16012914

使用命令行下载完整模型库

#在下载前,请先通过如下命令安装
pip install modelscope

1318c153_16012914

转到根目录下,创建 model 目录用于存放模型权重文件,在使用命令行下载 modelscope download --model 'facebook/sam3 ' --local_dir './'

cd /
mkdir model 
cd model
modelscope download --model 'facebook/sam3' --local_dir './'

2808d3b9_16012914

5.修改 web 页面启动脚本

进入 /DeepSeek-OCR/DeepSeek-OCR-Demo 目录,修改其中的 web 启动代码 app.py:

vim /SAM3/app.py

将模型的加载路径改为本地路径 /model/ , 以及 lunch 加载函数中设置 share=False,server_name='0.0.0.0',server_port=8080

60fe4d5d_16012914

e7877354_16012914

6.运行脚本

#执行修改好的 app.py 文件
python app.py

23256c21_16012914

7.web 页面展示

将网址:http://localhost:8080/粘贴到浏览器中,便可与模型进行对话

942b24e4_16012914

总结

通过本文的详细教程,你已经完成了 SAM 3 模型的完整本地部署流程:从 Ubuntu 系统下的 Python 虚拟环境搭建,到模型权重下载、Gradio Web 页面配置,最终成功运行可视化界面并实现多模态提示分割。无论是科研实验还是工程应用,这套部署方案都具备高稳定性与低显存占用优势,特别适合个人开发者和中小企业快速集成。未来,随着开放词汇分割技术的发展,SAM 3 将在自动驾驶、医疗影像分析、视频编辑等领域发挥更大价值。立即动手部署,开启你的智能视觉分割之旅!

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法