LocateAnything:英伟达开源的统一VLM视觉定位模型

原创 发布日期:
61

一、LocateAnything 是什么

LocateAnything 是英伟达(NVIDIA)联合香港理工大学、普林斯顿大学、南京大学、伊利诺伊大学等高校联合研发、开源发布的统一视觉语言定位检测框架,核心版本为 LocateAnything-3B(30亿参数),核心创新为Parallel Box Decoding(PBD并行框解码),彻底解决传统视觉语言模型(VLM)自回归逐Token解码速度慢、坐标几何关系断裂、密集目标定位精度差的行业痛点。

传统VLM视觉定位会将图像2D边界框拆分为多个独立坐标Token串行生成,解码步数多达十几至二十余步,推理延迟高、高重叠目标边界失真;LocateAnything将边界框、点标注视为完整原子单元,单次并行输出全套坐标,同时自研千万级多领域训练数据集LocateAnything-Data,一套模型统一覆盖6大类视觉定位任务,在单张H100 GPU实测吞吐量、LVIS/COCO/DocLayNet/ScreenSpot-Pro等数十项基准数据集取得SOTA(最优)效果,兼顾轻量化部署、毫秒级推理与高精度定位,适配端侧智能体、文档解析、工业质检、自动化GUI测试等全场景落地需求。

二、功能特色

1. 全任务统一视觉定位(单模型覆盖6大场景)

无需分模型切换,一套框架完成全部空间感知任务:

  • 开放集通用目标检测:自然图像、航拍密集小目标、重叠遮挡物体识别;

  • GUI界面元素定位:软件按钮、图标、工具框选,支撑AI智能体自动操作软件;

  • 指代表达理解:通过自然语言描述精准框选指定物体(如“灶台控制面板上的五个旋钮”);

  • OCR文本定位:路牌、印刷文档、表格文字区域精准分割;

  • 文档版面布局识别:区分标题、段落、图表、表格、页眉页脚;

  • 点标注精细定位:像素级单点目标标注,适配细粒度质检、农业图像分析。

2. 三重推理模式自适应切换,平衡速度与精度

  • Fast快速模式(MTP):全程并行解码,吞吐量最高,适配机器人、实时端侧低延迟场景;

  • Slow高精度模式(NTP):传统自回归解码,精度上限最高,用于离线数据集标注、高精度质检;

  • Hybrid混合模式(官方默认):优先并行快速推理,检测到格式异常、密集空间歧义时自动局部切换串行重解码,保留90%以上速度增益,输出稳定无错框。

3. 速度大幅领先同类VLM,密集场景优势显著

单H100 GPU混合模式吞吐量达12.7 BPS(每秒处理框数),是Qwen3-VL的10倍以上、Rex-Omni的2.5倍;图像内目标数量越多加速比越高,300个密集堆叠目标场景可实现2~6倍推理提速,无串行解码延迟暴涨问题。

4. 高IoU精细定位能力突出

对比同类模型,在IoU=0.95超高重合度指标提升幅度最大,针对重叠、遮挡、微小物体边界贴合真实标注,在航拍、种子质检、密集文档场景误差远低于竞品。

5. 轻量化开源易部署

仅3B小参数量,普通消费级RTX 3060/4060、MacBook M系列芯片即可本地运行;兼容Transformers、vLLM、SGLang主流推理框架,提供OpenAI标准API接口,支持Docker一键部署,配套在线Demo、Jupyter教程、预训练权重。

6. 海量多领域训练数据支撑泛化性

自研LocateAnything-Data数据集,包含1200万独立图像、1.38亿语言查询、7.85亿标注边界框,覆盖自然图像、UI界面、文档、航拍、工业、文本6大类场景,解决小模型泛化弱、小众场景漏检问题。

LocateAnything:英伟达开源的统一VLM视觉定位模型

三、技术细节

1. 核心创新:Parallel Box Decoding(PBD并行框解码)

传统三代解码范式对比:

  1. 文本数字解码:21步逐一生成单个坐标Token,串行效率极低;

  2. 量化坐标解码:10步分段串行,Token间几何关联性丢失;

  3. PBD并行框解码:将单个边界框(x₁,y₁,x₂,y₂)作为完整原子单元,仅2步并行输出整套坐标,天然保留框内几何约束,杜绝坐标错位、畸形框。

推理异常修复机制:并行解码出现格式错乱、密集目标歧义时,自动丢弃错误预测块,回退至可靠前缀,采用NTP串行重解码后切回并行模式,兼顾速度与鲁棒性。

2. 模型整体架构

视觉编码器:Moon-ViT,原生分辨率提取视觉Token,保留细粒度空间细节,保障高精度定位;
跨模态桥接:MLP投影层,将视觉特征转换为语言解码器可识别序列;
语言解码器:Qwen2.5-3B,输出带坐标信息的结构化文本序列,实现图文对齐;
训练策略:MTP并行+NTP串行双流联合训练,同时优化高速推理与精度上限。

3. LocateAnything-Data数据集分布(按查询占比)

通用目标检测66.9%、GUI界面定位16.5%、指代表达理解7.3%、OCR文本定位3.6%、文档版面3.5%、点标注2.2%;整合COCO、LVIS、Object365、ScreenSpot-Pro、DocLayNet、HumanRef等上百套公开数据集,覆盖工业、办公、自动驾驶、机器人全领域标注数据。

4. 性能核心指标(单NVIDIA H100,混合模式)

  • 吞吐量:12.7 BPS;

  • LVIS平均F1:50.7,IoU0.95指标31.1;

  • COCO平均F1:54.7;

  • GUI ScreenSpot-Pro平均F1:60.3;

  • 文档DocLayNet F1:76.8、M6Doc F1:70.1;

  • 密集航拍VisDrone平均F1:39.9。

四、应用场景

  1. 多模态AI智能体(GUI Agent)
    自动识别软件按钮、菜单、输入框,实现自动化操作浏览器、办公软件,替代人工重复操作,适配自动化测试、办公机器人。

  2. 文档智能解析
    PDF/扫描件版面分割、表格/标题/图片提取、全文OCR文字定位,用于档案数字化、财务票据识别、论文图表抽取。

  3. 工业视觉质检
    高密度堆叠工件、种子、零件计数与缺陷定位,一张图数百重叠目标快速检测,降低人工标注与质检成本。

  4. 自动驾驶&航拍图像分析
    无人机航拍建筑、车辆、植被密集目标识别,交通路况小目标检测,支持海量航拍数据批量处理。

  5. 开放集图像检索与标注
    自定义文字描述检索图像内目标,自动生成标注框,快速构建行业专用数据集,减少人工标注工时。

  6. 机器人具身感知
    家用、工业机器人视觉空间定位,根据语言指令抓取指定物体,低延迟并行推理适配端侧嵌入式设备。

  7. 图文检索与内容审核
    精准定位图像内违规物体、文字区域,用于平台内容安全审核、商品图文检索。

五、使用方法

方式1:HuggingFace在线Demo快速体验

直接访问官方HF演示页面,上传图片、输入自然语言查询,一键生成定位框,无需本地部署,适合快速验证效果。

方式2:本地代码部署(vLLM一键启动)

  1. 环境准备:安装PyTorch、vLLM、Transformers依赖包,配备NVIDIA GPU或M系列Mac;

  2. 启动服务命令:

vllm serve "nvidia/LocateAnything-3B"
  1. 通过标准OpenAI兼容API传入图片+文本提示词,调用定位结果;

  2. 官方标准化提示词模板:

  • 目标检测:Locate all the instances that matches the following description: [目标描述]

  • GUI定位:Locate the region that matches the following description: [界面元素描述]

  • OCR定位:Locate all text areas in the image.

方式3:云平台一键运行(HyperAI/OpenBayes)

  1. 进入云平台教程页面,搜索LocateAnything教程;

  2. 克隆教程容器,选择RTX 4090/5090算力与PyTorch镜像;

  3. 分配资源后打开Jupyter工作空间,运行Notebook代码,跳转内置可视化Demo。

方式4:微调适配行业私有数据集

加载预训练权重,基于自有行业图像标注数据微调,支持密集小目标、特殊工业物体专属优化,输出适配业务场景的专用模型。

六、竞品对比

选取主流视觉语言定位模型Qwen3-VL、Rex-Omni与LocateAnything-3B横向对比,数据均来自官方论文实测:

对比维度 LocateAnything-3B Rex-Omni-3B Qwen3-VL
核心解码技术 PBD并行框解码(2步) 量化坐标串行解码(10步) 文本Token串行解码(21步)
单H100吞吐量(BPS) 12.7 5.0 1.1
LVIS平均F1 50.7 46.9 41.4
ScreenSpot-Pro GUI F1 60.3 54.2 48.1
DocLayNet文档F1 76.8 70.7 63.2
推理模式 Fast/Slow/Hybrid三模式 仅串行解码单模式 仅串行解码单模式
密集300目标加速比 2~6倍 1倍基准 0.2倍,延迟暴涨
参数规模 3B 3B 多尺寸(3B/8B/30B)
开源权重 HF完整开源 开源 开源
核心优势 速度+精度双优,全场景统一定位 通用检测均衡 中文文本理解强
短板 超大文本长图文理解弱 密集重叠目标边界失真 推理速度极慢,高IoU精度差

七、常见问题解答(FAQ)

Q1:LocateAnything支持哪些硬件本地运行?

A:本地部署支持NVIDIA RTX 3060及以上消费级显卡、A/H系列专业GPU;苹果M1/M2/M3系列MacBook可通过CPU/统一内存运行,仅推理速度略低于同规格NVIDIA显卡。

Q2:混合模式(Hybrid)相比纯Fast模式精度下降多少?

A:COCO基准下Fast模式F1=52.2,Hybrid混合模式F1=54.7,仅比Slow高精度模式55.1小幅下降,同时保留12.7BPS高吞吐量,速度损耗极低。

Q3:LocateAnything可以处理视频连续帧定位吗?

A:原生支持单图像批量推理,可搭配帧抽取工具实现视频逐帧目标定位,PBD并行解码能大幅降低批量帧处理耗时,适合短视频批量检测场景。

Q4:模型是否支持中文自然语言查询?

A:原生英文提示词效果最优,同时兼容中文描述输入;若需极致中文GUI、文档定位效果,可基于自有中文标注数据集微调优化。

Q5:LocateAnything-Data数据集是否对外开放下载?

A:官网标注数据集即将开放(Incoming),现阶段开发者可使用预训练模型,或基于公开数据集复现训练流程。

Q6:相比Grounding DINO专用检测模型,LocateAnything优势在哪?

A:Grounding DINO仅支持通用目标检测,无法处理GUI、文档OCR、版面布局任务;LocateAnything单模型覆盖6大类定位任务,同时推理速度更快,密集重叠目标精度更高。

Q7:部署时显存最低需要多少?

A:FP16推理最低8GB显存可加载3B模型,批量处理密集图像建议16GB及以上显存,vLLM推理框架可优化显存占用。

八、官方链接

  1. 项目官方主页:https://research.nvidia.com/labs/lpr/locate-anything/

  2. arXiv论文预印本:https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

  3. HuggingFace模型:https://huggingface.co/nvidia/LocateAnything-3B

  4. GitHub仓库地址:https://github.com/NVlabs/Eagle/tree/main/Embodied

九、总结

LocateAnything是英伟达推出的革新式统一视觉语言定位开源框架,依托独创并行框解码PBD技术打破传统VLM串行推理的速度瓶颈,搭配千万级多领域标注数据集实现速度与定位精度双重突破,3B轻量化小模型即可在通用目标检测、GUI智能体、文档OCR、航拍密集识别等多元场景达到SOTA水准,提供三种自适应推理模式平衡实时性与高精度需求,同时具备极低部署门槛、完整开源生态与标准化API接口,为自动化智能体、工业质检、文档数字化等视觉空间感知业务提供高效、低成本的底层AI基础设施。

打赏
THE END
作者头像
97ai
我不是在训练模型,而是在与未来的自己对话。