LocateAnything：英伟达开源的统一VLM视觉定位模型

原创发布日期：2026-07-03

一、LocateAnything 是什么

LocateAnything 是英伟达（NVIDIA）联合香港理工大学、普林斯顿大学、南京大学、伊利诺伊大学等高校联合研发、开源发布的统一视觉语言定位检测框架，核心版本为 LocateAnything-3B（30亿参数），核心创新为Parallel Box Decoding（PBD并行框解码），彻底解决传统视觉语言模型（VLM）自回归逐Token解码速度慢、坐标几何关系断裂、密集目标定位精度差的行业痛点。

传统VLM视觉定位会将图像2D边界框拆分为多个独立坐标Token串行生成，解码步数多达十几至二十余步，推理延迟高、高重叠目标边界失真；LocateAnything将边界框、点标注视为完整原子单元，单次并行输出全套坐标，同时自研千万级多领域训练数据集LocateAnything-Data，一套模型统一覆盖6大类视觉定位任务，在单张H100 GPU实测吞吐量、LVIS/COCO/DocLayNet/ScreenSpot-Pro等数十项基准数据集取得SOTA（最优）效果，兼顾轻量化部署、毫秒级推理与高精度定位，适配端侧智能体、文档解析、工业质检、自动化GUI测试等全场景落地需求。

二、功能特色

1. 全任务统一视觉定位（单模型覆盖6大场景）

无需分模型切换，一套框架完成全部空间感知任务：

开放集通用目标检测：自然图像、航拍密集小目标、重叠遮挡物体识别；
GUI界面元素定位：软件按钮、图标、工具框选，支撑AI智能体自动操作软件；
指代表达理解：通过自然语言描述精准框选指定物体（如“灶台控制面板上的五个旋钮”）；
OCR文本定位：路牌、印刷文档、表格文字区域精准分割；
文档版面布局识别：区分标题、段落、图表、表格、页眉页脚；
点标注精细定位：像素级单点目标标注，适配细粒度质检、农业图像分析。

2. 三重推理模式自适应切换，平衡速度与精度

Fast快速模式（MTP）：全程并行解码，吞吐量最高，适配机器人、实时端侧低延迟场景；
Slow高精度模式（NTP）：传统自回归解码，精度上限最高，用于离线数据集标注、高精度质检；
Hybrid混合模式（官方默认）：优先并行快速推理，检测到格式异常、密集空间歧义时自动局部切换串行重解码，保留90%以上速度增益，输出稳定无错框。

3. 速度大幅领先同类VLM，密集场景优势显著

单H100 GPU混合模式吞吐量达12.7 BPS（每秒处理框数），是Qwen3-VL的10倍以上、Rex-Omni的2.5倍；图像内目标数量越多加速比越高，300个密集堆叠目标场景可实现2~6倍推理提速，无串行解码延迟暴涨问题。

4. 高IoU精细定位能力突出

对比同类模型，在IoU=0.95超高重合度指标提升幅度最大，针对重叠、遮挡、微小物体边界贴合真实标注，在航拍、种子质检、密集文档场景误差远低于竞品。

5. 轻量化开源易部署

仅3B小参数量，普通消费级RTX 3060/4060、MacBook M系列芯片即可本地运行；兼容Transformers、vLLM、SGLang主流推理框架，提供OpenAI标准API接口，支持Docker一键部署，配套在线Demo、Jupyter教程、预训练权重。

6. 海量多领域训练数据支撑泛化性

自研LocateAnything-Data数据集，包含1200万独立图像、1.38亿语言查询、7.85亿标注边界框，覆盖自然图像、UI界面、文档、航拍、工业、文本6大类场景，解决小模型泛化弱、小众场景漏检问题。

LocateAnything：英伟达开源的统一VLM视觉定位模型

三、技术细节

1. 核心创新：Parallel Box Decoding（PBD并行框解码）

传统三代解码范式对比：

文本数字解码：21步逐一生成单个坐标Token，串行效率极低；
量化坐标解码：10步分段串行，Token间几何关联性丢失；
PBD并行框解码：将单个边界框(x₁,y₁,x₂,y₂)作为完整原子单元，仅2步并行输出整套坐标，天然保留框内几何约束，杜绝坐标错位、畸形框。

推理异常修复机制：并行解码出现格式错乱、密集目标歧义时，自动丢弃错误预测块，回退至可靠前缀，采用NTP串行重解码后切回并行模式，兼顾速度与鲁棒性。

2. 模型整体架构

视觉编码器：Moon-ViT，原生分辨率提取视觉Token，保留细粒度空间细节，保障高精度定位；
跨模态桥接：MLP投影层，将视觉特征转换为语言解码器可识别序列；
语言解码器：Qwen2.5-3B，输出带坐标信息的结构化文本序列，实现图文对齐；
训练策略：MTP并行+NTP串行双流联合训练，同时优化高速推理与精度上限。

3. LocateAnything-Data数据集分布（按查询占比）

通用目标检测66.9%、GUI界面定位16.5%、指代表达理解7.3%、OCR文本定位3.6%、文档版面3.5%、点标注2.2%；整合COCO、LVIS、Object365、ScreenSpot-Pro、DocLayNet、HumanRef等上百套公开数据集，覆盖工业、办公、自动驾驶、机器人全领域标注数据。

4. 性能核心指标（单NVIDIA H100，混合模式）

吞吐量：12.7 BPS；
LVIS平均F1：50.7，IoU0.95指标31.1；
COCO平均F1：54.7；
GUI ScreenSpot-Pro平均F1：60.3；
文档DocLayNet F1：76.8、M6Doc F1：70.1；
密集航拍VisDrone平均F1：39.9。

四、应用场景

多模态AI智能体（GUI Agent）
自动识别软件按钮、菜单、输入框，实现自动化操作浏览器、办公软件，替代人工重复操作，适配自动化测试、办公机器人。
文档智能解析
PDF/扫描件版面分割、表格/标题/图片提取、全文OCR文字定位，用于档案数字化、财务票据识别、论文图表抽取。
工业视觉质检
高密度堆叠工件、种子、零件计数与缺陷定位，一张图数百重叠目标快速检测，降低人工标注与质检成本。
自动驾驶&航拍图像分析
无人机航拍建筑、车辆、植被密集目标识别，交通路况小目标检测，支持海量航拍数据批量处理。
开放集图像检索与标注
自定义文字描述检索图像内目标，自动生成标注框，快速构建行业专用数据集，减少人工标注工时。
机器人具身感知
家用、工业机器人视觉空间定位，根据语言指令抓取指定物体，低延迟并行推理适配端侧嵌入式设备。
图文检索与内容审核
精准定位图像内违规物体、文字区域，用于平台内容安全审核、商品图文检索。

五、使用方法

方式1：HuggingFace在线Demo快速体验

直接访问官方HF演示页面，上传图片、输入自然语言查询，一键生成定位框，无需本地部署，适合快速验证效果。

方式2：本地代码部署（vLLM一键启动）

环境准备：安装PyTorch、vLLM、Transformers依赖包，配备NVIDIA GPU或M系列Mac；
启动服务命令：

vllm serve "nvidia/LocateAnything-3B"

通过标准OpenAI兼容API传入图片+文本提示词，调用定位结果；
官方标准化提示词模板：

目标检测：Locate all the instances that matches the following description: [目标描述]
GUI定位：Locate the region that matches the following description: [界面元素描述]
OCR定位：Locate all text areas in the image.

方式3：云平台一键运行（HyperAI/OpenBayes）

进入云平台教程页面，搜索LocateAnything教程；
克隆教程容器，选择RTX 4090/5090算力与PyTorch镜像；
分配资源后打开Jupyter工作空间，运行Notebook代码，跳转内置可视化Demo。

方式4：微调适配行业私有数据集

加载预训练权重，基于自有行业图像标注数据微调，支持密集小目标、特殊工业物体专属优化，输出适配业务场景的专用模型。

六、竞品对比

选取主流视觉语言定位模型Qwen3-VL、Rex-Omni与LocateAnything-3B横向对比，数据均来自官方论文实测：

对比维度	LocateAnything-3B	Rex-Omni-3B	Qwen3-VL
核心解码技术	PBD并行框解码（2步）	量化坐标串行解码（10步）	文本Token串行解码（21步）
单H100吞吐量（BPS）	12.7	5.0	1.1
LVIS平均F1	50.7	46.9	41.4
ScreenSpot-Pro GUI F1	60.3	54.2	48.1
DocLayNet文档F1	76.8	70.7	63.2
推理模式	Fast/Slow/Hybrid三模式	仅串行解码单模式	仅串行解码单模式
密集300目标加速比	2~6倍	1倍基准	0.2倍，延迟暴涨
参数规模	3B	3B	多尺寸（3B/8B/30B）
开源权重	HF完整开源	开源	开源
核心优势	速度+精度双优，全场景统一定位	通用检测均衡	中文文本理解强
短板	超大文本长图文理解弱	密集重叠目标边界失真	推理速度极慢，高IoU精度差

七、常见问题解答（FAQ）

Q1：LocateAnything支持哪些硬件本地运行？

A：本地部署支持NVIDIA RTX 3060及以上消费级显卡、A/H系列专业GPU；苹果M1/M2/M3系列MacBook可通过CPU/统一内存运行，仅推理速度略低于同规格NVIDIA显卡。

Q2：混合模式（Hybrid）相比纯Fast模式精度下降多少？

A：COCO基准下Fast模式F1=52.2，Hybrid混合模式F1=54.7，仅比Slow高精度模式55.1小幅下降，同时保留12.7BPS高吞吐量，速度损耗极低。

Q3：LocateAnything可以处理视频连续帧定位吗？

A：原生支持单图像批量推理，可搭配帧抽取工具实现视频逐帧目标定位，PBD并行解码能大幅降低批量帧处理耗时，适合短视频批量检测场景。

Q4：模型是否支持中文自然语言查询？

A：原生英文提示词效果最优，同时兼容中文描述输入；若需极致中文GUI、文档定位效果，可基于自有中文标注数据集微调优化。

Q5：LocateAnything-Data数据集是否对外开放下载？

A：官网标注数据集即将开放（Incoming），现阶段开发者可使用预训练模型，或基于公开数据集复现训练流程。

Q6：相比Grounding DINO专用检测模型，LocateAnything优势在哪？

A：Grounding DINO仅支持通用目标检测，无法处理GUI、文档OCR、版面布局任务；LocateAnything单模型覆盖6大类定位任务，同时推理速度更快，密集重叠目标精度更高。

Q7：部署时显存最低需要多少？

A：FP16推理最低8GB显存可加载3B模型，批量处理密集图像建议16GB及以上显存，vLLM推理框架可优化显存占用。

八、官方链接

项目官方主页：https://research.nvidia.com/labs/lpr/locate-anything/
arXiv论文预印本：https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf
HuggingFace模型：https://huggingface.co/nvidia/LocateAnything-3B
GitHub仓库地址：https://github.com/NVlabs/Eagle/tree/main/Embodied

九、总结

LocateAnything是英伟达推出的革新式统一视觉语言定位开源框架，依托独创并行框解码PBD技术打破传统VLM串行推理的速度瓶颈，搭配千万级多领域标注数据集实现速度与定位精度双重突破，3B轻量化小模型即可在通用目标检测、GUI智能体、文档OCR、航拍密集识别等多元场景达到SOTA水准，提供三种自适应推理模式平衡实时性与高精度需求，同时具备极低部署门槛、完整开源生态与标准化API接口，为自动化智能体、工业质检、文档数字化等视觉空间感知业务提供高效、低成本的底层AI基础设施。

视觉语言模型开源大模型

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/locateanything.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

LocateAnything：英伟达开源的统一VLM视觉定位模型

文章目录

一、LocateAnything 是什么

二、功能特色

1. 全任务统一视觉定位（单模型覆盖6大场景）

2. 三重推理模式自适应切换，平衡速度与精度

3. 速度大幅领先同类VLM，密集场景优势显著

4. 高IoU精细定位能力突出

5. 轻量化开源易部署

6. 海量多领域训练数据支撑泛化性

三、技术细节

1. 核心创新：Parallel Box Decoding（PBD并行框解码）

2. 模型整体架构

3. LocateAnything-Data数据集分布（按查询占比）

4. 性能核心指标（单NVIDIA H100，混合模式）

四、应用场景

五、使用方法

方式1：HuggingFace在线Demo快速体验

方式2：本地代码部署（vLLM一键启动）

方式3：云平台一键运行（HyperAI/OpenBayes）

方式4：微调适配行业私有数据集

六、竞品对比

七、常见问题解答（FAQ）

八、官方链接

九、总结

相关文章