LocateAnything:英伟达开源的统一VLM视觉定位模型
一、LocateAnything 是什么
LocateAnything 是英伟达(NVIDIA)联合香港理工大学、普林斯顿大学、南京大学、伊利诺伊大学等高校联合研发、开源发布的统一视觉语言定位检测框架,核心版本为 LocateAnything-3B(30亿参数),核心创新为Parallel Box Decoding(PBD并行框解码),彻底解决传统视觉语言模型(VLM)自回归逐Token解码速度慢、坐标几何关系断裂、密集目标定位精度差的行业痛点。
传统VLM视觉定位会将图像2D边界框拆分为多个独立坐标Token串行生成,解码步数多达十几至二十余步,推理延迟高、高重叠目标边界失真;LocateAnything将边界框、点标注视为完整原子单元,单次并行输出全套坐标,同时自研千万级多领域训练数据集LocateAnything-Data,一套模型统一覆盖6大类视觉定位任务,在单张H100 GPU实测吞吐量、LVIS/COCO/DocLayNet/ScreenSpot-Pro等数十项基准数据集取得SOTA(最优)效果,兼顾轻量化部署、毫秒级推理与高精度定位,适配端侧智能体、文档解析、工业质检、自动化GUI测试等全场景落地需求。
二、功能特色
1. 全任务统一视觉定位(单模型覆盖6大场景)
无需分模型切换,一套框架完成全部空间感知任务:
开放集通用目标检测:自然图像、航拍密集小目标、重叠遮挡物体识别;
GUI界面元素定位:软件按钮、图标、工具框选,支撑AI智能体自动操作软件;
指代表达理解:通过自然语言描述精准框选指定物体(如“灶台控制面板上的五个旋钮”);
OCR文本定位:路牌、印刷文档、表格文字区域精准分割;
文档版面布局识别:区分标题、段落、图表、表格、页眉页脚;
点标注精细定位:像素级单点目标标注,适配细粒度质检、农业图像分析。
2. 三重推理模式自适应切换,平衡速度与精度
Fast快速模式(MTP):全程并行解码,吞吐量最高,适配机器人、实时端侧低延迟场景;
Slow高精度模式(NTP):传统自回归解码,精度上限最高,用于离线数据集标注、高精度质检;
Hybrid混合模式(官方默认):优先并行快速推理,检测到格式异常、密集空间歧义时自动局部切换串行重解码,保留90%以上速度增益,输出稳定无错框。
3. 速度大幅领先同类VLM,密集场景优势显著
单H100 GPU混合模式吞吐量达12.7 BPS(每秒处理框数),是Qwen3-VL的10倍以上、Rex-Omni的2.5倍;图像内目标数量越多加速比越高,300个密集堆叠目标场景可实现2~6倍推理提速,无串行解码延迟暴涨问题。
4. 高IoU精细定位能力突出
对比同类模型,在IoU=0.95超高重合度指标提升幅度最大,针对重叠、遮挡、微小物体边界贴合真实标注,在航拍、种子质检、密集文档场景误差远低于竞品。
5. 轻量化开源易部署
仅3B小参数量,普通消费级RTX 3060/4060、MacBook M系列芯片即可本地运行;兼容Transformers、vLLM、SGLang主流推理框架,提供OpenAI标准API接口,支持Docker一键部署,配套在线Demo、Jupyter教程、预训练权重。
6. 海量多领域训练数据支撑泛化性
自研LocateAnything-Data数据集,包含1200万独立图像、1.38亿语言查询、7.85亿标注边界框,覆盖自然图像、UI界面、文档、航拍、工业、文本6大类场景,解决小模型泛化弱、小众场景漏检问题。

三、技术细节
1. 核心创新:Parallel Box Decoding(PBD并行框解码)
传统三代解码范式对比:
文本数字解码:21步逐一生成单个坐标Token,串行效率极低;
量化坐标解码:10步分段串行,Token间几何关联性丢失;
PBD并行框解码:将单个边界框(x₁,y₁,x₂,y₂)作为完整原子单元,仅2步并行输出整套坐标,天然保留框内几何约束,杜绝坐标错位、畸形框。
推理异常修复机制:并行解码出现格式错乱、密集目标歧义时,自动丢弃错误预测块,回退至可靠前缀,采用NTP串行重解码后切回并行模式,兼顾速度与鲁棒性。
2. 模型整体架构
视觉编码器:Moon-ViT,原生分辨率提取视觉Token,保留细粒度空间细节,保障高精度定位;
跨模态桥接:MLP投影层,将视觉特征转换为语言解码器可识别序列;
语言解码器:Qwen2.5-3B,输出带坐标信息的结构化文本序列,实现图文对齐;
训练策略:MTP并行+NTP串行双流联合训练,同时优化高速推理与精度上限。
3. LocateAnything-Data数据集分布(按查询占比)
通用目标检测66.9%、GUI界面定位16.5%、指代表达理解7.3%、OCR文本定位3.6%、文档版面3.5%、点标注2.2%;整合COCO、LVIS、Object365、ScreenSpot-Pro、DocLayNet、HumanRef等上百套公开数据集,覆盖工业、办公、自动驾驶、机器人全领域标注数据。
4. 性能核心指标(单NVIDIA H100,混合模式)
吞吐量:12.7 BPS;
LVIS平均F1:50.7,IoU0.95指标31.1;
COCO平均F1:54.7;
GUI ScreenSpot-Pro平均F1:60.3;
文档DocLayNet F1:76.8、M6Doc F1:70.1;
密集航拍VisDrone平均F1:39.9。
四、应用场景
多模态AI智能体(GUI Agent)
自动识别软件按钮、菜单、输入框,实现自动化操作浏览器、办公软件,替代人工重复操作,适配自动化测试、办公机器人。文档智能解析
PDF/扫描件版面分割、表格/标题/图片提取、全文OCR文字定位,用于档案数字化、财务票据识别、论文图表抽取。工业视觉质检
高密度堆叠工件、种子、零件计数与缺陷定位,一张图数百重叠目标快速检测,降低人工标注与质检成本。自动驾驶&航拍图像分析
无人机航拍建筑、车辆、植被密集目标识别,交通路况小目标检测,支持海量航拍数据批量处理。开放集图像检索与标注
自定义文字描述检索图像内目标,自动生成标注框,快速构建行业专用数据集,减少人工标注工时。机器人具身感知
家用、工业机器人视觉空间定位,根据语言指令抓取指定物体,低延迟并行推理适配端侧嵌入式设备。图文检索与内容审核
精准定位图像内违规物体、文字区域,用于平台内容安全审核、商品图文检索。
五、使用方法
方式1:HuggingFace在线Demo快速体验
直接访问官方HF演示页面,上传图片、输入自然语言查询,一键生成定位框,无需本地部署,适合快速验证效果。
方式2:本地代码部署(vLLM一键启动)
环境准备:安装PyTorch、vLLM、Transformers依赖包,配备NVIDIA GPU或M系列Mac;
启动服务命令:
vllm serve "nvidia/LocateAnything-3B"
通过标准OpenAI兼容API传入图片+文本提示词,调用定位结果;
官方标准化提示词模板:
目标检测:Locate all the instances that matches the following description: [目标描述]
GUI定位:Locate the region that matches the following description: [界面元素描述]
OCR定位:Locate all text areas in the image.
方式3:云平台一键运行(HyperAI/OpenBayes)
进入云平台教程页面,搜索LocateAnything教程;
克隆教程容器,选择RTX 4090/5090算力与PyTorch镜像;
分配资源后打开Jupyter工作空间,运行Notebook代码,跳转内置可视化Demo。
方式4:微调适配行业私有数据集
加载预训练权重,基于自有行业图像标注数据微调,支持密集小目标、特殊工业物体专属优化,输出适配业务场景的专用模型。
六、竞品对比
选取主流视觉语言定位模型Qwen3-VL、Rex-Omni与LocateAnything-3B横向对比,数据均来自官方论文实测:
| 对比维度 | LocateAnything-3B | Rex-Omni-3B | Qwen3-VL |
|---|---|---|---|
| 核心解码技术 | PBD并行框解码(2步) | 量化坐标串行解码(10步) | 文本Token串行解码(21步) |
| 单H100吞吐量(BPS) | 12.7 | 5.0 | 1.1 |
| LVIS平均F1 | 50.7 | 46.9 | 41.4 |
| ScreenSpot-Pro GUI F1 | 60.3 | 54.2 | 48.1 |
| DocLayNet文档F1 | 76.8 | 70.7 | 63.2 |
| 推理模式 | Fast/Slow/Hybrid三模式 | 仅串行解码单模式 | 仅串行解码单模式 |
| 密集300目标加速比 | 2~6倍 | 1倍基准 | 0.2倍,延迟暴涨 |
| 参数规模 | 3B | 3B | 多尺寸(3B/8B/30B) |
| 开源权重 | HF完整开源 | 开源 | 开源 |
| 核心优势 | 速度+精度双优,全场景统一定位 | 通用检测均衡 | 中文文本理解强 |
| 短板 | 超大文本长图文理解弱 | 密集重叠目标边界失真 | 推理速度极慢,高IoU精度差 |
七、常见问题解答(FAQ)
Q1:LocateAnything支持哪些硬件本地运行?
A:本地部署支持NVIDIA RTX 3060及以上消费级显卡、A/H系列专业GPU;苹果M1/M2/M3系列MacBook可通过CPU/统一内存运行,仅推理速度略低于同规格NVIDIA显卡。
Q2:混合模式(Hybrid)相比纯Fast模式精度下降多少?
A:COCO基准下Fast模式F1=52.2,Hybrid混合模式F1=54.7,仅比Slow高精度模式55.1小幅下降,同时保留12.7BPS高吞吐量,速度损耗极低。
Q3:LocateAnything可以处理视频连续帧定位吗?
A:原生支持单图像批量推理,可搭配帧抽取工具实现视频逐帧目标定位,PBD并行解码能大幅降低批量帧处理耗时,适合短视频批量检测场景。
Q4:模型是否支持中文自然语言查询?
A:原生英文提示词效果最优,同时兼容中文描述输入;若需极致中文GUI、文档定位效果,可基于自有中文标注数据集微调优化。
Q5:LocateAnything-Data数据集是否对外开放下载?
A:官网标注数据集即将开放(Incoming),现阶段开发者可使用预训练模型,或基于公开数据集复现训练流程。
Q6:相比Grounding DINO专用检测模型,LocateAnything优势在哪?
A:Grounding DINO仅支持通用目标检测,无法处理GUI、文档OCR、版面布局任务;LocateAnything单模型覆盖6大类定位任务,同时推理速度更快,密集重叠目标精度更高。
Q7:部署时显存最低需要多少?
A:FP16推理最低8GB显存可加载3B模型,批量处理密集图像建议16GB及以上显存,vLLM推理框架可优化显存占用。
八、官方链接
项目官方主页:https://research.nvidia.com/labs/lpr/locate-anything/
arXiv论文预印本:https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf
HuggingFace模型:https://huggingface.co/nvidia/LocateAnything-3B
GitHub仓库地址:https://github.com/NVlabs/Eagle/tree/main/Embodied
九、总结
LocateAnything是英伟达推出的革新式统一视觉语言定位开源框架,依托独创并行框解码PBD技术打破传统VLM串行推理的速度瓶颈,搭配千万级多领域标注数据集实现速度与定位精度双重突破,3B轻量化小模型即可在通用目标检测、GUI智能体、文档OCR、航拍密集识别等多元场景达到SOTA水准,提供三种自适应推理模式平衡实时性与高精度需求,同时具备极低部署门槛、完整开源生态与标准化API接口,为自动化智能体、工业质检、文档数字化等视觉空间感知业务提供高效、低成本的底层AI基础设施。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/locateanything.html

