UniPixel：香港理工大学联合腾讯开源的像素级视觉语言统一理解模型

原创发布日期：2025-10-18

一、UniPixel是什么？

UniPixel是由香港理工大学、腾讯ARC实验室等机构联合开发的开源多模态大模型（MLLM），专注于像素级视觉语言理解与细粒度推理任务。该模型基于Qwen2.5-VL系列扩展，融合视觉分割与语言理解能力，支持图像/视频分割、区域级理解及创新的PixelQA任务（结合目标分割与问答）。通过统一框架实现多任务兼容，在多个公开基准测试中表现优异，提供预训练模型、开源数据集及便捷的本地/在线使用工具，适用于智能编辑、视觉分析等多场景，为研究者和开发者提供了高效的像素级视觉语言解决方案。

该项目的开发背景源于当前多模态模型在细粒度任务中的不足：传统视觉语言模型擅长图像描述、物体识别等粗粒度任务，但在“根据文字指令分割视频中某一动态物体”“定位图像中‘左手边第三个红色物体’并回答其属性”等细粒度任务中表现薄弱。UniPixel通过统一的任务建模方式，将分割、定位、问答等任务转化为“语言指令引导的像素级推理”问题，实现了多任务的高效兼容。

从学术与开发团队来看，UniPixel由香港理工大学陈颖实验室（PolyU-ChenLab）联合腾讯ARC实验室等机构共同研发，相关研究论文已被NeurIPS 2025（神经信息处理系统大会，人工智能领域顶级会议）接收，兼具学术严谨性与工程实用性。

二、功能特色

UniPixel的核心优势在于“统一框架下的多任务支持”与“像素级推理精度”，具体功能特色如下：

1. 覆盖多类细粒度视觉语言任务

UniPixel突破了传统模型“单任务专用”的局限，通过自然语言提示（Prompt）即可驱动多种任务，无需针对不同任务切换模型或调整输入格式。具体支持的任务类型如下表所示：

任务类别	具体任务示例	支持输入形式	典型应用场景	核心输出形式
图像分割	指代分割（如“分割图中的猫”）	单张图像+文字指令	图像编辑、物体提取	分割掩码（像素级）
视频分割	视频动态目标分割（如“分割视频中的跑步者”）	视频文件/帧文件夹+文字指令	视频剪辑、动作分析	逐帧分割掩码
区域级理解	目标定位与属性描述（如“指出图中最大的建筑并说明颜色”）	图像/视频+文字指令	视觉内容分析、智能标注	坐标+文字描述
PixelQA（创新任务）	视频分割+问答（如“分割视频中的狗，并回答它在做什么”）	视频+复合指令	智能监控、视频内容检索	分割掩码+答案文字

2. 灵活的输入与输出方式

输入兼容性强：支持单张图像（JPG/PNG等格式）、视频文件（MP4等格式）或视频帧文件夹（批量图片）作为视觉输入，配合自然语言指令即可触发任务，无需复杂的格式预处理。
输出形式多样：根据任务类型动态生成输出，例如分割任务输出像素级掩码（可直接用于图像编辑软件），问答任务输出自然语言答案，区域理解任务同时输出坐标与文字描述，满足不同下游需求。

3. 优异的性能表现

在多个公开基准测试中，UniPixel的性能优于同量级模型，尤其在像素级任务中表现突出。以下为核心任务的关键指标（对比同参数规模模型）：

图像指代分割：在RefCOCO（通用物体指代）、RefCOCO+（更复杂场景）等数据集上，3B模型准确率达78.5%，7B模型达83.0%，超过同类开源模型10%-15%。
视频分割：在ReVOS（视频目标分割）、Ref-YouTube-VOS（指代视频分割）等数据集上，7B模型的J&F指标（分割精度综合指标）达76.4，接近专用视频分割模型水平。
零样本泛化能力：在MVBench（多模态视频基准）中，无需针对特定任务微调，7B模型准确率达64.3%，证明其跨场景适应能力。

4. 开源资源丰富

项目提供完整的开源生态，降低使用门槛：

预训练模型：直接提供UniPixel-3B和UniPixel-7B的预训练权重（托管于Hugging Face），支持直接下载推理。
训练数据集：开源UniPixel-SFT-1M数据集，包含23个公开数据集（如COCO、YouTube-VOS等）的100万条预处理样本，覆盖分割、问答等任务，可用于模型微调。
工具链完整：提供推理、训练、评估的一站式脚本，集成Gradio演示工具，支持本地部署与在线交互。

UniPixel：香港理工大学联合腾讯开源的像素级视觉语言统一理解模型

三、技术细节

UniPixel的技术核心是“在Qwen2.5-VL基础上融合像素级分割能力”，通过模块化设计实现多任务统一，具体技术细节如下：

1. 模型架构

UniPixel的架构基于Qwen2.5-VL扩展，保留其“视觉编码器-语言解码器”的基础结构，新增分割感知模块与像素级指令解析器，整体架构分为三部分：

视觉编码器：复用Qwen2.5-VL的视觉编码器（基于ViT-L/14），负责将图像/视频帧转化为视觉特征（分辨率为14×14的特征图，对应输入图像的像素级信息）。
分割感知模块：引入SAM2（Segment Anything Model v2）的位置编码与掩码生成组件，将视觉特征与“目标区域”的空间信息绑定，支持从特征图中定位并提取特定区域的像素级特征。
语言解码器：基于Qwen2.5-VL的语言模型（3B/7B参数）扩展，新增“像素-语言对齐”训练目标，使解码器能根据文字指令生成分割掩码坐标或自然语言答案，实现“指令→特征→输出”的端到端映射。

2. 训练数据与方法

训练数据：核心依赖UniPixel-SFT-1M数据集，该数据集通过以下方式构建：

收集23个公开数据集（涵盖图像分割、视频分割、视觉问答等任务）；
统一格式为“视觉输入（图像/视频帧）+ 文字指令 + 目标输出（掩码/答案）”；
进行数据清洗（如去除模糊样本）与增强（如随机裁剪、颜色抖动），最终保留100万条高质量样本。

训练策略：采用“预训练→微调”两阶段模式：

预训练：在大规模图像-文本对（如LAION-5B）上训练，使模型掌握基础视觉语言对齐能力；
微调：在UniPixel-SFT-1M上进行监督微调（SFT），优化分割掩码生成与细粒度问答能力，训练过程中使用：

DeepSpeed ZeRO-3：支持多设备/多节点分布式训练，降低内存占用；
BF16混合精度：加速训练并减少显存消耗；
LoRA（Low-Rank Adaptation）：仅微调部分参数，提升训练效率（尤其适用于3B/7B模型）。

3. 推理流程

UniPixel的推理过程可概括为“指令解析→特征定位→输出生成”三步骤，以“视频中分割‘正在跳跃的人’并回答其数量”为例：

指令解析：语言解码器将输入指令（“分割视频中正在跳跃的人，并回答有几个”）拆解为“分割任务”与“计数任务”；
特征定位：视觉编码器提取视频帧特征，分割感知模块根据“跳跃的人”的语义，在特征图中定位目标区域，生成像素级掩码；
输出生成：语言解码器基于掩码计算目标数量，同时输出逐帧分割掩码与答案（如“2人”）。

4. 模型版本对比

项目提供两个版本的预训练模型，核心参数与适用场景如下表：

模型版本	基础模型	参数规模	推理速度（单帧图像）	适用场景	关键性能（RefCOCO准确率）
UniPixel-3B	Qwen2.5-VL-3B-Instruct	30亿	~0.5秒（GPU：A100）	轻量部署、实时性要求高的场景	78.5%
UniPixel-7B	Qwen2.5-VL-7B-Instruct	70亿	~1.2秒（GPU：A100）	高精度任务、复杂场景	83.0%

四、应用场景

UniPixel的像素级视觉语言理解能力使其在多个领域具有实用价值，典型应用场景如下：

1. 智能视频/图像编辑

传统图像编辑中，“分割特定物体”需要手动框选或依赖简单算法（如边缘检测），效率低且精度差。UniPixel可通过文字指令直接生成分割掩码，支持：

图像编辑：如“分割图中的蓝天并替换为晚霞”“去除照片中的背包”，掩码可直接导入Photoshop等工具使用；
视频剪辑：如“分割视频中所有的汽车并打码”“保留视频中的主角，模糊背景”，逐帧掩码可批量应用于视频处理软件。

2. 视觉内容分析与检索

在安防、媒体等领域，需要从海量视觉数据中定位特定内容，UniPixel可实现：

智能监控：如“从商场监控视频中分割出未戴口罩的人，并统计数量”；
内容检索：如“在电影片段中找到‘穿红色裙子的女主角’出现的所有帧，并分割出她的位置”。

3. 辅助驾驶与机器人感知

自动驾驶和机器人需要理解复杂场景中的动态目标，UniPixel可支持：

动态目标分割：如“分割前方车辆中正在开门的行人”，为避障决策提供像素级位置信息；
环境交互：如机器人接收到指令“拿起桌子上的蓝色杯子”，UniPixel可分割杯子位置并输出坐标，引导机械臂操作。

4. 教育与科研工具

教学演示：在计算机视觉课程中，通过UniPixel的可视化输出（如分割掩码生成过程），直观展示“视觉语言对齐”原理；
快速原型开发：研究者可基于UniPixel的预训练模型，快速验证新任务（如“医学影像中分割肿瘤并回答其大小”）的可行性，减少重复开发。

UniPixel：香港理工大学联合腾讯开源的像素级视觉语言统一理解模型

五、使用方法

UniPixel提供了推理、训练、评估的完整工具链，支持本地部署与在线交互，以下为核心使用步骤：

1. 环境准备

硬件要求：推理至少需要16GB显存（3B模型）或32GB显存（7B模型）的GPU（如NVIDIA A100、RTX 4090）；训练需多GPU或分布式集群（推荐8×A100）。
软件依赖：Python 3.8+，PyTorch 2.0+，以及transformers、accelerate、deepspeed、gradio等库，可通过以下命令安装：

 pip install -r requirements.txt

2. 推理：处理自定义数据

通过tools/inference.py脚本可直接对图像或视频进行推理，支持分割、问答等任务，示例如下：

图像分割示例：

 # 导出项目路径
 export PYTHONPATH="./:$PYTHONPATH"
 # 对example.jpg执行“分割兔子”任务
 python tools/inference.py example.jpg 'Please segment the rabbit' --output_dir ./results

输出：在./results文件夹中生成分割掩码图像（与输入图像同尺寸，掩码区域为白色）。

视频PixelQA示例：

 # 对example.mp4执行“分割狗并回答它在做什么”任务
 python tools/inference.py example.mp4 'Segment the dog and answer what it is doing' --output_dir ./video_results

输出：./video_results中包含逐帧分割掩码、视频合成结果（叠加掩码）及文字答案（如“ The dog is running. ”）。

3. 训练：微调模型

若需针对特定场景（如医学影像）微调模型，可使用scripts/launch_3b.sh（3B模型）或scripts/launch_7b.sh（7B模型）脚本，步骤如下：

准备自定义数据集，格式需与UniPixel-SFT-1M一致（参考docs/data_format.md）；
修改训练配置文件（configs/train_3b.yaml），指定数据集路径、训练轮数、学习率等参数；
启动训练：

  # 微调3B模型（单节点8卡）
  bash scripts/launch_3b.sh

训练过程支持断点续训，模型权重会定期保存至./checkpoints文件夹。

4. 评估：验证模型性能

项目支持在23个公开基准上评估模型，使用tools/eval.py脚本：

# 在RefCOCO数据集上评估3B模型
python tools/eval.py --model_path ./checkpoints/unipixel-3b --dataset refcoco --output ./eval_results.json

输出：eval_results.json包含准确率、IoU等指标，可用于对比模型优化效果。

5. 本地演示：可视化交互

通过Gradio工具可搭建本地交互界面，支持上传图像/视频并输入指令，实时查看结果：

python demo/app.py

运行后，浏览器访问http://localhost:7860即可打开交互页面，操作流程如下：

上传图像/视频；
在输入框中输入指令（如“分割图中的花朵”）；
点击“生成”按钮，获取分割结果或答案。

UniPixel：香港理工大学联合腾讯开源的像素级视觉语言统一理解模型

六、常见问题解答（FAQ）

Q：UniPixel与专用分割模型（如SAM）有何区别？

A：SAM擅长“无指令的通用分割”，但需要手动点击目标；UniPixel支持“文字指令驱动的分割”，无需人工交互，且能结合问答等语言任务，更适合自动化场景。

Q：模型推理速度较慢，如何优化？

A：可尝试：① 使用3B模型替代7B模型；② 降低输入图像/视频的分辨率（如从1024×1024降至512×512）；③ 启用TensorRT加速（需额外配置，参考docs/optimization.md）。

Q：是否支持CPU推理？

A：支持，但速度极慢（3B模型单张图像推理约10分钟），仅建议用于调试，实际应用需GPU支持。

Q：如何将分割结果导出为其他格式（如COCO格式）？

A：可使用tools/convert_mask.py脚本，示例：

  python tools/convert_mask.py ./results/mask.png --format coco --output ./coco_annotations.json

Q：UniPixel-SFT-1M数据集如何获取？

A：数据集托管于Hugging Face Datasets，可通过以下命令加载：

  from datasets import load_dataset
  dataset = load_dataset("PolyU-ChenLab/UniPixel-SFT-1M")

七、相关链接

GitHub仓库：https://github.com/PolyU-ChenLab/UniPixel
项目主页：https://polyu-chenlab.github.io/unipixel/
Hugging Face模型库：https://huggingface.co/PolyU-ChenLab
Hugging Face演示空间：https://huggingface.co/spaces/PolyU-ChenLab/UniPixel
论文链接：https://arxiv.org/pdf/2509.18094

八、总结

UniPixel作为一款开源的像素级视觉语言统一模型，通过扩展Qwen2.5-VL实现了图像/视频分割、区域理解、PixelQA等多任务的统一支持，兼具高性能与易用性。其提供的预训练模型、开源数据集及完整工具链，降低了细粒度视觉语言任务的开发门槛，既适用于研究者探索多模态推理的新方向，也能为开发者提供智能编辑、视觉分析等场景的实用解决方案，是像素级视觉语言理解领域的重要开源成果。

开源模型多模态大模型

打赏

版权及免责申明：本文由@人工智能研究所原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/unipixel.html

THE END

人工智能研究所

发现AI神器，探索AI技术！

+ 关注

UniPixel：香港理工大学联合腾讯开源的像素级视觉语言统一理解模型

文章目录

一、UniPixel是什么？

二、功能特色

1. 覆盖多类细粒度视觉语言任务

2. 灵活的输入与输出方式

3. 优异的性能表现

4. 开源资源丰富

三、技术细节

1. 模型架构

2. 训练数据与方法

3. 推理流程

4. 模型版本对比

四、应用场景

1. 智能视频/图像编辑

2. 视觉内容分析与检索

3. 辅助驾驶与机器人感知

4. 教育与科研工具

五、使用方法

1. 环境准备

2. 推理：处理自定义数据

3. 训练：微调模型

4. 评估：验证模型性能

5. 本地演示：可视化交互

六、常见问题解答（FAQ）

七、相关链接

八、总结

相关文章