Spirit-v1.5：千寻智能推出的全球领先开源视觉 - 语言 - 动作具身智能基础模型

原创发布日期：2026-01-13

一、Spirit-v1.5是什么

Spirit-v1.5是一款面向真实世界任务的开源端到端视觉-语言-动作（VLA）具身智能基础模型，由千寻智能（Spirit AI）研发并于2026年1月正式开源。具身智能是人工智能的重要分支，核心目标是让智能体通过与物理世界的交互获得感知、认知和行动能力，而VLA模型则是具身智能的核心载体，实现了视觉感知、语言理解与动作决策的一体化融合。

作为一款通用型基础模型，Spirit-v1.5并非针对单一任务设计，而是致力于打造具备跨任务、跨平台、跨场景能力的“机器人大脑”。该模型在由Dexmal、Hugging Face、智源研究院等机构联合发起的权威具身智能评测平台RoboChallenge中，凭借Table30任务集的优异表现登顶综合榜单，综合得分66.09分，任务成功率达到50.33%，是目前该平台上唯一一个成功率超过50%的具身智能模型，超越了此前霸榜的Pi0.5模型。

为了让全球开发者和研究机构能够验证、复现并基于该模型进行二次创新，千寻智能将Spirit-v1.5的核心代码、预训练模型权重、推理部署脚本及RoboChallenge评测适配套件全部开源，覆盖从模型训练到实际部署的全流程，支持在NVIDIA Jetson、Intel RealSense等主流硬件平台及Franka、UR5e、ALOHA等多款工业机器人上快速落地。同时，该模型已成功应用于宁德时代新能源动力电池PACK生产线，搭载Spirit-v1.5的人形机器人“小墨”实现了高压测试插头插接、线束检测等工业任务的稳定执行，验证了其从实验室评测到工业级场景的工程化能力。

二、功能特色

Spirit-v1.5的核心优势围绕高泛化能力、端到端一体化、工业级稳定性、开源易用性四大维度展开，相较于传统机器人模型和其他开源VLA模型，在任务执行能力、场景适配性和工程落地性上实现了多重突破，具体功能特色如下：

（一）全球领先的任务执行能力，登顶RoboChallenge基准测试

Spirit-v1.5在RoboChallenge Table30任务集中展现出碾压级的表现，该任务集涵盖30项贴近真实生活和工业场景的机器人操作任务，包括物体抓取、插花、贴胶带、水果入篮、开关灯等，全面考察模型的3D空间定位、动态遮挡处理、时序逻辑推理和双臂协同操作能力。在多项核心任务中，Spirit-v1.5的成功率大幅领先其他模型，其中“寻找绿盒”任务成功率高达90%，“水果入篮”任务成功率80%，较Pi0.5翻倍；贴胶带、清扫垃圾等高精度触觉接触任务的成功率也实现了对竞品的两倍领先。更重要的是，该模型是目前RoboChallenge平台上唯一一个任务成功率超过50%的模型，综合得分66.09分，远超Pi0.5的61.84分，成为具身智能领域的新标杆。

（二）端到端一体化架构，消除信息传递误差

摒弃了传统机器人系统“视觉感知-语言理解-动作决策”模块化设计的弊端，Spirit-v1.5采用端到端的VLA统一神经网络架构，将视觉特征提取、自然语言指令解析和机器人动作序列生成整合为一个模型，实现了从“输入视觉画面+语言指令”到“输出机器人动作轨迹”的直接映射。这种设计彻底消除了模块化系统中各环节之间的信息传递误差累积，使得模型在复杂长时序任务中表现出更强的稳定性。实验数据显示，在跨机器人平台的迁移任务中，Spirit-v1.5的成功率相比模块化系统提升了37%；在连续执行10步以上的长序列任务中，稳定性指标达到行业领先水平。例如在插花任务中，模型能够通过端到端的决策，自主调整机械臂关节角度，保证花枝竖直并精准插入花瓶，避免了Pi0.5出现的“花枝横放”“机械臂卡死”等问题。

（三）高泛化能力，适配陌生场景与跨平台迁移

泛化能力是衡量具身智能模型的核心指标，也是传统机器人模型的痛点——多数模型仅能在训练过的固定场景和任务中执行操作，面对陌生环境或新任务时表现极差。Spirit-v1.5通过创新的数据集采集范式，解决了这一行业难题，使其具备强跨任务、跨平台、跨场景泛化能力。在RoboChallenge测试中，模型在未经过专门微调的陌生任务中，仍能保持40%以上的成功率；在Franka、UR5e、ALOHA等不同品牌、单臂/双臂不同构型的机器人上，无需大量适配工作即可快速部署执行任务。例如在移动物体入箱任务中，无论物体堆叠方式、摆放位置如何变化，模型都能主动搜寻目标物体，精准抓取并放入指定位置，而不会像Pi0.5那样机械执行固定步骤，出现“空抓”“抬升高度不足”等问题。

（四）工业级稳定性，实现从实验室到产线的落地

不同于仅停留在实验室评测阶段的开源模型，Spirit-v1.5经过了工业级场景的实战验证，具备7×24小时连续作业能力和超高的任务执行精度。搭载该模型的人形机器人“小墨”已在宁德时代中州新能源基地的动力电池PACK生产线投入使用，负责高压测试插头精准插接、线束连接状态检测、设备巡检等关键工序，插头插接成功率超99%，作业效率较人工提升三倍，同时规避了人工操作的高压安全风险。这一落地案例证明，Spirit-v1.5不仅具备科研层面的技术优势，更拥有工程化、产业化的实际应用价值，能够满足工业场景对稳定性、精度和效率的严苛要求。

（五）全流程开源，降低开发者使用门槛

千寻智能秉持开放协同的理念，将Spirit-v1.5的核心代码、预训练权重、推理脚本、评测套件全部开源，覆盖模型研发、测试、部署的全生命周期。开源资源包含详细的技术文档、环境配置说明和任务执行示例，即使是不具备深厚机器人研发经验的开发者，也能按照文档快速完成模型部署和任务测试。同时，模型支持NVIDIA A100 80GB等主流GPU硬件，以及Python 3.11+的通用开发环境，提供uv和pip两种安装方式，适配不同开发者的使用习惯；针对RoboChallenge评测平台，还专门开发了极简启动脚本，一键即可执行基准测试任务。此外，官方还发布了技术博客，详细披露模型架构设计、数据预处理流程和超参数配置，为开发者提供全链条的技术参考。

三、技术细节

Spirit-v1.5的技术创新主要集中在模型架构设计、数据采集与训练策略、工程化优化三大核心模块，这些技术细节共同支撑了模型的高性能、高泛化和高稳定性，以下从技术层面进行详细拆解：

（一）模型核心架构：基于Qwen3-VL的端到端VLA架构

Spirit-v1.5的模型架构以Qwen3-VL多模态大模型为骨干网络，融合DiT（Diffusion Transformer）头和策略API，构建了端到端的视觉-语言-动作统一模型，具体分为三大核心层：

视觉感知层：基于Qwen3-VL的视觉编码器，对机器人摄像头采集的RGB图像、深度图像进行特征提取，支持多视角图像输入，能够处理动态遮挡、物体堆叠等复杂视觉场景，输出高维视觉特征向量；
语言理解层：复用Qwen3-VL的语言编码器，对自然语言指令（如“将绿色方块放入蓝色篮子”）进行语义解析，将文本信息转化为与视觉特征同维度的语义特征向量；
动作决策层：采用DiT头作为动作生成模块，将视觉特征与语义特征进行融合，通过扩散模型生成机器人的连续动作序列，输出关节角度、运动速度、抓取力度等具体动作参数；策略API则负责将动作序列转化为机器人硬件可识别的控制指令，实现与不同机器人平台的对接。

整个架构的核心代码集中在仓库的model/modeling_spirit_vla.py文件中，同时配套的model/utils.py提供了视觉特征归一化、动作序列采样、数据预处理等通用工具函数，保障模型的高效运行。

（二）数据采集与训练策略：开放式目标驱动的多样化数据范式

数据是具身智能模型的核心燃料，Spirit-v1.5的最大技术创新在于摒弃了主流的“高精度脚本化示范”数据采集模式，采用开放式目标驱动的多样化数据采集策略，这也是模型具备高泛化能力的根本原因，具体细节如下：

传统数据采集的弊端：此前具身智能模型的训练数据多为“干净数据”，即操作人员按照固定脚本、在固定场景中演示单一任务，数据的动作模式、物体摆放、视角高度固定，虽然降低了学习难度，但严重限制了模型的泛化能力，使其无法适应真实世界的不确定性；
开放式数据采集方式：Spirit-v1.5的研发团队让数据采集员仅设定高层任务目标（如“清理厨房台面”“给假人化妆”），不强制遵循固定的动作流程，由采集员以接近真实人类行为的方式自由完成任务。这种方式采集到的数据不再是孤立的单一动作演示，而是包含抓取、插入、整理、双臂协作、异常处理等大量原子技能的连续数据流，且这些技能以真实世界的时序关系串联，更贴近实际应用场景；
数据采集的效率与效果提升：开放式采集模式带来了显著的工程和性能收益，人均有效采集时长提升约200%，对算法专家深度介入的需求降低约60%，大幅降低了数据采集成本。从数据质量来看，单次训练样本的平均技能组合种类达到5.2种，较传统脚本化方法提升了3倍以上；
训练效果验证：消融实验证明，在相同数据规模下，采用开放式多样化数据预训练的模型，在新任务微调阶段的收敛速度提升了42%，验证误差降低了28%；随着多样化数据规模的扩大，模型的验证误差持续下降，未出现早期饱和现象，证明任务多样性比单一任务的演示数量对具身模型更重要。

（三）工程化优化：跨平台适配与高性能推理

为了实现模型从实验室到实际场景的落地，Spirit-v1.5在工程化层面进行了多重优化，重点解决了跨机器人平台适配、硬件资源利用率、推理速度三大问题：

跨平台适配层设计：在仓库的robochallenge/目录中，开发了专门的机器人交互客户端和任务执行器，支持Franka、UR5e、ALOHA、ARX5等主流单臂/双臂机器人，通过统一的API接口屏蔽不同机器人硬件的底层差异，开发者无需修改核心模型代码，即可将模型部署到不同品牌的机器人上；
硬件优化：针对NVIDIA A100 80GB等主流GPU进行了模型推理优化，采用混合精度训练、特征图压缩等技术，在保证模型性能的前提下，将推理延迟降低了30%，满足机器人实时动作决策的需求；同时支持NVIDIA Jetson等边缘计算硬件，实现模型在机器人本地的轻量化部署；
评测套件整合：将RoboChallenge基准测试的评测逻辑封装到robochallenge/模块中，包含任务元数据、日志记录、结果统计等工具，开发者可直接通过脚本执行基准测试，快速验证模型性能，无需自行开发评测代码。

四、应用场景

依托高泛化能力、端到端一体化架构和工业级稳定性，Spirit-v1.5的应用场景覆盖科研研究、工业生产、智能家居、服务机器人四大领域，既可为科研界提供通用的具身智能研究基础，也能为产业界提供可落地的智能解决方案，具体应用场景如下：

（一）科研研究领域：具身智能算法创新

Spirit-v1.5作为开源的高性能VLA基础模型，是具身智能领域科研人员的理想研究载体，可应用于以下研究方向：

具身智能算法改进：科研人员可基于该模型的开源代码，开展视觉-语言-动作融合、动作生成优化、泛化能力提升等方向的算法研究，通过微调或改进模型架构，探索具身智能的新理论和新方法；
基准测试验证：借助模型配套的RoboChallenge评测套件，科研人员可快速验证自己的算法在真实机器人任务中的表现，与当前全球领先的模型进行对比，加速研究成果的落地；
跨领域迁移学习研究：利用模型的高泛化能力，开展具身智能模型在医疗、教育、农业等跨领域的迁移学习研究，探索具身智能的通用化应用路径。

（二）工业生产领域：智能制造与自动化升级

Spirit-v1.5已在新能源动力电池生产线实现落地，证明了其在工业场景的应用价值，未来可广泛应用于智能制造、工业自动化、精密加工等工业领域，具体应用场景包括：

精密装配任务：如新能源电池、半导体、3C电子等行业的零部件插接、组装、检测，替代人工完成高精度、高危险性的操作，提升生产效率和产品质量。例如宁德时代产线中的高压测试插头插接，模型实现了99%以上的插接成功率；
工业巡检与维护：搭载模型的移动机器人可在工厂车间、电力基站、化工园区等场景进行自主巡检，通过视觉感知识别设备故障、安全隐患，生成动作指令完成简单的维护操作；
柔性生产制造：传统工业机器人多为固定程序控制，无法适应产品迭代和工艺调整，而Spirit-v1.5具备高泛化能力，可快速适配不同的生产任务和产品型号，实现柔性化生产，降低企业生产线改造成本。

（三）智能家居领域：家庭服务机器人

在智能家居场景，Spirit-v1.5可赋能家庭服务机器人，实现家务劳动、生活辅助、安全监护等功能，提升家庭生活的智能化水平：

日常家务处理：完成扫地、擦桌、整理物品、餐具摆放等家务任务，根据用户的自然语言指令，自主规划操作流程，适应不同家庭的环境布局；
生活辅助服务：为老人、儿童等群体提供生活辅助，如取放物品、开关家电、冲泡饮品等，通过视觉感知识别用户需求，提供个性化的服务；
家庭安全监护：通过摄像头感知家庭环境，识别燃气泄漏、门窗异常、老人摔倒等安全隐患，及时发出警报并执行简单的应急操作，如关闭燃气阀门、打开门窗等。

（四）服务机器人领域：商业场景智能服务

在商场、酒店、医院、餐厅等商业服务场景，Spirit-v1.5可赋能服务机器人，实现客户接待、物品配送、场景服务等功能：

商场/酒店服务：机器人可根据用户指令，引导顾客前往指定位置、配送商品或客房用品，通过视觉感知识别环境中的障碍物，自主规划移动路径；
医院辅助服务：在医院场景中，完成药品配送、病历传递、患者引导等任务，减少医护人员的重复性工作，提升医疗服务效率；
餐厅服务：实现餐具摆放、菜品配送、餐桌清理等服务，根据顾客的点餐指令，将菜品准确送到指定餐桌，适应餐厅的复杂环境。

Spirit-v1.5：千寻智能推出的全球领先开源视觉 - 语言 - 动作具身智能基础模型

五、使用方法

Spirit-v1.5的开源仓库提供了完整的使用文档和脚本，支持模型部署、推理测试和RoboChallenge基准测试，使用流程主要分为环境准备、模型下载、任务执行三大步骤，同时针对不同使用场景提供了对应的操作方法，具体如下：

（一）系统与硬件要求

在开始使用前，需确保满足以下系统和硬件要求，这是模型正常运行的基础：

类型	具体要求
硬件	推荐使用NVIDIA A100 80GB GPU；支持NVIDIA Jetson、Intel RealSense等边缘计算硬件；需配备机器人硬件（如Franka、UR5e）或RoboChallenge平台账号（用于仿真测试）
软件	操作系统：Linux（Ubuntu 20.04/22.04）；Python版本：3.11+；依赖库：PyTorch 2.0+、Transformers、OpenCV等（具体见requirements.txt）

（二）环境搭建与安装

Spirit-v1.5提供了uv和pip两种安装方式，其中uv是推荐的包管理器，具有更快的安装速度和更好的环境隔离效果，具体安装步骤如下：

克隆开源仓库：首先将GitHub上的仓库代码克隆到本地服务器或机器人硬件中，执行以下命令：

  git clone https://github.com/Spirit-AI-Team/spirit-v1.5.git
  cd spirit-v1.5

使用uv安装依赖（推荐）：

  # 安装uv包管理器（若未安装）
  curl -LsSf https://astral.sh/uv/install.sh | sh
  # 同步依赖并创建虚拟环境
  uv sync
  # 激活虚拟环境
  source .venv/bin/activate

使用pip安装依赖（备选）：

  # 创建虚拟环境
  python -m venv .venv
  # 激活虚拟环境
  source .venv/bin/activate
  # 安装依赖库
  pip install -r requirements.txt

（三）模型Checkpoint下载

Spirit-v1.5的预训练模型权重托管在Hugging Face平台，提供基础模型和RoboChallenge微调模型两类Checkpoint，可根据使用需求下载，具体信息如下表：

模型类型	适用场景	下载地址
Spirit-v1.5（基础模型）	通用机器人任务、二次研发与微调	https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Spirit-v1.5-move-objects-into-box（微调模型）	直接执行RoboChallenge「移动物体入箱」任务	https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5-for-RoboChallenge-move-objects-into-box

下载完成后，将模型文件解压到本地目录，记录CKPT_PATH（包含model.safetensors的文件夹路径），用于后续任务执行。

（四）执行RoboChallenge基准测试

仓库提供了极简的启动脚本scripts/run_robochallenge.sh，可快速执行RoboChallenge平台的基准测试任务，具体步骤如下：

配置环境变量：在执行脚本前，需配置以下环境变量（其中USED_CHUNK_SIZE为可选参数，默认60），这些变量用于指定任务名称、平台认证信息和模型路径：

  # 配置任务名称（对应robochallenge/runner/task_info.py中的任务名）
  export TASK_NAME=move_objects_into_box
  # 配置RoboChallenge任务集合ID
  export ROBOCHALLENGE_JOB_ID=your_job_collection_id
  # 配置平台用户认证Token
  export USER_TOKEN=your_user_token
  # 配置模型Checkpoint路径
  export CKPT_PATH=/path/to/your_checkpoint_dir
  # 配置动作块大小（可选，默认60）
  export USED_CHUNK_SIZE=60

运行测试脚本：执行以下命令，启动RoboChallenge任务测试，脚本会自动加载模型、连接RoboChallenge平台、执行任务并返回测试结果：

  ./scripts/run_robochallenge.sh

查看测试结果：任务执行完成后，测试结果会以日志形式输出到控制台，同时保存到robochallenge/logs/目录下，包含任务成功率、执行时长、关键步骤完成情况等信息。

（五）本地机器人部署与推理

若需将模型部署到本地机器人硬件（如Franka、UR5e）上执行自定义任务，可参考以下步骤：

硬件连接：将机器人硬件与部署模型的服务器通过网络连接，确保机器人的控制接口可正常访问；
修改配置文件：在robochallenge/config/目录下，修改机器人配置文件，填写机器人的IP地址、端口号、关节参数等信息；
编写自定义任务脚本：基于仓库提供的模型推理API，编写自定义任务脚本，输入视觉图像和自然语言指令，调用模型生成动作序列，再通过机器人交互客户端将动作指令发送给机器人；
启动推理：运行自定义脚本，模型将实时接收机器人的视觉数据，生成动作指令并控制机器人执行任务。

六、常见问题解答

问题1：执行uv sync命令时，出现“网络连接超时”或“依赖包下载失败”的错误？

解决方案：

检查网络连接是否正常，确保能够访问GitHub和Hugging Face平台；
配置国内镜像源，加速依赖包下载，执行以下命令配置uv的PyPI镜像：

   uv config set pypi.index-url https://pypi.tuna.tsinghua.edu.cn/simple

- 若仍无法下载，可切换为`pip`安装方式，并配置pip镜像源：

   pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

问题2：运行模型时，出现“CUDA out of memory”（CUDA内存不足）的错误？

解决方案：

降低模型的批量大小（batch size），在推理脚本中修改batch_size参数为1；
启用混合精度推理，在模型加载时添加torch.float16参数，减少内存占用；
若使用的是NVIDIA A100以外的GPU，可通过模型量化工具（如GPTQ）对模型进行量化，进一步降低内存需求；
关闭其他占用GPU内存的程序，释放硬件资源。

问题3：Python版本不兼容，提示“Python 3.11+ is required”？
解决方案：

使用pyenv等Python版本管理工具，安装Python 3.11或更高版本；
确认虚拟环境中使用的Python版本，执行python --version命令检查，若版本不符，重新创建虚拟环境并指定Python版本：

   python3.11 -m venv .venv

问题3：从Hugging Face下载模型时，速度过慢或出现“403 Forbidden”错误？

解决方案：

使用Hugging Face的镜像站点下载模型，如https://hf-mirror.com/；
配置Hugging Face的本地镜像源，执行以下命令：

   export HF_ENDPOINT=https://hf-mirror.com

- 若出现403错误，检查是否登录了Hugging Face账号，执行`huggingface-cli login`命令输入账号令牌，获取模型访问权限。

问题4：加载模型时，出现“FileNotFoundError: model.safetensors not found”错误？

解决方案：

检查CKPT_PATH环境变量是否配置正确，确保该路径下包含model.safetensors文件；
确认模型文件是否下载完整，若文件缺失，重新从Hugging Face下载模型，并校验文件完整性；
若使用的是微调模型，确认下载的是对应任务的微调模型，而非基础模型。

问题5：执行run_robochallenge.sh脚本时，出现“ROBOCHALLENGE_JOB_ID or USER_TOKEN not set”错误？

解决方案：

检查环境变量是否正确配置，执行echo $ROBOCHALLENGE_JOB_ID和echo $USER_TOKEN命令，确认变量值是否为空；
若变量未配置，重新执行环境变量配置命令，或直接在脚本中添加变量定义；
确认RoboChallenge平台的账号是否有效，USER_TOKEN是否过期，若过期，前往RoboChallenge平台重新获取。

问题6：模型部署到本地机器人后，机器人无响应或执行动作异常？

解决方案：

检查机器人硬件是否正常启动，网络连接是否通畅，执行机器人的自检命令，确认硬件无故障；
查看robochallenge/logs/目录下的日志文件，排查具体的错误原因，如动作指令格式错误、关节角度超出范围等；
确认机器人配置文件中的参数是否正确，如IP地址、端口号、关节限位等，根据机器人的硬件手册修改配置；
先在仿真环境中测试模型，确认模型输出的动作序列正常后，再部署到真实机器人上。

问题7：在RoboChallenge测试中，任务成功率过低或出现“任务超时”错误？

解决方案：

检查模型Checkpoint是否为对应任务的微调模型，若使用基础模型，需先对任务进行微调后再测试；
调整USED_CHUNK_SIZE参数，增大动作块大小可提升任务执行速度，减少超时概率；
查看任务执行日志，分析失败原因，如视觉识别错误、动作决策失误等，针对性地优化模型或调整任务参数。

问题8：如何在Windows系统中使用Spirit-v1.5？

解决方案：

Spirit-v1.5主要适配Linux系统，在Windows系统中可通过WSL2（Windows Subsystem for Linux）安装Ubuntu子系统，再按照Linux系统的安装步骤配置环境；
确保WSL2启用了CUDA支持，能够访问主机的GPU硬件，具体配置方法可参考NVIDIA官方文档。

问题9：如何对Spirit-v1.5进行二次开发和微调？

解决方案：

参考仓库中的model/目录下的代码，基于modeling_spirit_vla.py修改模型架构，或添加自定义的训练逻辑；
利用Hugging Face的Transformers库提供的微调工具，基于自定义数据集对模型进行微调，微调完成后保存新的Checkpoint；
官方技术博客提供了详细的模型架构设计和训练流程说明，可前往查看获取更多开发细节。

七、相关链接

GitHub开源代码仓库：https://github.com/Spirit-AI-Team/spirit-v1.5（包含核心代码、使用脚本、配置文件和详细的README文档）
Hugging Face模型权重仓库：https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5（提供基础模型和微调模型的预训练权重下载）
官方技术博客：https://www.spirit-ai.com/en/blog/spirit-v1-5（详细披露模型架构设计、数据采集策略、训练流程和实验结果）
RoboChallenge评测平台：https://www.robochallenge.ai/（用于验证模型性能的权威具身智能评测平台，可查看Spirit-v1.5的实时排名和测试结果）

八、总结

Spirit-v1.5是千寻智能研发的一款全球领先的开源端到端视觉-语言-动作（VLA）具身智能基础模型，以66.09分的综合得分和50.33%的任务成功率登顶RoboChallenge Table30基准测试榜单，成为首个成功率超50%的具身智能模型，展现出超越国际竞品的技术实力。该模型采用创新的开放式目标驱动数据采集范式，摒弃了传统的脚本化数据模式，通过多样化的训练数据赋予模型极强的跨任务、跨平台、跨场景泛化能力；端到端的VLA统一架构消除了模块化系统的信息传递误差，使其在复杂长时序任务中具备更高的稳定性；同时，模型经过了工业级场景的实战验证，搭载Spirit-v1.5的人形机器人已在宁德时代新能源动力电池生产线实现稳定运行，插头插接成功率超99%，证明了其从实验室评测到产业化落地的工程化能力。千寻智能将模型的核心代码、预训练权重、推理脚本和评测套件全部开源，降低了开发者的使用门槛，既为具身智能领域的科研人员提供了通用的研究基础，也为工业界、智能家居、服务机器人等领域提供了可落地的智能解决方案，推动了具身智能技术的普及和应用，同时也标志着中国具身模型正式站上全球舞台，与国际顶尖模型同台角逐。

具身智能 VLA模型开源模型机器人模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/spirit-v-1-5.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

Spirit-v1.5：千寻智能推出的全球领先开源视觉 - 语言 - 动作具身智能基础模型

文章目录

一、Spirit-v1.5是什么

二、功能特色

（一）全球领先的任务执行能力，登顶RoboChallenge基准测试

（二）端到端一体化架构，消除信息传递误差

（三）高泛化能力，适配陌生场景与跨平台迁移

（四）工业级稳定性，实现从实验室到产线的落地

（五）全流程开源，降低开发者使用门槛

三、技术细节

（一）模型核心架构：基于Qwen3-VL的端到端VLA架构

（二）数据采集与训练策略：开放式目标驱动的多样化数据范式

（三）工程化优化：跨平台适配与高性能推理

四、应用场景

（一）科研研究领域：具身智能算法创新

（二）工业生产领域：智能制造与自动化升级

（三）智能家居领域：家庭服务机器人

（四）服务机器人领域：商业场景智能服务

五、使用方法

（一）系统与硬件要求

（二）环境搭建与安装

（三）模型Checkpoint下载

（四）执行RoboChallenge基准测试

（五）本地机器人部署与推理

六、常见问题解答

七、相关链接

八、总结

相关文章