JoyAI-VL-Interaction:京东开源的8B全栈实时视觉交互模型

原创 发布日期:
63

一、JoyAI-VL-Interaction 是什么

JoyAI-VL-Interaction 是京东Joy未来研究院视频理解团队全栈开源的8B规模实时视频视觉语言交互系统,也是全球首个完整开放模型权重、训练方案、时序对齐交互数据集、全套可部署工程的主动式多模态交互项目,开源协议为Apache 2.0,原生支持vLLM-Omni当日部署。

传统多模态模型均为轮次被动问答模式,必须用户主动提问才会解析画面;该项目核心创新是让AI持续观测实时视频流,每秒自主做出三类决策:主动输出提示、静默不干预、将复杂任务委派后台智能体,实现亚秒级实时流式交互,适配摄像头、直播、监控等动态实景场景,彻底改变“你问我答”的传统多模态交互逻辑。

JoyAI-VL-Interaction:京东开源的8B全栈实时视觉交互模型

二、核心功能特色

  1. 实时在场感知,亚秒级主动响应
    持续不间断读取视频画面,关键事件1秒内主动提醒,无有效画面变化时自动静音,无需人工下发指令,延迟控制在亚秒区间。

  2. 视觉驱动原生主动交互
    主动判断画面事件价值,预警、解说、翻译等行为由视觉画面自主触发,无需外部规则脚本干预,行为能力通过400万时序对齐视频片段+强化学习训练获得。

  3. 前台观测+后台智能体任务委派
    遇到复杂推理、长文本、工具调用等重任务时,自动分流至后台Agent处理,前台模型全程不中断视频观测,任务完成后无缝接续交互。

  4. 全栈开源可复现体系
    模型、4M时序交互数据集、完整训练配方、整套部署服务全部对外开放,无闭源组件,支持完整复现实验与二次商业化开发。

  5. 模块化可插拔多媒体服务
    内置WebRTC可视化前端、Qwen3 ASR语音识别、Qwen3 TTS语音合成、vLLM高速推理、后台任务代理五大组件,可按需替换第三方语音、推理接口。

  6. 长时视频时序记忆
    具备跨长时间视频流画面记忆能力,可连贯跟踪画面物体、人物、事件变化,支持连续场景引导、实时计数、全程解说。

三、技术细节

3.1 模型底座与视频编码优化

  • 基础模型:基于JoyAI-VL-8B视觉大模型构建,专为实时流式视频交互优化;

  • 视频压缩技术AdaCodec:区分可预测静态帧画面突变关键帧,静态帧仅占用少量轻量化Token,关键帧使用完整视觉Token,大幅降低长视频流算力与显存消耗,保障持续实时推理;

  • 训练数据:400万+时序对齐交互视频片段,搭配强化学习优化“何时发言、何时沉默”的自主决策逻辑。

3.2 底层推理支撑

原生适配vLLM-Omni多模态推理框架,复用KV Cache提升流式推理效率,开箱即用高速多模态推理流水线,支持OpenAI兼容推理API,单设备即可完成视频编码、视觉理解、文本生成、语音输出全链路。

3.3 整套系统模块化架构

项目仓库分为五大可独立启停服务,松耦合设计:

  1. webinfer实时推理:视频流解析、模型推理、标准化API输出;

  2. webui可视化前端:WebRTC本地摄像头/直播流接入,浏览器可视化交互页面;

  3. ASR语音识别:音频转文字,对接实时对话;

  4. TTS语音合成:模型输出文本转为语音播报;

  5. background-agent后台代理:承接复杂高算力任务,前台模型持续观测不中断。

3.4 仓库完整工程配套

内置一键安装脚本、模型批量下载工具、RTSP监控流媒体部署文档、中英文开发手册、架构说明文档、官方技术报告PDF,无需从零搭建视频多模态工程链路。

JoyAI-VL-Interaction:京东开源的8B全栈实时视觉交互模型

四、落地应用场景

依托主动视觉交互、低延迟、长时序记忆能力,可覆盖多行业实时AI需求:

  1. 居家安全看护:老人摔倒、孩童靠近危险区域、厨具溢锅实时主动预警;

  2. 安防监控系统:厂区、小区监控异常行为自动提醒,无需人工值守;

  3. 直播实时服务:赛事自动解说、直播实时双语弹幕、商品分步导购讲解;

  4. 生活辅助指引:烹饪分步实时指导、设备操作屏幕引导;

  5. 无障碍智能设备:智能眼镜实时画面翻译、障碍物提示、环境解读;

  6. 工业现场指导:设备操作流程实时提示,违规操作即时预警;

  7. 实时视频翻译:影视、采访画面字幕自动同步翻译输出。

五、快速使用方法

1. 代码拉取

git clone https://github.com/jd-opensource/JoyAI-VL-Interaction.git
cd JoyAI-VL-Interaction

2. 一键安装全部依赖

./install/install.sh --with-all

3. 批量下载完整模型权重

./install/download-models.sh --all

4. 启动最小化基础服务(仅推理+前端)

./services/scripts/run.sh minimal

5. 访问交互页面

浏览器打开地址:https://127.0.0.1:8099,接入本地摄像头、本地视频文件或RTSP监控流即可实时交互。

完整ASR/TTS/后台Agent部署流程可查阅项目doc/getting_started.md官方部署指南。

JoyAI-VL-Interaction:京东开源的8B全栈实时视觉交互模型

六、竞品对比

评测基准:58类真实事件驱动视觉交互场景,人工从响应质量、响应时机双维度打分,JoyAI-VL-Interaction分别对标豆包视频交互助手、Gemini视频交互助手。

表格1:JoyAI-VL-Interaction VS 豆包

评测维度 JoyAI-VL-Interaction占优 双方持平 豆包占优
监控预警 100.0% 0.0% 0.0%
实时计数 70.0% 30.0% 0.0%
实时翻译 80.0% 20.0% 0.0%
时序感知 80.0% 10.0% 10.0%
直播解说引导 55.6% 22.2% 22.2%
长时视觉记忆 77.8% 22.2% 0.0%
综合整体表现 77.6% 17.2% 5.2%

表格2:JoyAI-VL-Interaction VS Gemini

评测维度 JoyAI-VL-Interaction占优 双方持平 Gemini占优
监控预警 100.0% 0.0% 0.0%
实时计数 100.0% 0.0% 0.0%
实时翻译 100.0% 0.0% 0.0%
时序感知 50.0% 40.0% 10.0%
直播解说引导 100.0% 0.0% 0.0%
长时视觉记忆 77.8% 22.2% 0.0%
综合整体表现 87.9% 10.3% 1.7%

补充说明:JoyAI-VL-Interaction仅8B轻量模型,豆包、Gemini依托超大参数量底座与多年产品迭代,在开放式闲聊、通用知识、长尾日常问答场景更具优势;但实时主动视觉交互、低延迟事件预警赛道,JoyAI-VL-Interaction全面领先两大商业化产品。

七、常见问题解答(FAQ)

Q1:JoyAI-VL-Interaction开源包含哪些完整资源?

A1:项目完整开放8B模型权重、400万时序对齐交互训练数据集、完整训练配方、全套可部署服务代码、中英文开发文档、v1版本技术报告PDF,无阉割组件,支持完整复现论文实验。

Q2:该模型是否必须搭配GPU才能运行?

A2:项目基于vLLM推理框架,GPU为推荐运行环境;无GPU环境可运行基础WebUI预览模块,但实时视频推理速度会大幅下降,无法满足亚秒级实时交互需求。

Q3:支持哪些视频输入源?

A3:原生支持本地电脑摄像头、本地视频文件、RTSP监控流媒体、网络直播流,可通过WebRTC、流媒体接口扩展多路视频同时接入。

Q4:能否替换内置ASR、TTS语音模块?

A4:支持,语音服务为可插拔适配器架构,可替换为第三方语音识别、语音合成API,无需修改核心视觉推理代码。

Q5:模型是否可商用?

A5:项目采用Apache 2.0开源协议,允许商用、二次修改、闭源衍生开发,仅需遵守协议版权声明要求。

Q6:为什么监控预警场景对比豆包、Gemini可以达到100%胜率?

A6:传统产品为轮次问答机制,需要用户主动询问画面状态;JoyAI-VL-Interaction原生内置视觉主动判断能力,模型每秒自主识别危险事件并即时输出,无需人工触发,在实时预警场景具备底层架构优势。

Q7:8B轻量模型对比大参数量商业模型有什么短板?

A7:在无视觉画面的纯文本闲聊、海量通用知识问答、个性化对话风格、小众长尾需求场景能力弱于豆包、Gemini;核心优势集中在持续视频观测、主动触发交互、低延迟流式处理场景。

八、相关链接

  1. GitHub仓库地址:https://github.com/jd-opensource/JoyAI-VL-Interaction/

  2. 官方博客:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

  3. HuggingFace模型:https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview

  4. HuggingFace数据集:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction

  5. arXiv学术论文:https://arxiv.org/pdf/2606.14777

九、总结

JoyAI-VL-Interaction作为京东全栈开源的8B实时视觉语言交互系统,突破传统多模态模型被动问答的固有局限,依靠AdaCodec视频优化、vLLM-Omni原生推理、前台观测+后台代理协作架构,实现AI持续观测画面、自主判断交互时机的流式实时能力,配套完整开源数据集、训练方案与开箱即用部署工程,在监控预警、实时计数、直播解说等主动视觉交互场景中大幅领先豆包、Gemini两款主流商业化产品,以轻量化开源方案大幅降低实时视频AI助手的开发落地门槛,为安防、居家看护、直播、无障碍设备等实景AI赛道提供完整可复用技术底座。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法