人工智能研究所的个人主页

SenseNova U1 Pro：商汤科技推出的旗舰级多模态AI图像创作大模型

SenseNova U1 Pro是商汤科技旗下日日新SenseNova U系列旗舰交付级原生多模态智能体基座，于2026世界人工智能大会（WAIC）正式发布，核心区别于普通娱乐级文生图AI模型，是业...

Gemini 3.6 Flash：谷歌DeepMind推出的新一代高效多模态大模型

Gemini 3.6 Flash是Google DeepMind发布的新一代通用高效多模态大模型，与Gemini 3.5 Flash-Lite、Gemini 3.5 Flash Cyber三款模型同步上线，官方定位为企业级通用主力推理...

2天前人工智能研究所

75

MiniCPM-Robot：面壁智能推出的开源机器人视觉动作大模型开发套件

MiniCPM-Robot由面壁智能OpenBMB开源，包含MiniCPM-RobotManip、MiniCPM-RobotTrack两大VLA模型，搭配PhyAI推理框架，支持本地离线运行，可实现机械臂视觉操作、四足机器狗...

3天前人工智能研究所

74

agent-talk：开源AI编码智能体通信插件，实现跨设备端到端加密消息协同

agent-talk 是一款基于 retalk CLI 构建的开源跨平台编码智能体通信插件，核心解决各类代码AI智能体无法自主互通的行业痛点，整体技术栈以 Python、TypeScript 为主，兼容6...

5天前人工智能研究所

74

ABot-World：高德开源的交互式世界模型，单RTX5090显卡实现无限长时序实时场景推演

ABot-World 是高德地图CV实验室（amap-cvlab）开源的单桌面GPU无限交互式世界推演模型，核心版本为5B因果学生模型 ABot-World-0-5B-LF，配套开放本地Gradio演示程序与线上交...

7天前人工智能研究所

81

GPT-Live：OpenAI推出的全双工实时语音对话大模型，支持同步听说与多模态交互

GPT-Live 是 OpenAI发布的新一代全双工端到端实时语音大模型，全面替代旧版 Advanced Voice Mode，作为 ChatGPT 全系语音交互底层引擎，面向全球用户分双版本开放。

1周前人工智能研究所

86

SenseNova-Vision：商汤开源统一多模态视觉大模型，单基座兼容检测分割深度三维重建

SenseNova-Vision是商汤科技OpenSenseNova团队开源的统一多模态视觉生成大模型，依托论文《Vision as Unified Multimodal Generation》落地，开源仓库配套完整训练、推理、...

1周前人工智能研究所

72

GPT-Realtime-2.1：OpenAI推出的新一代低延迟多模态实时语音模型

GPT-Realtime-2.1 是 OpenAI全新发布、面向API开发者的高性能端到端实时多模态语音大模型，为上一代 GPT-Realtime-2 的迭代升级版本，配套同系列轻量化模型 gpt-realtime-2...

2周前人工智能研究所

84

Seedream 5.0 Pro：字节跳动推出的商用高精度AI图像生成模型

Seedream 5.0 Pro 是字节跳动 Seed 团队发布的旗舰级商用多模态图像生成大模型，定位专业商业视觉内容生产工具，是 Seedream 5.0 轻量化版本的高阶专业分支，对标海外 GPT-...

2周前人工智能研究所

88

EdgeBench：字节开源的长时序AI智能体评测基准，支持12小时迭代闭环打分

EdgeBench是字节跳动Seed开源的长周期AI智能体评测基准，配套SForge双容器隔离评测引擎，支持12小时迭代式测试，包含134项真实工业任务，用于大模型、自主智能体能力标准化...

2周前人工智能研究所

90

人工智能研究所

文章

工具

软件

图书

SenseNova U1 Pro：商汤科技推出的旗舰级多模态AI图像创作大模型

Gemini 3.6 Flash：谷歌DeepMind推出的新一代高效多模态大模型

MiniCPM-Robot：面壁智能推出的开源机器人视觉动作大模型开发套件

agent-talk：开源AI编码智能体通信插件，实现跨设备端到端加密消息协同

ABot-World：高德开源的交互式世界模型，单RTX5090显卡实现无限长时序实时场景推演

GPT-Live：OpenAI推出的全双工实时语音对话大模型，支持同步听说与多模态交互

SenseNova-Vision：商汤开源统一多模态视觉大模型，单基座兼容检测分割深度三维重建

GPT-Realtime-2.1：OpenAI推出的新一代低延迟多模态实时语音模型

Seedream 5.0 Pro：字节跳动推出的商用高精度AI图像生成模型

EdgeBench：字节开源的长时序AI智能体评测基准，支持12小时迭代闭环打分