MiniCPM-o 4.5:面壁智能开源的端侧离线全模态实时交互 AI 模型
MiniCPM-o 4.5是由面壁智能(OpenBMB)研发并开源的9B参数全双工全模态大语言模型,属于MiniCPM-V多模态模型系列的新一代旗舰版本,其实现了视频、音频、文本的实时流感知与...
MiniCPM-o 4.5是由面壁智能(OpenBMB)研发并开源的9B参数全双工全模态大语言模型,属于MiniCPM-V多模态模型系列的新一代旗舰版本,其实现了视频、音频、文本的实时流感知与...
Kilo 团队正式发布 Kilo CLI 1.0,这是一款基于 MIT 协议开源、模型无关的终端原生智能体工程命令行工具,支持 500 + 模型自由选择,可与 Kilo 智能体工程平台无缝协同,打...
Intern-S1是上海AI实验室研发并开源的通专融合多模态科学推理大模型,是面向全球科研工作者、开发者与教育机构打造的通用科学AI基础平台,核心定位是解决科学研究中多模态数...
ACE-Step 1.5是一款由ACE Studio与StepFun联合开发的开源音乐生成基础模型,主打在消费级硬件上实现商用级别的音乐生成能力,仅需4GB显存即可本地运行,兼具极速生成、多语...
LingBot-VA是蚂蚁灵波开源的一款面向通用机器人控制的因果视频-动作世界建模框架,核心基于自回归视频预测与逆向动力学推理,打破传统机器人“观察-反应”的固有模式,通过...
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
玄武CLI是由清昴智能开源的国产算力原生大模型命令行管理工具,被业内称为“国产版 Ollama”。它提供一套轻量化、无依赖、开箱即用的大模型部署与运行平台,让使用者在不掌...
GLM-OCR是智谱AI开源的轻量级多模态文档OCR模型,核心定位是小参数、高精度、易部署、全场景覆盖的专业级文档理解与文字提取工具。它基于GLM-V视觉-语言编码器-解码器架构构...
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...