Qwen3-VL:Qwen 系列推出的强大多模态 AI 模型,打通视觉与语言的智能融合
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
2025年10月21日,OpenAI正式发布ChatGPT Atlas——一款以ChatGPT为核心构建的全新网页浏览器。这款产品突破传统浏览器的功能边界,旨在将AI“超级助手”体验融入网页使用全...
本文将聚焦LLM的Stream流式输出,从核心原理讲起,通过“故事小助手”“科普助手”两个实战案例,带你掌握从基础调用到LCEL表达式的流式落地,最后分析流式输出的优劣势与实...
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
nanoGPT是由AI研究者Andrej Karpathy开发的开源项目,基于PyTorch框架构建,定位为“最简单、最高效的中等规模GPT训练与微调仓库”。它是minGPT的重写版本,核心目标是“优...
OpenAssistant 是一款开源的AI对话聊天系统,旨在通过协作模式推动高质量聊天大型语言模型(LLM)的普及。项目提供开放的聊天交互界面、协作式数据收集平台、完整的模型训练...
MineContext 是火山引擎开源的主动式上下文感知 AI 助手,以 “挖掘并整合上下文” 为核心,将分散的多模态数据(文档、截图、音视频等)视为可组合的 “信息方块”,通过轻...
语义分割是计算机视觉领域的核心任务,RGB-D数据(RGB图像与深度图)的融合为语义分割提供了多模态信息,通过结合颜色、纹理与几何结构,显著提升了分割精度。本文系统梳理...
XunLong (寻龙) 是一个基于大语言模型 (LLM) 的多智能体内容生成系统,能够根据自然语言指令自动生成高质量的研究报告、小说和演示文稿 (PPT)。通过 LangGraph 实现智能体协...
NeuTTS Air 是一个开源文本转语音项目,专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构,在保持轻量级和高效率的同时,提供高质量、超写实的语音合成。仅...
