Qwen3-VL-Embedding:阿里云开源的多模态嵌入模型,一站式文本图片视频语义向量生成
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目,基于UI-TARS模型构建,集成Agent TARS通用多模态AI智能体栈,提供本地/远程计算机、浏览器GUI智能操作能力,...
OS-Copilot是一款面向Linux、MacOS系统的开源通用智能体框架,核心实现为FRIDAY AI助手,可自动对接操作系统的网页、终端、文件、多媒体及第三方应用等全维度元素,具备自改...
Stable Video Infinity(简称 SVI)是由 EPFL 旗下 VITA 实验室开发的开源超长视频生成项目,核心依托 “Error Recycling(误差回收)” 技术,突破传统视频生成的长度限制...
TwinFlow 是一款面向大模型「单步生成(One-step Generation)」的开源项目,核心目标是解决传统扩散模型在图像生成任务中存在的「生成步数多、推理速度慢、资源消耗高」等...
XVERSE-Ent是由深圳元象并开源的面向娱乐领域的专用预训练大语言模型系列,基于混合专家(MoE)架构打造,包含中文XVERSE-Ent-A4.2B与英文XVERSE-Ent-A5.7B两款模型。该项目...
UltraEval-Audio是全球首个开源的音频大模型专属评测框架,聚焦语音理解与语音生成类任务的全维度、标准化评估。该框架聚合34个权威基准数据集,覆盖语音、声音、医疗、音乐...
RayAI是一款基于Ray分布式计算框架构建的智能体运行时框架,专为AI智能体、MCP服务器和代码沙箱场景设计。它以分布式架构为核心,提供框架无关的兼容性、安全隔离的代码执行...
Open Interpreter是一款开源的大语言模型代码执行工具,核心解决OpenAI官方Code Interpreter托管式、闭源、限制多的痛点,支持在本地环境运行Python、Javascript、Shell等多...