Qwen3-VL-Embedding:阿里云开源的多模态嵌入模型,一站式文本图片视频语义向量生成
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
XVERSE-Ent是由深圳元象并开源的面向娱乐领域的专用预训练大语言模型系列,基于混合专家(MoE)架构打造,包含中文XVERSE-Ent-A4.2B与英文XVERSE-Ent-A5.7B两款模型。该项目...
Paper2Any是OpenDCAI团队推出的一款开源多模态科研创作辅助工具,支持从论文PDF、截图、文本等多种输入形式,一键生成可编辑的模型架构图、技术路线图、实验数据图等科研绘...
Computer Use Preview 是谷歌开源的 AI 驱动型计算机操作工具,基于 Gemini 大模型实现自然语言指令转浏览器自动化操作。支持本地 Playwright 与 Browserbase 云浏览器双环...
IQuest-Coder-V1是一套专注于代码生成、代码理解与软件工程全流程任务的开源大语言模型系列,由国内量化私募头部机构九坤投资旗下至知创新研究院独立开发并开源。作为聚焦垂...
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
ideoPipe是一款基于C++开发的轻量级开源视频分析与结构化框架,旨在简化计算机视觉算法的集成流程,支持x86_64/aarch64架构的Ubuntu系统及NVIDIA GPU、华为昇腾、瑞芯微RK3...
Prompt Fill是一款面向AI绘画场景的开源结构化提示词生成工具,核心通过可视化“填空”交互模式解决AI绘画提示词难记忆、难管理、修改繁琐的痛点。该工具支持动态词库管理、...
Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型(Large Audio Language Model)。该模型创新性引入双分辨率语音表示架构...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
