Voyage-4-Nano:Voyage AI推出的开源轻量级文本嵌入模型,低成本实现高性能语义检索
Voyage-4-Nano是由Voyage AI开发的一款开源轻量级多语言文本嵌入模型,属于Voyage 4系列文本嵌入模型矩阵的重要组成部分,也是该系列中主打本地开发、设备端应用的开放权重...
Voyage-4-Nano是由Voyage AI开发的一款开源轻量级多语言文本嵌入模型,属于Voyage 4系列文本嵌入模型矩阵的重要组成部分,也是该系列中主打本地开发、设备端应用的开放权重...
LingBot-VA是蚂蚁灵波开源的一款面向通用机器人控制的因果视频-动作世界建模框架,核心基于自回归视频预测与逆向动力学推理,打破传统机器人“观察-反应”的固有模式,通过...
Pixel Reasoner是由滑铁卢大学、香港科技大学、中国科学技术大学及Vector Institute联合TIGER-AI-Lab研发的开源视觉语言模型(VLM)项目,基于Qwen2.5-VL架构搭建,首创像素...
NovaSR是一款开源音频超分辨率(Audio Super-Resolution)模型,基于Python语言开发,隶属于TinyML(微型机器学习)领域的实践成果,核心目标是解决低采样率音频音质差、高...
Spirit-v1.5是由千寻智能(Spirit AI)研发并开源的端到端视觉-语言-动作(VLA)具身智能基础模型,该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
Yume是一款开源的现实世界模型项目,聚焦于通过文本、图像或视频等多模态输入创建交互式、逼真且动态的视频世界,核心目标是构建一套完整的现实世界模型体系,涵盖数据层、...
HY-Motion 1.0是腾讯混元团队开源的大规模文本到3D人体动作生成模型系列,核心定位是为数字内容创作领域提供高效、高精度的AI驱动动画生成解决方案。它系统性解决了长期困扰...
2025年12月Mistral AI推出第二代开源编码模型Devstral 2与Devstral Small 2,其中Devstral 2具备1230亿参数、72.2%的SWE-Bench Verified得分,成本效率较Claude Sonnet提升...
Ovis-Image是由阿里巴巴AIDC-AI团队基于Ovis-U1框架开发的一款轻量级开源文本到图像生成模型,核心参数量仅7B,却能在文本渲染任务上实现媲美20B级开源模型及GPT-4o等闭源模...
PartCrafter是由北京大学、字节跳动与卡内基梅隆大学联合开源的结构化 3D 网格生成模型,该模型创新性地采用组合式潜在空间与局部 - 全局联合去噪 Transformer 架构,可直接...
Vidi2是字节跳动智能创作与编辑团队研发的开源大型多模态视频理解与生成模型,作为初代Vidi的迭代升级版本,新增细粒度时空定位(STG)和视频问答(Video QA)核心能力,可...
KaLM-Embedding是一款开源的多功能紧凑多语言文本嵌入模型,聚焦通用文本嵌入任务,凭借多语言支持、紧凑高效、优质训练数据及先进训练技术四大核心优势,在语义表征任务中...