NovaSR:开源超轻量音频超分模型,极致速将 16kHz 音频升级 48kHz
NovaSR是一款开源音频超分辨率(Audio Super-Resolution)模型,基于Python语言开发,隶属于TinyML(微型机器学习)领域的实践成果,核心目标是解决低采样率音频音质差、高...
NovaSR是一款开源音频超分辨率(Audio Super-Resolution)模型,基于Python语言开发,隶属于TinyML(微型机器学习)领域的实践成果,核心目标是解决低采样率音频音质差、高...
Spirit-v1.5是由千寻智能(Spirit AI)研发并开源的端到端视觉-语言-动作(VLA)具身智能基础模型,该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...
LTX-2是由Lightricks团队开源的音视频生成基础模型项目,不同于传统音视频生成模型“音频+视频”分离式设计,LTX-2从底层架构上实现了音视频同步生成,且无需依赖多个独立模...
Yume是一款开源的现实世界模型项目,聚焦于通过文本、图像或视频等多模态输入创建交互式、逼真且动态的视频世界,核心目标是构建一套完整的现实世界模型体系,涵盖数据层、...
HY-Motion 1.0是腾讯混元团队开源的大规模文本到3D人体动作生成模型系列,核心定位是为数字内容创作领域提供高效、高精度的AI驱动动画生成解决方案。它系统性解决了长期困扰...
2025年12月Mistral AI推出第二代开源编码模型Devstral 2与Devstral Small 2,其中Devstral 2具备1230亿参数、72.2%的SWE-Bench Verified得分,成本效率较Claude Sonnet提升...
Ovis-Image是由阿里巴巴AIDC-AI团队基于Ovis-U1框架开发的一款轻量级开源文本到图像生成模型,核心参数量仅7B,却能在文本渲染任务上实现媲美20B级开源模型及GPT-4o等闭源模...
PartCrafter是由北京大学、字节跳动与卡内基梅隆大学联合开源的结构化 3D 网格生成模型,该模型创新性地采用组合式潜在空间与局部 - 全局联合去噪 Transformer 架构,可直接...
Vidi2是字节跳动智能创作与编辑团队研发的开源大型多模态视频理解与生成模型,作为初代Vidi的迭代升级版本,新增细粒度时空定位(STG)和视频问答(Video QA)核心能力,可...
KaLM-Embedding是一款开源的多功能紧凑多语言文本嵌入模型,聚焦通用文本嵌入任务,凭借多语言支持、紧凑高效、优质训练数据及先进训练技术四大核心优势,在语义表征任务中...
FIBO 是 Bria-AI 开发的首个开源、SOTA( state-of-the-art,最先进)JSON 原生文本到图像模型,基于 8B 参数扩散 Transformer(DiT)架构构建,独家使用 100M + 授权长结构...
UniPixel是由香港理工大学、腾讯ARC实验室等机构联合开发的开源多模态大模型(MLLM),专注于像素级视觉语言理解与细粒度推理任务。该模型基于Qwen2.5-VL系列扩展,融合视觉...