BiRefNet:开源高分辨率二值化图像分割框架,精准实现多场景精细分割与抠图
BiRefNet是一款开源的高分辨率二值化图像分割框架,以双边参考机制为核心创新,专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...
BiRefNet是一款开源的高分辨率二值化图像分割框架,以双边参考机制为核心创新,专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...
RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型,专注于图像背景移除领域,该模型核心定位是解决各类图像中前景与背景的精准分离问题,依托专业级训练数据集和优化的...
阿里巴巴集团通义千问大模型技术负责人、阿里最年轻的P10级技术专家林俊旸,于今日凌晨在社交平台X发文宣布卸任。他仅用一句简短的英文告别:“me stepping down. bye my b...
pplx-embed是Perplexity AI推出的一款基于扩散预训练的开源多语言文本嵌入模型系列,包含0.6B和4B两种参数规模,以及标准检索和上下文检索两种功能类型,专为网页级大规模检...
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
Tiny Aya是由CohereLabs开发并开源的轻量级多语言文本生成模型系列,核心研发理念为Bridging Scale and Multilingual Depth(桥接模型规模与多语言深度处理)。作为一款聚焦...
DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型,聚焦于图像生成与编辑核心任务,是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理...
FireRed-Image-Edit是由小红书FireRedTeam(超级智能团队) 于2026年2月正式开源的通用型指令式AI图像编辑模型,属于Diffusion Transformer架构,以“自然语言指令驱动、高...
Voyage-4-Nano是由Voyage AI开发的一款开源轻量级多语言文本嵌入模型,属于Voyage 4系列文本嵌入模型矩阵的重要组成部分,也是该系列中主打本地开发、设备端应用的开放权重...
LingBot-VA是蚂蚁灵波开源的一款面向通用机器人控制的因果视频-动作世界建模框架,核心基于自回归视频预测与逆向动力学推理,打破传统机器人“观察-反应”的固有模式,通过...
Pixel Reasoner是由滑铁卢大学、香港科技大学、中国科学技术大学及Vector Institute联合TIGER-AI-Lab研发的开源视觉语言模型(VLM)项目,基于Qwen2.5-VL架构搭建,首创像素...
NovaSR是一款开源音频超分辨率(Audio Super-Resolution)模型,基于Python语言开发,隶属于TinyML(微型机器学习)领域的实践成果,核心目标是解决低采样率音频音质差、高...
Spirit-v1.5是由千寻智能(Spirit AI)研发并开源的端到端视觉-语言-动作(VLA)具身智能基础模型,该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...
Qwen3-VL-Reranker 是通义千问团队开源的高性能多模态重排序(Reranker)模型,该模型是一款多模态配对打分模型,核心能力是接收「查询内容+候选内容」的多模态配对输入,并...
Qwen3-VL-Embedding 是阿里云通义千问团队重磅开源的高性能多模态嵌入(Embedding)模型,是通义千问 Qwen3 系列大模型的核心分支产品。该模型基于千问自研的多模态大模型基...