开源模型

ERNIE-Image：百度文心开源的8B参数单流DiT架构AI文生图工具

ERNIE-Image是百度文心大模型团队推出的开源AI文生图模型，采用8B参数单流DiT架构，内置3B参数提示词增强器（Prompt Enhancer）。核心优势为精准多语言文字渲染、超强指令遵...

1周前 AI新闻

91

TimesFM：谷歌开源时序预测基础模型，零样本通用预测与概率化精准输出

TimesFM是谷歌研究院开源的时间序列预测基础模型，采用Decoder-only Transformer架构，经千亿时间点预训练，支持零样本通用预测、16K长上下文、连续分位数概率输出与协变量...

1周前 AI新闻

117

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

dots.mocr是由小红书人文智能实验室HiLab携手华中科技大学联合研发、完全开源的轻量化多模态文档解析与增强型OCR大模型，隶属于dots系列AI视觉技术生态，专为解决传统OCR技...

4周前 AI新闻

92

Qianfan-OCR：百度千帆开源的端到端文档智能模型，一站式实现OCR、版面分析与文档理解

Qianfan-OCR是百度千帆团队研发的4B参数端到端统一文档智能模型，基于视觉语言架构，将文档解析、版面分析、文档理解融为一体，支持图像直接转Markdown/JSON/HTML，覆盖OCR...

1个月前 AI新闻

158

BiRefNet：开源高分辨率二值化图像分割框架，精准实现多场景精细分割与抠图

BiRefNet是一款开源的高分辨率二值化图像分割框架，以双边参考机制为核心创新，专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...

1个月前 AI新闻

99

RMBG-2.0：BRIA AI开源的一键AI抠图工具，高精度实现多场景背景移除

RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型，专注于图像背景移除领域，该模型核心定位是解决各类图像中前景与背景的精准分离问题，依托专业级训练数据集和优化的...

1个月前 AI新闻

94

阿里千问核心负责人林俊旸宣布卸任：曾是阿里最年轻P10，一手带出全球开源第一模型

阿里巴巴集团通义千问大模型技术负责人、阿里最年轻的P10级技术专家林俊旸，于今日凌晨在社交平台X发文宣布卸任。他仅用一句简短的英文告别：“me stepping down. bye my b...

1个月前 AI新闻

88

pplx-embed：Perplexity AI推出的高性能开源文本嵌入工具

pplx-embed是Perplexity AI推出的一款基于扩散预训练的开源多语言文本嵌入模型系列，包含0.6B和4B两种参数规模，以及标准检索和上下文检索两种功能类型，专为网页级大规模检...

1个月前 AI新闻

87

FireRedASR2S：小红书开源的工业级一站式语音识别系统

FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统，集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...

2个月前 AI新闻

268

Tiny Aya：轻量级多语言文本生成模型，实现规模与多语言深度平衡且适配CPU运行

Tiny Aya是由CohereLabs开发并开源的轻量级多语言文本生成模型系列，核心研发理念为Bridging Scale and Multilingual Depth（桥接模型规模与多语言深度处理）。作为一款聚焦...

2个月前 AI新闻

94

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型，聚焦于图像生成与编辑核心任务，是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理...

2个月前 AI新闻

122

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

FireRed-Image-Edit是由小红书FireRedTeam（超级智能团队）于2026年2月正式开源的通用型指令式AI图像编辑模型，属于Diffusion Transformer架构，以“自然语言指令驱动、高...

2个月前 AI新闻

78

Voyage-4-Nano：Voyage AI推出的开源轻量级文本嵌入模型，低成本实现高性能语义检索

Voyage-4-Nano是由Voyage AI开发的一款开源轻量级多语言文本嵌入模型，属于Voyage 4系列文本嵌入模型矩阵的重要组成部分，也是该系列中主打本地开发、设备端应用的开放权重...

2个月前 AI新闻

101

LingBot-VA：蚂蚁灵波开源的机器人自回归视频 - 动作世界模型

LingBot-VA是蚂蚁灵波开源的一款面向通用机器人控制的因果视频-动作世界建模框架，核心基于自回归视频预测与逆向动力学推理，打破传统机器人“观察-反应”的固有模式，通过...

2个月前 AI新闻

132

Pixel Reasoner：开源7B级像素空间视觉推理模型，解锁多模态精细感知与主动视觉操作

Pixel Reasoner是由滑铁卢大学、香港科技大学、中国科学技术大学及Vector Institute联合TIGER-AI-Lab研发的开源视觉语言模型（VLM）项目，基于Qwen2.5-VL架构搭建，首创像素...

2个月前 AI新闻

83

开源模型新闻、工具、教程及资源推荐

ERNIE-Image：百度文心开源的8B参数单流DiT架构AI文生图工具

TimesFM：谷歌开源时序预测基础模型，零样本通用预测与概率化精准输出

dots.mocr：小红书联合华科开源的多模态 OCR 模型，文档解析与图表转 SVG 一体化引擎

Qianfan-OCR：百度千帆开源的端到端文档智能模型，一站式实现OCR、版面分析与文档理解

BiRefNet：开源高分辨率二值化图像分割框架，精准实现多场景精细分割与抠图

RMBG-2.0：BRIA AI开源的一键AI抠图工具，高精度实现多场景背景移除

阿里千问核心负责人林俊旸宣布卸任：曾是阿里最年轻P10，一手带出全球开源第一模型

pplx-embed：Perplexity AI推出的高性能开源文本嵌入工具

FireRedASR2S：小红书开源的工业级一站式语音识别系统

Tiny Aya：轻量级多语言文本生成模型，实现规模与多语言深度平衡且适配CPU运行

DeepGen 1.0：上海创智研究院推出的5B参数多模态图像生成编辑模型

FireRed-Image-Edit：小红书开源的通用AI图像编辑模型，高保真指令遵循与视觉一致性编辑

Voyage-4-Nano：Voyage AI推出的开源轻量级文本嵌入模型，低成本实现高性能语义检索

LingBot-VA：蚂蚁灵波开源的机器人自回归视频 - 动作世界模型

Pixel Reasoner：开源7B级像素空间视觉推理模型，解锁多模态精细感知与主动视觉操作