ERNIE-Image:百度文心开源的8B参数单流DiT架构AI文生图工具
ERNIE-Image是百度文心大模型团队推出的开源AI文生图模型,采用8B参数单流DiT架构,内置3B参数提示词增强器(Prompt Enhancer)。核心优势为精准多语言文字渲染、超强指令遵...
ERNIE-Image是百度文心大模型团队推出的开源AI文生图模型,采用8B参数单流DiT架构,内置3B参数提示词增强器(Prompt Enhancer)。核心优势为精准多语言文字渲染、超强指令遵...
TimesFM是谷歌研究院开源的时间序列预测基础模型,采用Decoder-only Transformer架构,经千亿时间点预训练,支持零样本通用预测、16K长上下文、连续分位数概率输出与协变量...
dots.mocr是由小红书人文智能实验室HiLab携手华中科技大学联合研发、完全开源的轻量化多模态文档解析与增强型OCR大模型,隶属于dots系列AI视觉技术生态,专为解决传统OCR技...
Qianfan-OCR是百度千帆团队研发的4B参数端到端统一文档智能模型,基于视觉语言架构,将文档解析、版面分析、文档理解融为一体,支持图像直接转Markdown/JSON/HTML,覆盖OCR...
BiRefNet是一款开源的高分辨率二值化图像分割框架,以双边参考机制为核心创新,专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...
RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型,专注于图像背景移除领域,该模型核心定位是解决各类图像中前景与背景的精准分离问题,依托专业级训练数据集和优化的...
阿里巴巴集团通义千问大模型技术负责人、阿里最年轻的P10级技术专家林俊旸,于今日凌晨在社交平台X发文宣布卸任。他仅用一句简短的英文告别:“me stepping down. bye my b...
pplx-embed是Perplexity AI推出的一款基于扩散预训练的开源多语言文本嵌入模型系列,包含0.6B和4B两种参数规模,以及标准检索和上下文检索两种功能类型,专为网页级大规模检...
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
Tiny Aya是由CohereLabs开发并开源的轻量级多语言文本生成模型系列,核心研发理念为Bridging Scale and Multilingual Depth(桥接模型规模与多语言深度处理)。作为一款聚焦...
DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型,聚焦于图像生成与编辑核心任务,是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理...
FireRed-Image-Edit是由小红书FireRedTeam(超级智能团队) 于2026年2月正式开源的通用型指令式AI图像编辑模型,属于Diffusion Transformer架构,以“自然语言指令驱动、高...
Voyage-4-Nano是由Voyage AI开发的一款开源轻量级多语言文本嵌入模型,属于Voyage 4系列文本嵌入模型矩阵的重要组成部分,也是该系列中主打本地开发、设备端应用的开放权重...
LingBot-VA是蚂蚁灵波开源的一款面向通用机器人控制的因果视频-动作世界建模框架,核心基于自回归视频预测与逆向动力学推理,打破传统机器人“观察-反应”的固有模式,通过...
Pixel Reasoner是由滑铁卢大学、香港科技大学、中国科学技术大学及Vector Institute联合TIGER-AI-Lab研发的开源视觉语言模型(VLM)项目,基于Qwen2.5-VL架构搭建,首创像素...