Ideogram 4:93 亿参数开源文生图模型,海报 LOGO 一键精准排版出图
Ideogram 4是加拿大AI企业Ideogram AI开源的93亿参数(9.3B)DiT架构文生图大模型,也是Ideogram品牌首款开放模型权重、支持本地私有化部署的商用级开源AI绘图模型。在Desi...
Ideogram 4是加拿大AI企业Ideogram AI开源的93亿参数(9.3B)DiT架构文生图大模型,也是Ideogram品牌首款开放模型权重、支持本地私有化部署的商用级开源AI绘图模型。在Desi...
Lance是由字节跳动正式开源发布的轻量化统一原生多模态大模型,整体参数量仅3B,依托自研Transformer主干架构完成全链路从零训练,摒弃传统多模态模型拆分式设计思路,真正...
Inworld Realtime TTS-2 是由 Inworld AI 官方推出的第二代实时语音合成模型,专为真人实时多轮对话场景深度定制,区别于传统面向有声书、旁白播报的通用TTS产品。
ERNIE-Image是百度文心大模型团队推出的开源AI文生图模型,采用8B参数单流DiT架构,内置3B参数提示词增强器(Prompt Enhancer)。核心优势为精准多语言文字渲染、超强指令遵...
TimesFM是谷歌研究院开源的时间序列预测基础模型,采用Decoder-only Transformer架构,经千亿时间点预训练,支持零样本通用预测、16K长上下文、连续分位数概率输出与协变量...
dots.mocr是由小红书人文智能实验室HiLab携手华中科技大学联合研发、完全开源的轻量化多模态文档解析与增强型OCR大模型,隶属于dots系列AI视觉技术生态,专为解决传统OCR技...
Qianfan-OCR是百度千帆团队研发的4B参数端到端统一文档智能模型,基于视觉语言架构,将文档解析、版面分析、文档理解融为一体,支持图像直接转Markdown/JSON/HTML,覆盖OCR...
BiRefNet是一款开源的高分辨率二值化图像分割框架,以双边参考机制为核心创新,专注解决高分辨率图像下分割精度低、显存占用大、推理速度慢等难题。该框架原生支持二值化图...
RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型,专注于图像背景移除领域,该模型核心定位是解决各类图像中前景与背景的精准分离问题,依托专业级训练数据集和优化的...
阿里巴巴集团通义千问大模型技术负责人、阿里最年轻的P10级技术专家林俊旸,于今日凌晨在社交平台X发文宣布卸任。他仅用一句简短的英文告别:“me stepping down. bye my b...
pplx-embed是Perplexity AI推出的一款基于扩散预训练的开源多语言文本嵌入模型系列,包含0.6B和4B两种参数规模,以及标准检索和上下文检索两种功能类型,专为网页级大规模检...
FireRedASR2S是小红书智能创作基础技术团队开源的SOTA级工业级一站式语音识别系统,集成FireRedASR2语音识别、FireRedVAD语音活动检测、FireRedLID语言识别、FireRedPunc标...
Tiny Aya是由CohereLabs开发并开源的轻量级多语言文本生成模型系列,核心研发理念为Bridging Scale and Multilingual Depth(桥接模型规模与多语言深度处理)。作为一款聚焦...
DeepGen 1.0是上海创智研究院DeepGen团队发布的轻量级统一多模态开源模型,聚焦于图像生成与编辑核心任务,是一款专为解决大参数量多模态模型训练成本高、部署门槛高、推理...
FireRed-Image-Edit是由小红书FireRedTeam(超级智能团队) 于2026年2月正式开源的通用型指令式AI图像编辑模型,属于Diffusion Transformer架构,以“自然语言指令驱动、高...