HiDream-O1-Image:智象未来开源的8B参数原生统一图像生成基础大模型
HiDream-O1-Image 是智象未来开源的一款8B参数原生统一图像生成基础大模型,基于自研像素级统一Transformer(UiT) 架构打造,是一款摒弃传统VAE、独立文本编码器冗余结构的...
HiDream-O1-Image 是智象未来开源的一款8B参数原生统一图像生成基础大模型,基于自研像素级统一Transformer(UiT) 架构打造,是一款摒弃传统VAE、独立文本编码器冗余结构的...
SenseNova 6.7 Flash-Lite 是由商汤OpenSenseNova开源推出的新一代轻量化多模态AI智能体大模型,隶属于SenseNova 6.7系列迭代版本,主打轻量高效、原生多模态理解、办公全链...
Mamoda2.5 是字节跳动 Mamoda 团队自研推出的开源统一多模态大模型,依托 DiT-MoE 稀疏混合专家架构 打造,采用 AR-Diffusion 统一建模范式,实现多模态理解、内容生成、智...
SenseNova-U1 是商汤 OpenSenseNova 团队正式开源的原生统一多模态大模型,依托自研 NEO-Unify 架构打造,打破传统多模态模型“视觉编码器+语言模型”拼接式设计,实现图像...
OmniWeaving是由腾讯混元团队联合浙江大学、南洋理工大学开源的统一视频生成模型,以HunyuanVideo-1.5为骨干,具备文本、图像、视频自由组合输入与智能意图推理能力,可完成...
MiniCPM-o 4.5是由面壁智能(OpenBMB)研发并开源的9B参数全双工全模态大语言模型,属于MiniCPM-V多模态模型系列的新一代旗舰版本,其实现了视频、音频、文本的实时流感知与...
UnifoLM-VLA-0是宇树科技UnifoLM模型家族中,面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,也是当前具身智能领域聚焦物理交互的核心开源框架。该模型通过在专业机...
STEP3-VL-10B是阶跃星辰(StepFun AI)开源的轻量级多模态基础大模型,核心定位是在10B(100亿)参数的紧凑规模下,实现高效性与前沿多模态智能的极致平衡,打破“参数越大...
MiniCPM 是由面壁智能、清华大学自然语言处理实验室、中国人民大学高瓴人工智能学院联合开发的一系列轻量级大语言模型开源项目。项目涵盖多版本模型迭代,兼顾性能与效率,...
司农大语言模型(Sinong)是由南京农业大学联合南京理工大学研发的国内首个通用农业领域开源垂直大语言模型,依托超40亿token的农业领域高质量数据集训练构建,提供8B和32B...
AntAngelMed 是由浙江健康信息中心、蚂蚁医疗等联合研发的开源医疗大语言模型,是当前规模最大、性能最强的开源医疗语言模型之一。依托 Ling-flash-2.0 高效 MoE 架构,模型...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
LongCat-Image是美团LongCat团队开源的一款轻量级双语(中英文)图像生成与编辑基础模型,仅6B参数却具备行业领先的性能表现。该模型不仅能实现高质量文本到图像生成,还支...
NewBie-image-Exp0.1是由NewBieAI-Lab团队开源的一款面向动漫风格的文本到图像生成基础模型,该模型以Next-DiT架构为核心基础,整体参数规模达到3.5B,专门针对二次元动漫图...
HunyuanImage-3.0是腾讯混元团队推出的原生多模态图像生成模型,核心定位是“统一多模态理解与生成的自回归框架工具”。与传统基于DiT的图像生成模型不同,它突破性地采用“...