JoyAI-Image:京东开源的统一多模态图像基础模型,支持精准空间操控与长文本渲染
JoyAI-Image是京东开源的企业级统一多模态图像基础模型,由80亿参数多模态大语言模型与160亿参数多模态扩散Transformer构成,核心聚焦空间智能增强,一站式覆盖图像理解、文...
JoyAI-Image是京东开源的企业级统一多模态图像基础模型,由80亿参数多模态大语言模型与160亿参数多模态扩散Transformer构成,核心聚焦空间智能增强,一站式覆盖图像理解、文...
LongCat-Next是美团旗下LongCat(龙猫)团队开源的原生多模态基础大模型,核心摒弃传统多模态模型“语言基座外挂视觉、音频模块”的拼凑式架构,创新性打造纯离散自回归底层...
Covo-Audio是腾讯AI Lab开源的70亿参数端到端大型音频语言模型(LALM),采用统一架构直接处理连续音频输入并生成音频输出,无需ASR、LLM、TTS多模块拼接。模型具备层级三模...
SongGeneration 2是腾讯AI Lab与清华大学联合研发的开源商用级AI歌曲生成大模型,基于LeVo 2架构,采用LLM与Diffusion混合设计,支持最长4分30秒完整歌曲、多语种精准演唱、...
Phi-4-reasoning-vision-15B是微软开源的150亿参数轻量多模态视觉推理模型,基于“中融合架构”整合视觉感知、文本理解与逻辑推理三大核心能力,具备动态分辨率编码、自适应...
Yuan3.0 Ultra是由浪潮信息YuanLab.ai团队开源的万亿参数级多模态基础大模型,基于MoE混合专家架构,通过LAEP层自适应专家剪枝、RIRM反射抑制奖励、LFA局部滤波注意力三大核...
Ring-V2.5是蚂蚁集团开源的全球首个基于混合线性注意力架构的万亿参数思考模型专属仓库,核心承载Ring-2.5-1T模型的开源发布、技术说明、部署教程与示例演示。该模型突破传...
JoyAI-LLM-Flash是京东开源的一款达到行业先进水平的中型指令大语言模型,核心采用混合专家(Mixture-of-Experts,MoE)稀疏架构设计,打造了480亿总参数、30亿激活参数的参...
Ming-omni-tts是inclusionAI开源的高性能端到端统一音频生成模型,依托自研12.5Hz连续音频Tokenizer与Patch-by-Patch压缩策略,实现语音、音乐、环境音效单通道联合生成,支...
HY-1.8B-2Bit是腾讯AngelSlim团队基于混元Hunyuan-1.8B-Instruct打造的开源2Bit产业级端侧大语言模型,该模型通过量化感知训练(QAT)实现极致压缩,等效参数量0.3B、内存占...
Helcyon-Mercury-12B-v3.0是由XeyonAI团队的HardWire研发的开源本地化大语言模型,是Helcyon系列的第三代版本,也是迄今该系列能力最强、表达最贴近人类的版本。该模型以Mi...
Intern-S1是上海AI实验室研发并开源的通专融合多模态科学推理大模型,是面向全球科研工作者、开发者与教育机构打造的通用科学AI基础平台,核心定位是解决科学研究中多模态数...
Multimodal-Search-R1(简称MMSearch-R1)是一款开源的端到端强化学习框架,核心定位是让多模态大语言模型(LMMs)具备按需、多轮、自主的真实世界多模态搜索能力,解决传统...
SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架,以强化学习为核心技术,赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力,提...
Kimi K2.5是由北京月之暗面科技(Moonshot AI)发布的开源多模态大模型,同步上线于Hugging Face官方仓库,是Kimi系列模型的重磅升级版本。其核心定位是“面向全场景的高性...