VibeThinker-1.5B:微博开源的1.5B小参数量高性价比强推理模型
VibeThinker-1.5B是一款仅1.5B参数的开源小参数量密集型模型,核心突破在于通过“频谱到信号原理”和两阶段多样性探索蒸馏+强化学习优化,打破了“小模型缺乏强推理能力”的...
VibeThinker-1.5B是一款仅1.5B参数的开源小参数量密集型模型,核心突破在于通过“频谱到信号原理”和两阶段多样性探索蒸馏+强化学习优化,打破了“小模型缺乏强推理能力”的...
Bee是由清华大学与腾讯混元团队联合研发的全开源多模态大语言模型(MLLMs)全栈解决方案,项目通过三大核心产出——1500万条双级思维链(CoT)增强的高质量SFT数据集Honey-...
UniWorld-V2 是一款开源的AI图像编辑模型,专注于提升扩散模型的复杂编辑能力。该项目通过创新的 DiffusionNFT 技术和基于预训练多模态大模型(MLLMs)的无训练奖励模型,实...
Ouro 是多机构联合研发的开源循环语言模型系列,核心创新在于将“推理能力”融入预训练阶段,而非依赖传统大语言模型(LLM)的 post-training 显式文本生成。该系列包含 Ou...
LongCat-Flash-Omni是美团LongCat团队开发的开源全模态大模型,总参数规模达5600亿,基于LongCat-Flash的shortcut-connected混合专家(MoE)架构打造。该模型融合文本、音频...
Kimi Linear是由Moonshot AI开源的混合线性注意力架构,核心基于Kimi Delta Attention(KDA)机制,通过优化门控机制和混合架构设计,在长上下文任务中实现了内存效率与性能...
Qwen3-VL 是 Qwen 系列开源的强大多模态视觉 - 语言模型,支持图像 / 视频理解、文本交互、视觉代理等全场景任务,具备长上下文处理、空间感知、跨语言 OCR 等核心能力,提...
LiveCC 是一款开源实时视频解说大语言模型(Video LLM),旨在通过融合视频视觉信息与流式语音转录(ASR)文本,实现对视频内容的实时理解与动态解说。该项目提供从数据生产...
MinerU 是由 OpenDataLab 开发的开源多模态大模型工具,专注于解决 PDF 等复杂文档的内容提取难题。它通过创新的两阶段推理架构和原生高分辨率处理能力,在布局分析、表格识...
UserLM-8b是微软研究院开发的开源用户模拟大模型,其核心目标是填补“用户角色模拟”的LLM空白——常规LLM以“助手”身份生成帮助性响应,而UserLM-8b专为模拟“用户”在对...
DeepSeek-V3.2-Exp是DeepSeek-AI推出的实验性大模型版本,作为下一代架构的中间迭代产物,其核心基于DeepSeek-V3.1-Terminus升级,创新引入DeepSeek Sparse Attention(DSA...