Claude Mythos:Anthropic推出的阶梯式跃升通用前沿AI大模型
Claude Mythos Preview是Anthropic公司发布的最高层级通用前沿大语言模型,内部代号Capybara,命名取自希腊语“叙述/话语”,象征对复杂世界的系统性理解与表达。它独立于现...
Claude Mythos Preview是Anthropic公司发布的最高层级通用前沿大语言模型,内部代号Capybara,命名取自希腊语“叙述/话语”,象征对复杂世界的系统性理解与表达。它独立于现...
Qwen3.6-Plus是阿里云通义实验室发布的Qwen 3.6系列旗舰大语言模型,也是继Qwen 3.5系列后的新一代核心产品。官方将其定位为"当下编程能力最强的国产模型",在多项权威编程...
GPT-5.4 mini是OpenAI发布的轻量级高性能大语言模型,以更低成本、更快速度提供接近旗舰GPT-5.4的核心能力,支持多模态理解、函数调用、网页搜索、文件检索、计算机操控等,...
AgentScope Java是由阿里巴巴通义实验室开源的企业级AI智能体编程框架,面向Java 17+技术栈,提供ReAct推理、工具调用、记忆管理、多智能体协作、安全沙箱、可观测性等全栈...
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
IQuest-Coder-V1是一套专注于代码生成、代码理解与软件工程全流程任务的开源大语言模型系列,由国内量化私募头部机构九坤投资旗下至知创新研究院独立开发并开源。作为聚焦垂...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
2018年前后,ELMo、GPT和BERT三大模型相继问世,分别代表了预训练语言模型的三个重要技术分支,彻底改变了传统NLP任务依赖人工设计特征和特定任务模型的局面。本文AI铺子将...
KTransformers是一款基于CPU-GPU异构计算的开源框架,专注于大型语言模型(LLM)的高效推理与微调优化。项目核心包含kt-kernel(高性能推理内核)和kt-sft(轻量化微调框架...
Bee是由清华大学与腾讯混元团队联合研发的全开源多模态大语言模型(MLLMs)全栈解决方案,项目通过三大核心产出——1500万条双级思维链(CoT)增强的高质量SFT数据集Honey-...
OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型(Omni-Modal Understanding LLM),旨在通过创新架构与高效数据构建,实现对视觉(图像、视频)、音频、文本信息...
本文通俗拆解大语言模型(LLM)工作机制,从核心原理(概率预测 token、Transformer 注意力机制)、五大技术架构模块、预训练 - 微调 - 对齐三阶段训练流程,到 “写智能台...
BitNet是微软推出的一个开源1-bit大语言模型推理框架,专门用于运行1-bit量化的大语言模型(LLM)。该项目最初是为了支持微软自研的BitNet b1.58模型而创建的,但现在已经扩...
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
xLLM 是京东开源的一款高性能大语言模型推理框架,专为国产 AI 加速器优化,采用服务 - 引擎解耦架构,实现高效的企业级部署。该框架通过全图流水线执行、动态形状图优化、...