Mellum2:JetBrains开源的MoE代码大模型,离线私有化部署一站式AI代码助手
一、Mellum2是什么
Mellum2是全球知名IDE厂商JetBrains(PyCharm、IDEA、GoLand研发企业)联合德国不来梅Constructor University自研、Apache2.0协议完全开源的MoE混合专家大模型,2026年6月1日正式对外全量开源发布,是初代Mellum(4B稠密纯代码补全模型)的全方位迭代升级产品。
初代Mellum发布于2025年,仅聚焦短文本代码片段补全、上下文仅8192Token;Mellum2从单一代码补全模型升级为通用+代码双能力、支持智能体链式推理、超长上下文离线私有化部署的综合性开源大模型,定位为软件工程领域底层AI基础设施模型,兼顾通用文本理解、数学运算、全链路软件开发、RAG知识库、子智能体调度四大核心能力。
核心基础参数:总参数量12B(120亿)MoE稀疏架构,单Token推理仅激活8个专家、实际生效2.5B(25亿)参数;上下文窗口由初代8K提升至131072 Token(128K超长上下文),原生提供Base基座版、Instruct指令版、Thinking深度推理版三个权重分支,全系列权重免费商用、无版权约束。
研发初衷:解决行业痛点——云端闭源代码AI(Claude Code、Cursor)存在代码数据外流出网、调用API成本高昂、内网隔离环境无法接入、长项目跨文件解析效果差四大短板,Mellum2主打本地离线部署、数据全可控、低成本高性能,成为企业内网编程AI的替代选型。
二、功能特色
2.1 核心五大特色
✅ 稀疏算力高配低耗:12B总参知识储备,2.5B实际算力开销,同等硬件下推理吞吐量远超7B~9B稠密开源模型,消费级高端显卡(24G显存RTX4090/3090)即可完整部署全量化权重,H100单卡并发速度较Qwen3-8B提升79%。
✅ 128K超长全局上下文:基于YaRN滑动窗口混合注意力优化,完整读取整项目源码、整本技术文档、上万行代码文件,跨文件重构、全项目Bug排查无需拆分文档,对比前代Mellum 8K上下文,大工程代码分析错误率下降37%。
✅ 三版本权重分层适配全场景
Base:原生预训练基座,面向二次微调、行业私有化定制;
Instruct:开箱即用指令微调,日常代码生成、文档翻译、通用问答;
Thinking:内置CoT链式思考逻辑,代码调试、数学解题、复杂多步骤智能体任务,EvalPlus代码基准得分78.4%,优于多款主流专用代码模型。
✅ 原生深度适配全品类JetBrains IDE:PyCharm、IDEA、WebStorm、GoLand、PhpStorm等全系编辑器内置AI Assistant插件原生兼容,离线模式下完成代码补全、重构、单元测试生成、冲突修复、注释批量编写。
✅ 原生工具调用&子智能体能力:内置Function Calling原生逻辑,无需额外提示词工程即可对接第三方工具,可作为Agent工作流的中间调度模型,完成任务拆分、路由分发、结果校验,大幅降低大模型串联开发成本。
2.2 附加实用能力
多编程语言全覆盖:Java、Python、Go、Rust、PHP、C/C++、JS/TS等20+主流开发语言专项优化;
多语言通用文本:中英日韩等数十种自然语言翻译、摘要、文案生成;
轻量化量化友好:原生支持GPTQ/AWQ量化,4bit量化后显存占用压缩60%,16G显存显卡可部署Instruct轻量化版本。

三、技术细节
3.1 整体架构
MoE混合专家结构:总拆分64个独立专家子网络,路由层根据输入内容动态择优,每个Token仅激活固定8位专家参与运算,剩余专家休眠不占用算力,实现“大参数存知识、小参数做计算”的稀疏优化设计,路由模块采用自研动态负载均衡算法,避免专家闲置或过载。
注意力机制优化:采用全局+局部滑动窗口混合注意力+YaRN位置编码扩展,128K上下文分为全局关键片段+局部滑动分片,关键代码段落全局注意力、剩余文本分片局部注意力,在保证超长文本理解精度的同时,把128K上下文推理显存开销降低45%,解决传统大长上下文模型显存爆炸问题。
多输出头预训练设计:除常规文本预测头外,额外增加代码语法预测头、数学逻辑预测头,预训练阶段同步优化通用文本、代码、数学三类任务,实现跨领域能力均衡。
3.2 三阶段预训练数据方案
Mellum2采用课程式三阶段递进预训练,数据量级合计10.6万亿Tokens,训练数据全部采用开源合规数据源,规避版权纠纷:
第一阶段:通用互联网开源网页、书籍、百科类文本,占比45%,夯实通用语言理解、多语言基础能力;
第二阶段:开源数学题库、数理论文、竞赛真题数据,占比25%,优化逻辑推理、方程运算能力;
第三阶段:全球开源仓库合规源码(GitHub/Gitee开源项目)、编程文档、API手册,占比30%,专项强化代码生成、调试、工程化能力。
3.3 权重与量化参数
| 模型分支 | 原生精度 | 推荐部署显存(FP16) | 4bit量化显存占用 | 核心适用场景 |
|---|---|---|---|---|
| Mellum2-Base | FP16/BF16 | 26GB | 9GB | 私有化微调、行业定制 |
| Mellum2-Instruct | FP16/BF16 | 25GB | 8.2GB | IDE本地助手、日常问答 |
| Mellum2-Thinking | FP16/BF16 | 27GB | 9.5GB | 代码深度排错、数学推理、Agent子模型 |
3.4 底层推理适配
原生兼容vLLM、Transformers、Ollama、LM Studio四大主流推理框架,支持CUDA加速、CPU推理、AMD ROCm显卡部署,开发者可按需选用推理引擎优化吞吐速度。
四、应用场景
4.1 场景1:IDE离线本地AI编程助手(C端/开发者)
对接PyCharm、IDEA等JetBrains全系编辑器,关闭网络后本地加载Mellum2权重,实现离线代码实时补全、Bug定位、函数重构、批量注释、单元测试自动生成,企业涉密开发、内网隔离开发环境首选,杜绝源代码上传第三方云端,解决数据泄密风险。
4.2 场景2:企业私有化RAG知识库底层模型(B端政企)
作为检索增强生成系统核心基座,完成文档切片、查询意图分类、知识库摘要、检索结果重排、答案生成全链路,替代高成本闭源API,金融、军工、政务等强数据管控行业自建私有知识库,数据全程留在内网服务器。
4.3 场景3:AI智能体流水线子模型(AI开发服务商)
在多Agent工作流中承担任务路由、步骤拆解、中间结果校验、工具调用决策,主大模型负责最终输出,Mellum2承接中间重复性推理任务,降低主模型API调用频次,缩减70%以上API采购成本,是Agent系统轻量化改造最优选型。
4.4 场景4:轻量化私有化API服务(中小软件公司)
部署在自有云服务器,对内提供内部业务问答、脚本生成、配置文件编写API,用于内部运维自动化、后端脚本批量生成,替代采购第三方商用大模型接口,长期使用大幅降本。
4.5 场景5:高校&科研机构微调实验
Base版本开源无限制商用,高校计算机、人工智能专业用于代码大模型微调实验、软件工程AI课题研发,低成本开展领域定制模型训练。

五、使用方法
分环境准备、权重拉取、代码部署、IDE接入四部分,附可直接运行代码块
5.1 前置环境配置
推荐Python≥3.9,CUDA11.8+/12.1+,依赖安装命令:
pip install torch transformers accelerate vllm sentencepiece
5.2 HuggingFace权重一键拉取
# 拉取Instruct指令版权重,也可替换Base/Thinking
from huggingface_hub import snapshot_download
model_path = snapshot_download("JetBrains/mellum-2-instruct")
权重合集地址:https://huggingface.co/collections/JetBrains/mellum-2,支持断点续传、镜像加速下载。
5.3 Transformers最简调用示例
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "JetBrains/mellum-2-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name,device_map="auto")
prompt = "使用Python编写快速排序算法,附带详细注释"
inputs = tokenizer(prompt,return_tensors="pt").to("cuda")
outputs = model.generate(**inputs,max_new_tokens=800)
print(tokenizer.decode(outputs[0],skip_special_tokens=True))5.4 vLLM高吞吐部署(生产环境推荐)
# 终端启动vLLM接口服务,对外提供OpenAI格式API python -m vllm.entrypoints.openai.api_server --model JetBrains/mellum-2-instruct --dtype auto
启动后默认http://localhost:8000/v1即可调用标准化API,适配绝大多数现有AI应用系统。
5.5 IDE离线接入步骤
打开PyCharm/IDEA → File→Settings→Plugins,搜索安装JetBrains AI Assistant插件;
插件设置→模型选择→本地模型→绑定本机部署的Mellum2 API地址;
关闭编辑器网络代理,即可全离线使用AI编程能力。
六、竞品对比
选取同级别热门代码向开源模型,从架构、参数、显存、性能、授权、部署成本六大维度对比
| 对比项目 | Mellum2-Instruct | Qwen3-8B-Instruct | CodeLlama-7B-Instruct |
|---|---|---|---|
| 模型架构 | MoE稀疏(12B总参/2.5B激活) | 稠密全参数8B | 稠密全参数7B |
| 最大上下文 | 128K Token | 128K Token | 32K Token |
| FP16部署显存 | 25GB | 18GB | 15GB |
| 4bit量化显存 | 8.2GB | 6.5GB | 5.2GB |
| EvalPlus代码评测得分 | 75.2% | 71.8% | 69.3% |
| 单H100并发吞吐量 | 基准100%(参照) | 55.8% | 48.2% |
| 开源协议 | Apache2.0(免费商用无限制) | Apache2.0 | Meta自定义开源(商用受限) |
| 核心优势 | 长代码解析强、推理速度快、IDE原生适配 | 中文通用表现优秀、生态完善 | 老牌代码模型、社区案例多 |
| 短板 | 中文通用弱于Qwen系列 | 长项目跨文件分析偏弱 | 上下文短、商用授权约束多 |
补充说明:Mellum2-Thinking版本EvalPlus得分78.4%,超过上表所有竞品,主打深度代码调试与数理推理场景。

七、常见问题解答
Q1:Mellum2三个版本该如何选型?
A:Base版本面向二次微调、行业私有化定制,不适合直接对话使用;Instruct面向常规开发、日常问答、IDE本地助手,绝大多数个人与中小企业首选;Thinking版本用于复杂代码排错、数学运算、智能体深度推理,算力充足场景选用。
Q2:最低什么配置硬件可以本地跑Mellum2?
A:4bit量化后,Instruct最低10G显存显卡(RTX3080Ti/4070Ti)可流畅运行;全精度FP16需要24G及以上显存显卡(RTX4090/A10);无独显设备可使用CPU推理,但生成速度较慢,仅适合测试调试。
Q3:Mellum2可以商用吗,是否存在版权收费?
A:全系列采用Apache2.0开源协议,免费商用、修改、二次分发无任何授权费,企业可嵌入自有产品、私有化部署,无需向JetBrains支付版权费用,训练数据源均为合规开源数据,无隐性版权风险。
Q4:Mellum2支持中文吗,中文能力对比国产Qwen差距大吗?
A:支持中英等多语种,专项优化编程领域中英文;通用日常对话中文效果略低于Qwen3-8B,但代码领域中英文生成、项目解析能力优于Qwen3-8B,侧重软件工程场景而非通用大模型。
Q5:如何基于Mellum2-Base做LoRA微调?
A:支持QLoRA轻量化微调,单张24G显卡即可完成领域微调,使用peft+transformers框架,官方GitHub仓库附带微调示例脚本,可针对行业代码(如金融量化代码、嵌入式代码)定制专属模型。
Q6:Mellum2能否替代Claude Code用于企业内网开发?
A:可以,原生离线部署、数据不出企业服务器,无外部网络请求,金融、涉密企业实测可完整替代云端Claude Code完成全流程开发,大幅削减月度API调用成本。
Q7:128K上下文实际使用有什么限制吗?
A:全精度完整加载128K文本会占用较高显存,日常使用可开启滑动窗口模式,平衡显存占用与上下文效果,vLLM部署原生支持PagedAttention优化超长上下文显存占用。
八、总结
Mellum2依托JetBrains数十年软件工程领域技术积累与对开发者真实需求的深度理解,以MoE稀疏架构打破了大模型性能与部署成本的矛盾,凭借12B总参数、2.5B激活参数的精巧设计,在兼顾超长128K上下文与顶尖代码生成能力的同时,大幅降低本地私有化落地的硬件门槛,搭配宽松的Apache2.0开源协议与原生IDE深度适配优势,精准填补了内网涉密开发、私有化RAG、智能体中间子模型等细分场景的市场空白,是当前开源代码大模型中兼顾实用性、落地成本与商用安全性的标杆产品,既为个人开发者提供免费离线AI编程工具,也为各类政企、技术服务商搭建私有AI系统提供了低成本底座选型。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/mellum2.html

