Mellum2：JetBrains开源的MoE代码大模型，离线私有化部署一站式AI代码助手

AI新闻人工智能研究所 1个月前

159

一、Mellum2是什么

Mellum2是全球知名IDE厂商JetBrains（PyCharm、IDEA、GoLand研发企业）联合德国不来梅Constructor University自研、Apache2.0协议完全开源的MoE混合专家大模型，2026年6月1日正式对外全量开源发布，是初代Mellum（4B稠密纯代码补全模型）的全方位迭代升级产品。

初代Mellum发布于2025年，仅聚焦短文本代码片段补全、上下文仅8192Token；Mellum2从单一代码补全模型升级为通用+代码双能力、支持智能体链式推理、超长上下文离线私有化部署的综合性开源大模型，定位为软件工程领域底层AI基础设施模型，兼顾通用文本理解、数学运算、全链路软件开发、RAG知识库、子智能体调度四大核心能力。

核心基础参数：总参数量12B（120亿）MoE稀疏架构，单Token推理仅激活8个专家、实际生效2.5B（25亿）参数；上下文窗口由初代8K提升至131072 Token（128K超长上下文），原生提供Base基座版、Instruct指令版、Thinking深度推理版三个权重分支，全系列权重免费商用、无版权约束。

研发初衷：解决行业痛点——云端闭源代码AI（Claude Code、Cursor）存在代码数据外流出网、调用API成本高昂、内网隔离环境无法接入、长项目跨文件解析效果差四大短板，Mellum2主打本地离线部署、数据全可控、低成本高性能，成为企业内网编程AI的替代选型。

二、功能特色

2.1 核心五大特色

✅ 稀疏算力高配低耗：12B总参知识储备，2.5B实际算力开销，同等硬件下推理吞吐量远超7B~9B稠密开源模型，消费级高端显卡（24G显存RTX4090/3090）即可完整部署全量化权重，H100单卡并发速度较Qwen3-8B提升79%。
✅ 128K超长全局上下文：基于YaRN滑动窗口混合注意力优化，完整读取整项目源码、整本技术文档、上万行代码文件，跨文件重构、全项目Bug排查无需拆分文档，对比前代Mellum 8K上下文，大工程代码分析错误率下降37%。
✅ 三版本权重分层适配全场景

Base：原生预训练基座，面向二次微调、行业私有化定制；
Instruct：开箱即用指令微调，日常代码生成、文档翻译、通用问答；
Thinking：内置CoT链式思考逻辑，代码调试、数学解题、复杂多步骤智能体任务，EvalPlus代码基准得分78.4%，优于多款主流专用代码模型。

✅ 原生深度适配全品类JetBrains IDE：PyCharm、IDEA、WebStorm、GoLand、PhpStorm等全系编辑器内置AI Assistant插件原生兼容，离线模式下完成代码补全、重构、单元测试生成、冲突修复、注释批量编写。
✅ 原生工具调用&子智能体能力：内置Function Calling原生逻辑，无需额外提示词工程即可对接第三方工具，可作为Agent工作流的中间调度模型，完成任务拆分、路由分发、结果校验，大幅降低大模型串联开发成本。

2.2 附加实用能力

多编程语言全覆盖：Java、Python、Go、Rust、PHP、C/C++、JS/TS等20+主流开发语言专项优化；
多语言通用文本：中英日韩等数十种自然语言翻译、摘要、文案生成；
轻量化量化友好：原生支持GPTQ/AWQ量化，4bit量化后显存占用压缩60%，16G显存显卡可部署Instruct轻量化版本。

Mellum2：JetBrains开源的MoE代码大模型，离线私有化部署一站式AI代码助手

三、技术细节

3.1 整体架构

MoE混合专家结构：总拆分64个独立专家子网络，路由层根据输入内容动态择优，每个Token仅激活固定8位专家参与运算，剩余专家休眠不占用算力，实现“大参数存知识、小参数做计算”的稀疏优化设计，路由模块采用自研动态负载均衡算法，避免专家闲置或过载。
注意力机制优化：采用全局+局部滑动窗口混合注意力+YaRN位置编码扩展，128K上下文分为全局关键片段+局部滑动分片，关键代码段落全局注意力、剩余文本分片局部注意力，在保证超长文本理解精度的同时，把128K上下文推理显存开销降低45%，解决传统大长上下文模型显存爆炸问题。
多输出头预训练设计：除常规文本预测头外，额外增加代码语法预测头、数学逻辑预测头，预训练阶段同步优化通用文本、代码、数学三类任务，实现跨领域能力均衡。

3.2 三阶段预训练数据方案

Mellum2采用课程式三阶段递进预训练，数据量级合计10.6万亿Tokens，训练数据全部采用开源合规数据源，规避版权纠纷：

第一阶段：通用互联网开源网页、书籍、百科类文本，占比45%，夯实通用语言理解、多语言基础能力；
第二阶段：开源数学题库、数理论文、竞赛真题数据，占比25%，优化逻辑推理、方程运算能力；
第三阶段：全球开源仓库合规源码（GitHub/Gitee开源项目）、编程文档、API手册，占比30%，专项强化代码生成、调试、工程化能力。

3.3 权重与量化参数

模型分支	原生精度	推荐部署显存(FP16)	4bit量化显存占用	核心适用场景
Mellum2-Base	FP16/BF16	26GB	9GB	私有化微调、行业定制
Mellum2-Instruct	FP16/BF16	25GB	8.2GB	IDE本地助手、日常问答
Mellum2-Thinking	FP16/BF16	27GB	9.5GB	代码深度排错、数学推理、Agent子模型

3.4 底层推理适配

原生兼容vLLM、Transformers、Ollama、LM Studio四大主流推理框架，支持CUDA加速、CPU推理、AMD ROCm显卡部署，开发者可按需选用推理引擎优化吞吐速度。

四、应用场景

4.1 场景1：IDE离线本地AI编程助手（C端/开发者）

对接PyCharm、IDEA等JetBrains全系编辑器，关闭网络后本地加载Mellum2权重，实现离线代码实时补全、Bug定位、函数重构、批量注释、单元测试自动生成，企业涉密开发、内网隔离开发环境首选，杜绝源代码上传第三方云端，解决数据泄密风险。

4.2 场景2：企业私有化RAG知识库底层模型（B端政企）

作为检索增强生成系统核心基座，完成文档切片、查询意图分类、知识库摘要、检索结果重排、答案生成全链路，替代高成本闭源API，金融、军工、政务等强数据管控行业自建私有知识库，数据全程留在内网服务器。

4.3 场景3：AI智能体流水线子模型（AI开发服务商）

在多Agent工作流中承担任务路由、步骤拆解、中间结果校验、工具调用决策，主大模型负责最终输出，Mellum2承接中间重复性推理任务，降低主模型API调用频次，缩减70%以上API采购成本，是Agent系统轻量化改造最优选型。

4.4 场景4：轻量化私有化API服务（中小软件公司）

部署在自有云服务器，对内提供内部业务问答、脚本生成、配置文件编写API，用于内部运维自动化、后端脚本批量生成，替代采购第三方商用大模型接口，长期使用大幅降本。

4.5 场景5：高校&科研机构微调实验

Base版本开源无限制商用，高校计算机、人工智能专业用于代码大模型微调实验、软件工程AI课题研发，低成本开展领域定制模型训练。

Mellum2：JetBrains开源的MoE代码大模型，离线私有化部署一站式AI代码助手

五、使用方法

分环境准备、权重拉取、代码部署、IDE接入四部分，附可直接运行代码块

5.1 前置环境配置

推荐Python≥3.9，CUDA11.8+/12.1+，依赖安装命令：

pip install torch transformers accelerate vllm sentencepiece

5.2 HuggingFace权重一键拉取

# 拉取Instruct指令版权重，也可替换Base/Thinking
from huggingface_hub import snapshot_download
model_path = snapshot_download("JetBrains/mellum-2-instruct")

权重合集地址：https://huggingface.co/collections/JetBrains/mellum-2，支持断点续传、镜像加速下载。

5.3 Transformers最简调用示例

from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "JetBrains/mellum-2-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name,device_map="auto")

prompt = "使用Python编写快速排序算法，附带详细注释"
inputs = tokenizer(prompt,return_tensors="pt").to("cuda")
outputs = model.generate(**inputs,max_new_tokens=800)
print(tokenizer.decode(outputs[0],skip_special_tokens=True))

5.4 vLLM高吞吐部署（生产环境推荐）

# 终端启动vLLM接口服务，对外提供OpenAI格式API
python -m vllm.entrypoints.openai.api_server --model JetBrains/mellum-2-instruct --dtype auto

启动后默认http://localhost:8000/v1即可调用标准化API，适配绝大多数现有AI应用系统。

5.5 IDE离线接入步骤

打开PyCharm/IDEA → File→Settings→Plugins，搜索安装JetBrains AI Assistant插件；
插件设置→模型选择→本地模型→绑定本机部署的Mellum2 API地址；
关闭编辑器网络代理，即可全离线使用AI编程能力。

六、竞品对比

选取同级别热门代码向开源模型，从架构、参数、显存、性能、授权、部署成本六大维度对比

对比项目	Mellum2-Instruct	Qwen3-8B-Instruct	CodeLlama-7B-Instruct
模型架构	MoE稀疏（12B总参/2.5B激活）	稠密全参数8B	稠密全参数7B
最大上下文	128K Token	128K Token	32K Token
FP16部署显存	25GB	18GB	15GB
4bit量化显存	8.2GB	6.5GB	5.2GB
EvalPlus代码评测得分	75.2%	71.8%	69.3%
单H100并发吞吐量	基准100%（参照）	55.8%	48.2%
开源协议	Apache2.0（免费商用无限制）	Apache2.0	Meta自定义开源（商用受限）
核心优势	长代码解析强、推理速度快、IDE原生适配	中文通用表现优秀、生态完善	老牌代码模型、社区案例多
短板	中文通用弱于Qwen系列	长项目跨文件分析偏弱	上下文短、商用授权约束多

补充说明：Mellum2-Thinking版本EvalPlus得分78.4%，超过上表所有竞品，主打深度代码调试与数理推理场景。

Mellum2：JetBrains开源的MoE代码大模型，离线私有化部署一站式AI代码助手

七、常见问题解答

Q1：Mellum2三个版本该如何选型？

A：Base版本面向二次微调、行业私有化定制，不适合直接对话使用；Instruct面向常规开发、日常问答、IDE本地助手，绝大多数个人与中小企业首选；Thinking版本用于复杂代码排错、数学运算、智能体深度推理，算力充足场景选用。

Q2：最低什么配置硬件可以本地跑Mellum2？

A：4bit量化后，Instruct最低10G显存显卡（RTX3080Ti/4070Ti）可流畅运行；全精度FP16需要24G及以上显存显卡（RTX4090/A10）；无独显设备可使用CPU推理，但生成速度较慢，仅适合测试调试。

Q3：Mellum2可以商用吗，是否存在版权收费？

A：全系列采用Apache2.0开源协议，免费商用、修改、二次分发无任何授权费，企业可嵌入自有产品、私有化部署，无需向JetBrains支付版权费用，训练数据源均为合规开源数据，无隐性版权风险。

Q4：Mellum2支持中文吗，中文能力对比国产Qwen差距大吗？

A：支持中英等多语种，专项优化编程领域中英文；通用日常对话中文效果略低于Qwen3-8B，但代码领域中英文生成、项目解析能力优于Qwen3-8B，侧重软件工程场景而非通用大模型。

Q5：如何基于Mellum2-Base做LoRA微调？

A：支持QLoRA轻量化微调，单张24G显卡即可完成领域微调，使用peft+transformers框架，官方GitHub仓库附带微调示例脚本，可针对行业代码（如金融量化代码、嵌入式代码）定制专属模型。

Q6：Mellum2能否替代Claude Code用于企业内网开发？

A：可以，原生离线部署、数据不出企业服务器，无外部网络请求，金融、涉密企业实测可完整替代云端Claude Code完成全流程开发，大幅削减月度API调用成本。

Q7：128K上下文实际使用有什么限制吗？

A：全精度完整加载128K文本会占用较高显存，日常使用可开启滑动窗口模式，平衡显存占用与上下文效果，vLLM部署原生支持PagedAttention优化超长上下文显存占用。

八、总结

Mellum2依托JetBrains数十年软件工程领域技术积累与对开发者真实需求的深度理解，以MoE稀疏架构打破了大模型性能与部署成本的矛盾，凭借12B总参数、2.5B激活参数的精巧设计，在兼顾超长128K上下文与顶尖代码生成能力的同时，大幅降低本地私有化落地的硬件门槛，搭配宽松的Apache2.0开源协议与原生IDE深度适配优势，精准填补了内网涉密开发、私有化RAG、智能体中间子模型等细分场景的市场空白，是当前开源代码大模型中兼顾实用性、落地成本与商用安全性的标杆产品，既为个人开发者提供免费离线AI编程工具，也为各类政企、技术服务商搭建私有AI系统提供了低成本底座选型。