Mellum2:JetBrains开源的MoE代码大模型,离线私有化部署一站式AI代码助手

原创 发布日期:
68

一、Mellum2是什么

Mellum2是全球知名IDE厂商JetBrains(PyCharm、IDEA、GoLand研发企业)联合德国不来梅Constructor University自研、Apache2.0协议完全开源的MoE混合专家大模型,2026年6月1日正式对外全量开源发布,是初代Mellum(4B稠密纯代码补全模型)的全方位迭代升级产品。

初代Mellum发布于2025年,仅聚焦短文本代码片段补全、上下文仅8192Token;Mellum2从单一代码补全模型升级为通用+代码双能力、支持智能体链式推理、超长上下文离线私有化部署的综合性开源大模型,定位为软件工程领域底层AI基础设施模型,兼顾通用文本理解、数学运算、全链路软件开发、RAG知识库、子智能体调度四大核心能力。

核心基础参数:总参数量12B(120亿)MoE稀疏架构,单Token推理仅激活8个专家、实际生效2.5B(25亿)参数;上下文窗口由初代8K提升至131072 Token(128K超长上下文),原生提供Base基座版、Instruct指令版、Thinking深度推理版三个权重分支,全系列权重免费商用、无版权约束。

研发初衷:解决行业痛点——云端闭源代码AI(Claude Code、Cursor)存在代码数据外流出网、调用API成本高昂、内网隔离环境无法接入、长项目跨文件解析效果差四大短板,Mellum2主打本地离线部署、数据全可控、低成本高性能,成为企业内网编程AI的替代选型。

二、功能特色

2.1 核心五大特色

  • 稀疏算力高配低耗:12B总参知识储备,2.5B实际算力开销,同等硬件下推理吞吐量远超7B~9B稠密开源模型,消费级高端显卡(24G显存RTX4090/3090)即可完整部署全量化权重,H100单卡并发速度较Qwen3-8B提升79%。

  • 128K超长全局上下文:基于YaRN滑动窗口混合注意力优化,完整读取整项目源码、整本技术文档、上万行代码文件,跨文件重构、全项目Bug排查无需拆分文档,对比前代Mellum 8K上下文,大工程代码分析错误率下降37%。

  • 三版本权重分层适配全场景

    1. Base:原生预训练基座,面向二次微调、行业私有化定制;

    2. Instruct:开箱即用指令微调,日常代码生成、文档翻译、通用问答;

    3. Thinking:内置CoT链式思考逻辑,代码调试、数学解题、复杂多步骤智能体任务,EvalPlus代码基准得分78.4%,优于多款主流专用代码模型。

  • 原生深度适配全品类JetBrains IDE:PyCharm、IDEA、WebStorm、GoLand、PhpStorm等全系编辑器内置AI Assistant插件原生兼容,离线模式下完成代码补全、重构、单元测试生成、冲突修复、注释批量编写。

  • 原生工具调用&子智能体能力:内置Function Calling原生逻辑,无需额外提示词工程即可对接第三方工具,可作为Agent工作流的中间调度模型,完成任务拆分、路由分发、结果校验,大幅降低大模型串联开发成本。

2.2 附加实用能力

  1. 多编程语言全覆盖:Java、Python、Go、Rust、PHP、C/C++、JS/TS等20+主流开发语言专项优化;

  2. 多语言通用文本:中英日韩等数十种自然语言翻译、摘要、文案生成;

  3. 轻量化量化友好:原生支持GPTQ/AWQ量化,4bit量化后显存占用压缩60%,16G显存显卡可部署Instruct轻量化版本。

Mellum2:JetBrains开源的MoE代码大模型,离线私有化部署一站式AI代码助手

三、技术细节

3.1 整体架构

  1. MoE混合专家结构:总拆分64个独立专家子网络,路由层根据输入内容动态择优,每个Token仅激活固定8位专家参与运算,剩余专家休眠不占用算力,实现“大参数存知识、小参数做计算”的稀疏优化设计,路由模块采用自研动态负载均衡算法,避免专家闲置或过载。

  2. 注意力机制优化:采用全局+局部滑动窗口混合注意力+YaRN位置编码扩展,128K上下文分为全局关键片段+局部滑动分片,关键代码段落全局注意力、剩余文本分片局部注意力,在保证超长文本理解精度的同时,把128K上下文推理显存开销降低45%,解决传统大长上下文模型显存爆炸问题。

  3. 多输出头预训练设计:除常规文本预测头外,额外增加代码语法预测头、数学逻辑预测头,预训练阶段同步优化通用文本、代码、数学三类任务,实现跨领域能力均衡。

3.2 三阶段预训练数据方案

Mellum2采用课程式三阶段递进预训练,数据量级合计10.6万亿Tokens,训练数据全部采用开源合规数据源,规避版权纠纷:

  • 第一阶段:通用互联网开源网页、书籍、百科类文本,占比45%,夯实通用语言理解、多语言基础能力;

  • 第二阶段:开源数学题库、数理论文、竞赛真题数据,占比25%,优化逻辑推理、方程运算能力;

  • 第三阶段:全球开源仓库合规源码(GitHub/Gitee开源项目)、编程文档、API手册,占比30%,专项强化代码生成、调试、工程化能力。

3.3 权重与量化参数

模型分支 原生精度 推荐部署显存(FP16) 4bit量化显存占用 核心适用场景
Mellum2-Base FP16/BF16 26GB 9GB 私有化微调、行业定制
Mellum2-Instruct FP16/BF16 25GB 8.2GB IDE本地助手、日常问答
Mellum2-Thinking FP16/BF16 27GB 9.5GB 代码深度排错、数学推理、Agent子模型

3.4 底层推理适配

原生兼容vLLM、Transformers、Ollama、LM Studio四大主流推理框架,支持CUDA加速、CPU推理、AMD ROCm显卡部署,开发者可按需选用推理引擎优化吞吐速度。

四、应用场景

4.1 场景1:IDE离线本地AI编程助手(C端/开发者)

对接PyCharm、IDEA等JetBrains全系编辑器,关闭网络后本地加载Mellum2权重,实现离线代码实时补全、Bug定位、函数重构、批量注释、单元测试自动生成,企业涉密开发、内网隔离开发环境首选,杜绝源代码上传第三方云端,解决数据泄密风险。

4.2 场景2:企业私有化RAG知识库底层模型(B端政企)

作为检索增强生成系统核心基座,完成文档切片、查询意图分类、知识库摘要、检索结果重排、答案生成全链路,替代高成本闭源API,金融、军工、政务等强数据管控行业自建私有知识库,数据全程留在内网服务器。

4.3 场景3:AI智能体流水线子模型(AI开发服务商)

在多Agent工作流中承担任务路由、步骤拆解、中间结果校验、工具调用决策,主大模型负责最终输出,Mellum2承接中间重复性推理任务,降低主模型API调用频次,缩减70%以上API采购成本,是Agent系统轻量化改造最优选型。

4.4 场景4:轻量化私有化API服务(中小软件公司)

部署在自有云服务器,对内提供内部业务问答、脚本生成、配置文件编写API,用于内部运维自动化、后端脚本批量生成,替代采购第三方商用大模型接口,长期使用大幅降本。

4.5 场景5:高校&科研机构微调实验

Base版本开源无限制商用,高校计算机、人工智能专业用于代码大模型微调实验、软件工程AI课题研发,低成本开展领域定制模型训练。

Mellum2:JetBrains开源的MoE代码大模型,离线私有化部署一站式AI代码助手

五、使用方法

环境准备、权重拉取、代码部署、IDE接入四部分,附可直接运行代码块

5.1 前置环境配置

推荐Python≥3.9,CUDA11.8+/12.1+,依赖安装命令:

pip install torch transformers accelerate vllm sentencepiece

5.2 HuggingFace权重一键拉取

# 拉取Instruct指令版权重,也可替换Base/Thinking
from huggingface_hub import snapshot_download
model_path = snapshot_download("JetBrains/mellum-2-instruct")

权重合集地址:https://huggingface.co/collections/JetBrains/mellum-2,支持断点续传、镜像加速下载。

5.3 Transformers最简调用示例

from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "JetBrains/mellum-2-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name,device_map="auto")

prompt = "使用Python编写快速排序算法,附带详细注释"
inputs = tokenizer(prompt,return_tensors="pt").to("cuda")
outputs = model.generate(**inputs,max_new_tokens=800)
print(tokenizer.decode(outputs[0],skip_special_tokens=True))

5.4 vLLM高吞吐部署(生产环境推荐)

# 终端启动vLLM接口服务,对外提供OpenAI格式API
python -m vllm.entrypoints.openai.api_server --model JetBrains/mellum-2-instruct --dtype auto

启动后默认http://localhost:8000/v1即可调用标准化API,适配绝大多数现有AI应用系统。

5.5 IDE离线接入步骤

  1. 打开PyCharm/IDEA → File→Settings→Plugins,搜索安装JetBrains AI Assistant插件;

  2. 插件设置→模型选择→本地模型→绑定本机部署的Mellum2 API地址;

  3. 关闭编辑器网络代理,即可全离线使用AI编程能力。

六、竞品对比

选取同级别热门代码向开源模型,从架构、参数、显存、性能、授权、部署成本六大维度对比

对比项目 Mellum2-Instruct Qwen3-8B-Instruct CodeLlama-7B-Instruct
模型架构 MoE稀疏(12B总参/2.5B激活) 稠密全参数8B 稠密全参数7B
最大上下文 128K Token 128K Token 32K Token
FP16部署显存 25GB 18GB 15GB
4bit量化显存 8.2GB 6.5GB 5.2GB
EvalPlus代码评测得分 75.2% 71.8% 69.3%
单H100并发吞吐量 基准100%(参照) 55.8% 48.2%
开源协议 Apache2.0(免费商用无限制) Apache2.0 Meta自定义开源(商用受限)
核心优势 长代码解析强、推理速度快、IDE原生适配 中文通用表现优秀、生态完善 老牌代码模型、社区案例多
短板 中文通用弱于Qwen系列 长项目跨文件分析偏弱 上下文短、商用授权约束多

补充说明:Mellum2-Thinking版本EvalPlus得分78.4%,超过上表所有竞品,主打深度代码调试与数理推理场景。

Mellum2:JetBrains开源的MoE代码大模型,离线私有化部署一站式AI代码助手

七、常见问题解答

Q1:Mellum2三个版本该如何选型?

A:Base版本面向二次微调、行业私有化定制,不适合直接对话使用;Instruct面向常规开发、日常问答、IDE本地助手,绝大多数个人与中小企业首选;Thinking版本用于复杂代码排错、数学运算、智能体深度推理,算力充足场景选用。

Q2:最低什么配置硬件可以本地跑Mellum2?

A:4bit量化后,Instruct最低10G显存显卡(RTX3080Ti/4070Ti)可流畅运行;全精度FP16需要24G及以上显存显卡(RTX4090/A10);无独显设备可使用CPU推理,但生成速度较慢,仅适合测试调试。

Q3:Mellum2可以商用吗,是否存在版权收费?

A:全系列采用Apache2.0开源协议,免费商用、修改、二次分发无任何授权费,企业可嵌入自有产品、私有化部署,无需向JetBrains支付版权费用,训练数据源均为合规开源数据,无隐性版权风险。

Q4:Mellum2支持中文吗,中文能力对比国产Qwen差距大吗?

A:支持中英等多语种,专项优化编程领域中英文;通用日常对话中文效果略低于Qwen3-8B,但代码领域中英文生成、项目解析能力优于Qwen3-8B,侧重软件工程场景而非通用大模型。

Q5:如何基于Mellum2-Base做LoRA微调?

A:支持QLoRA轻量化微调,单张24G显卡即可完成领域微调,使用peft+transformers框架,官方GitHub仓库附带微调示例脚本,可针对行业代码(如金融量化代码、嵌入式代码)定制专属模型。

Q6:Mellum2能否替代Claude Code用于企业内网开发?

A:可以,原生离线部署、数据不出企业服务器,无外部网络请求,金融、涉密企业实测可完整替代云端Claude Code完成全流程开发,大幅削减月度API调用成本。

Q7:128K上下文实际使用有什么限制吗?

A:全精度完整加载128K文本会占用较高显存,日常使用可开启滑动窗口模式,平衡显存占用与上下文效果,vLLM部署原生支持PagedAttention优化超长上下文显存占用。

八、总结

Mellum2依托JetBrains数十年软件工程领域技术积累与对开发者真实需求的深度理解,以MoE稀疏架构打破了大模型性能与部署成本的矛盾,凭借12B总参数、2.5B激活参数的精巧设计,在兼顾超长128K上下文与顶尖代码生成能力的同时,大幅降低本地私有化落地的硬件门槛,搭配宽松的Apache2.0开源协议与原生IDE深度适配优势,精准填补了内网涉密开发、私有化RAG、智能体中间子模型等细分场景的市场空白,是当前开源代码大模型中兼顾实用性、落地成本与商用安全性的标杆产品,既为个人开发者提供免费离线AI编程工具,也为各类政企、技术服务商搭建私有AI系统提供了低成本底座选型。

打赏
THE END
作者头像
人工智能研究所
发现AI神器,探索AI技术!