TeleChat3:中国电信开源的国产算力大语言模型(LLM)项目
一、TeleChat3 是什么
TeleChat3 是中国电信人工智能研究院自主研发训练的大语言模型(LLM)开源项目,核心特征是完全基于国产算力构建,涵盖模型推理、微调、国产化硬件适配、多维度能力评估等全链路功能。
该项目围绕 TeleChat3 系列 Thinking 模式模型展开,包括 105B 参数量的混合专家(MoE)模型(TeleChat3-105B-A4.7B-Thinking)和 36B 参数量的稠密模型(TeleChat3-36B-Thinking),不仅提供自研模型的完整实现,还适配 Qwen、GLM4、DeepSeek3 等主流开源模型的国产化部署,是一套面向国产算力生态的大模型全流程解决方案。
TeleChat3 从底层硬件到上层应用全链路适配国产体系,训练基于国产算力集群,推理/微调适配昇腾(Ascend)800T A2/800I A2 硬件,框架基于华为开源的 MindFormers 构建,解决了海外大模型框架/硬件适配性差、国产化部署成本高的问题。
二、功能特色
TeleChat3 以“国产化、全流程、高性能、易扩展”为核心特色,具体功能亮点如下:
1. 全维度的模型能力表现
TeleChat3 系列模型针对知识、数学、创作、代码、Agent、指令六大核心维度做了专项优化,核心评测结果对标主流开源大模型,具体如下表所示:
| 模型名称 | MMLU-Pro(知识) | GPQA-Diamond(复杂知识) | Creative writing v3(创作) | Math-500(数学) | HumanEval-X(代码) |
|---|---|---|---|---|---|
| TeleChat3-36B-Thinking | 80.89 | 70.56 | 84.33 | 95 | 92.67 |
| TeleChat3-105B-A4.7B-Thinking | 82.15 | 71.82 | 85.67 | 94.8 | 93.12 |
| 行业主流开源模型(Qwen3-30B) | 80.5 | 70.2 | 83.8 | 94.5 | 92.5 |
注:数值越高代表模型在该维度能力越强,评测数据均基于 Thinking 思考模式(模型内置的逻辑推理优化策略)。
2. 多方式推理支持,兼顾易用性与高性能
极简本地推理:提供基于 Hugging Face Transformers 的轻量化推理脚本,支持单卡/多卡部署,针对长文本推理做了内存优化,普通开发者可快速上手;
高性能推理部署:集成 vLLM、SGLang 高性能推理框架,提供一键部署脚本(
deploy_thinking_vllm.sh),推理吞吐量提升 3-5 倍,延迟降低 40%+,适配高并发场景;国产化推理适配:基于 MindFormers 框架实现昇腾硬件的原生推理,支持张量并行、数据并行、上下文并行等分布式推理策略,充分利用国产算力集群性能。
3. 灵活的微调能力,适配定制化需求
主流微调框架兼容:提供 LLaMA-Factory 微调教程与配置文件,支持全参数微调、LoRA 微调、QLoRA 微调等多种方式,满足不同算力条件下的定制化训练需求;
权重转换工具:内置
convert_weight.py工具,支持 PyTorch 与 MindSpore 权重互转,解决不同框架间模型迁移的核心痛点;第三方模型适配:已完成 Qwen1.5/2.5、GLM4、DeepSeek3、YiZhao 金融大模型等主流开源模型的 MindFormers 适配,可直接基于 TeleChat3 仓库完成这些模型的国产化微调。
4. 深度国产化适配,全链路自主可控
硬件适配:完全适配昇腾 800T A2/800I A2 国产算力硬件,支持硬件级别的算力调度与资源优化;
框架适配:基于华为 MindFormers 框架构建核心代码,兼容 MindSpore 国产深度学习框架,脱离对海外框架(如 PyTorch 完整版)的依赖;
安全适配:支持动态组网(TCP/TLS 1.3 加密)、纵向联邦学习(HTTP/HTTPS 认证加密),端口可配置且符合国产安全规范,适配政务、金融等敏感场景。
5. 完善的评测体系,可量化模型能力
项目内置六大维度的评测脚本,覆盖通用知识、复杂推理、创作生成、代码编写、Agent 执行、指令遵循等核心场景,开发者可一键运行评测脚本,快速量化模型效果,为模型调优提供数据支撑。
三、技术细节
1. 核心模型架构
TeleChat3 系列模型基于 Transformer 架构做了针对性优化,不同参数量模型的架构细节如下:
| 模型名称 | 参数量类型 | 网络层数 | 隐藏层维度 | 注意力机制 | 适配硬件 |
|---|---|---|---|---|---|
| TeleChat3-36B-Thinking | 稠密 | 64层 | 6144 | GQA(分组查询注意力) | 昇腾800T A2 |
| TeleChat3-105B-A4.7B-Thinking | MoE(混合专家) | 45层 | 2560 | MLA(多尺度注意力) | 昇腾800I A2集群 |
混合专家(MoE)设计:105B 模型采用 MoE 架构,仅激活部分专家层(4.7B 活跃参数量),在保证模型效果的同时降低推理显存占用,适配中小算力集群;
注意力优化:36B 模型采用 GQA 机制平衡推理速度与效果,105B 模型引入 MLA 多尺度注意力,提升长文本(万字级)的理解与生成能力。
2. 核心框架与工具链
TeleChat3 构建了以“国产框架+开源工具”为核心的技术栈,核心组件如下:
(1)MindFormers 核心框架
华为开源的大模型训练/推理框架,是 TeleChat3 国产化部署的核心底座,提供以下关键能力:
分布式训练/推理:支持张量并行(TP)、数据并行(DP)、上下文并行(CP),适配多机多卡集群;
模型配置化管理:通过 YAML 配置文件统一管理模型结构、训练参数、推理策略,降低定制化成本;
安全能力:内置联邦学习(纵向联邦)、加密组网等模块,适配国产化安全需求;
权重管理:支持 safetensors 安全序列化格式,避免权重文件篡改风险,同时支持权重分片,适配大模型低内存部署。
(2)推理/微调工具链
| 工具/框架 | 核心作用 | 对应脚本/文档位置 |
|---|---|---|
| vLLM | 高性能推理框架,提升吞吐量、降低延迟 | eval/deploy_thinking_vllm.sh |
| SGLang | 轻量级高性能推理框架,适配流式输出、多轮对话 | tutorial/telechat_sglang_deploy.md |
| LLaMA-Factory | 一站式微调框架,支持多种微调策略 | tutorial/telechat_llama_factory.md |
| 权重转换工具 | PyTorch ↔ MindSpore 权重互转,解决跨框架模型迁移问题 | mindformers_telechat3/convert_weight.py |
3. 国产化适配关键技术
硬件层适配:针对昇腾 NPU 做了算子优化,将 Transformer 核心算子(如注意力计算、FFN 层)适配昇腾 TIK 语言,提升算子执行效率;
框架层适配:基于 MindSpore 的动态图/静态图混合模式,优化模型编译流程,解决国产框架下模型推理延迟高的问题;
部署层适配:提供国产化部署一键脚本,自动识别昇腾硬件型号、配置算力资源,降低部署门槛。
4. 安全与分布式设计
加密组网:采用 TLS 1.3 加密分布式通信链路,防止数据传输过程中泄露;
动态端口配置:支持自定义通信端口,避免固定端口带来的安全风险;
纵向联邦学习:适配金融、政务等数据敏感场景,支持多方数据联合训练,数据不出域即可完成模型调优。
四、应用场景
TeleChat3 凭借“国产化、全流程、高性能”的特性,可适配多类场景,核心应用方向如下:
1. 国产化大模型部署场景
适用于政务、国企、金融等对“自主可控”有强需求的行业,基于昇腾硬件+MindFormers 框架部署 TeleChat3 模型,替代海外大模型,解决数据安全、算力依赖等问题。例如:
政务大厅智能问答机器人:基于 TeleChat3-36B-Thinking 部署本地化问答系统,处理政策咨询、业务办理指引等需求,数据全程本地化存储;
金融机构智能客服:适配 YiZhao 金融大模型(已集成至 TeleChat3 仓库),完成金融产品咨询、风险提示等场景的国产化部署。
2. 大模型推理优化场景
适用于互联网企业、AI 服务商等对推理性能有高要求的场景,通过 vLLM/SGLang 部署 TeleChat3 模型,提升推理吞吐量。例如:
内容创作平台:基于 TeleChat3-105B-A4.7B-Thinking 提供高质量文案、小说、短视频脚本生成服务,借助高性能推理框架支撑百万级用户并发;
代码生成工具:利用 TeleChat3 优秀的代码能力(HumanEval-X 评分 92.67+),部署本地化代码助手,支持 Python、Java、C++ 等多语言代码生成与调试。
3. 定制化微调场景
适用于有垂直领域需求的企业/开发者,基于 LLaMA-Factory 对 TeleChat3 或第三方模型做微调,适配行业场景。例如:
制造业知识问答:基于 TeleChat3-36B-Thinking 微调制造业领域数据,构建设备故障排查、工艺参数咨询的专属模型;
教育行业题库生成:微调 TeleChat3 模型,生成符合课标要求的数学、语文等学科题库,支持难度分级、解析生成。
4. 大模型能力评测场景
适用于科研机构、AI 企业等需要量化模型能力的场景,利用 TeleChat3 内置的六大维度评测脚本,快速评估自研模型或开源模型的效果,为模型调优提供数据支撑。
5. 第三方模型国产化改造场景
若企业已使用 Qwen、GLM4 等开源模型,可通过 TeleChat3 仓库完成这些模型的 MindFormers 适配,快速迁移至昇腾硬件,实现国产化改造。

五、使用方法
TeleChat3 提供清晰的使用流程,核心分为“环境准备”“模型推理”“模型微调”“国产化部署”四大步骤,以下为通用操作指南:
1. 环境准备
(1)基础环境要求
| 环境类型 | 推荐配置 | 国产化环境适配 |
|---|---|---|
| 操作系统 | Ubuntu 20.04/22.04 | 麒麟系统、统信 UOS(需额外安装依赖) |
| 硬件 | NVIDIA A100/A800(通用)、昇腾800T A2(国产化) | 昇腾800I A2(集群) |
| Python 版本 | 3.8-3.10 | 3.8(MindSpore 兼容版本) |
| 核心依赖 | transformers>=4.35.0、torch>=2.0.0 | mindspore>=2.2.0、mindformers>=1.1.0 |
(2)环境安装
通用环境安装(基于 PyTorch):
# 克隆仓库 git clone https://modelscope.cn/TeleAI/TeleChat3.git cd TeleChat3 # 安装依赖 pip install -r requirements.txt
国产化环境安装(基于 MindSpore/MindFormers):
# 安装昇腾驱动(需根据硬件型号适配,参考昇腾官方文档) # 安装 MindSpore pip install mindspore==2.2.0 ascend # 安装 MindFormers pip install mindformers==1.1.0 # 安装仓库依赖 pip install -r mindformers_telechat3/requirements_mindformers.txt
2. 模型推理
(1)极简本地推理(基于 Transformers)
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加载模型与Tokenizer(需先从ModelScope下载模型权重)
model_path = "TeleChat3-36B-Thinking"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto",
trust_remote_code=True,
torch_dtype="auto"
)
# 推理示例
prompt = "请解释什么是大语言模型的MoE架构?"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)(2)高性能推理(基于 vLLM)
# 运行vLLM部署脚本 bash eval/deploy_thinking_vllm.sh \ --model-path TeleChat3-36B-Thinking \ --tensor-parallel-size 4 \ # 张量并行数,根据显卡数量调整 --port 8000 # 推理服务端口
部署完成后,可通过 HTTP 接口调用推理服务:
import requests
url = "http://localhost:8000/v1/completions"
data = {
"prompt": "请写一段关于国产大模型发展的短文",
"max_tokens": 512,
"temperature": 0.7
}
response = requests.post(url, json=data)
print(response.json()["choices"][0]["text"])3. 模型微调(基于 LLaMA-Factory)
# 参考教程:tutorial/telechat_llama_factory.md # 1. 安装LLaMA-Factory git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e .[torch,metrics] # 2. 运行微调脚本(LoRA微调示例) python src/train_bash.py \ --stage sft \ --model_name_or_path ../TeleChat3/TeleChat3-36B-Thinking \ --do_train \ --dataset custom_dataset.json \ # 自定义数据集 --finetuning_type lora \ --lora_target q_proj,v_proj \ --output_dir ./telechat3_lora_finetuned \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-4 \ --num_train_epochs 3 \ --logging_steps 10 \ --save_steps 100 \ --fp16
4. 国产化部署(基于 MindFormers)
# 1. 权重转换(PyTorch→MindSpore) python mindformers_telechat3/convert_weight.py \ --src_frame torch \ --dst_frame mindspore \ --src_path TeleChat3-36B-Thinking \ --dst_path TeleChat3-36B-Thinking_mindspore # 2. 加载配置文件推理 python mindformers_telechat3/eval/infer_thinking_model.py \ --config mindformers_telechat3/configs/telechat3/telechat3_36b_thinking_infer.yaml \ --model_path TeleChat3-36B-Thinking_mindspore \ --prompt "请简述TeleChat3的国产化特性"
六、常见问题解答
1. Q:TeleChat3 模型权重如何获取?
A:模型权重可从 ModelScope 官方仓库下载,核心模型下载地址:
TeleChat3-105B-A4.7B-Thinking:https://modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking
TeleChat3-36B-Thinking:https://modelscope.cn/models/TeleAI/TeleChat3-36B-Thinking 下载前需完成 ModelScope 账号注册,并同意模型使用协议。
2. Q:昇腾硬件部署时提示“算子不兼容”怎么办?
A:该问题通常是昇腾驱动/固件版本与 MindSpore 版本不匹配导致,解决方案:
确认昇腾硬件型号(800T A2/800I A2),下载对应版本的驱动与固件(参考昇腾官方文档);
安装 MindSpore 昇腾版(
pip install mindspore-ascend),而非 CPU/GPU 版;参考仓库中
tutorial/TeleChat3_国产化运行.md的“算子适配”章节,替换兼容的算子文件。
3. Q:vLLM 部署 TeleChat3-105B 模型时显存不足怎么办?
A:可采用以下优化策略:
增加张量并行数(
--tensor-parallel-size),将模型分片至多张显卡;启用量化推理(
--quantization awq),降低显存占用(需提前对模型做 AWQ 量化);使用 MoE 模型的特性,仅激活部分专家层(仓库内置脚本已默认优化)。
4. Q:PyTorch 与 MindSpore 权重互转后推理结果不一致?
A:该问题多为数据类型/算子精度差异导致,解决方案:
权重转换时指定统一的数据类型(如
--dtype float16);推理时关闭随机种子,固定推理参数(如 temperature=0、top_p=1.0);
参考仓库中
mindformers_telechat3/research/weight_verify.py脚本,校验权重转换后的一致性。
5. Q:LLaMA-Factory 微调时提示“数据集格式错误”?
A:TeleChat3 要求数据集为 JSON 格式,且字段需包含“instruction”“input”“output”,示例格式:
[
{
"instruction": "解释什么是国产算力",
"input": "",
"output": "国产算力指基于自主研发的硬件、软件构建的算力体系,如昇腾NPU、鲲鹏服务器等..."
}
]
可参考仓库中 tutorial/telechat_llama_factory.md 的“数据集格式”章节调整。
6. Q:TeleChat3 支持长文本推理吗?最大支持多少长度?
A:支持,TeleChat3-36B/105B 模型默认支持 4096 上下文长度,通过仓库中的长文本优化脚本(eval/long_context_infer.py)可扩展至 8192 长度,适配万字级文本的理解与生成。
七、相关链接
模型仓库(ModelScope):https://modelscope.cn/organization/TeleAI
模型仓库(Hugging Face):https://huggingface.co/Tele-AI
八、总结
TeleChat3 是中国电信人工智能研究院推出的面向国产算力生态的大语言模型全流程开源项目,以完全基于国产算力训练的 TeleChat3 系列 Thinking 模式模型为核心,覆盖推理、微调、国产化适配、多维度评测等全链路功能,不仅提供高性能、易扩展的通用大模型能力,还深度适配昇腾硬件与 MindFormers 框架,兼容 Qwen、GLM4 等第三方模型的国产化改造,解决了国产场景下大模型部署难、适配性差、性能低的核心痛点,为政务、金融、制造业等多行业提供了自主可控、易用高效的大模型解决方案。
版权及免责申明:本文由@人工智能研究所原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/telechat3.html

