JoyAI-LLM-Flash：京东开源的 MoE 大语言模型，高吞吐强推理多场景智能体适配

原创发布日期：2026-02-22

一、JoyAI-LLM-Flash是什么

JoyAI-LLM-Flash是京东开源的一款达到行业先进水平的中型指令大语言模型，核心采用混合专家（Mixture-of-Experts，MoE）稀疏架构设计，打造了480亿总参数、30亿激活参数的参数体系，在保证大模型表达能力的同时，实现了轻量级推理的效率优势。该模型在20万亿文本Token的大规模语料上完成预训练，预训练阶段采用Muon优化器解决了大规模模型训练的收敛不稳定性问题，后续还经过了大规模监督微调（SFT）、直接偏好优化（DPO）、强化学习（RL）的多阶段全链路调优，调优场景覆盖多种异构环境，最终让模型在前沿知识理解、逻辑推理、代码生成、智能体交互四大核心能力上均达到了优异水平。

作为一款面向实际应用的大语言模型，JoyAI-LLM-Flash并非单纯追求参数规模，而是聚焦训练与推理的效率平衡，通过创新的技术框架和优化手段，让模型在推理阶段仅激活30亿参数，却能发挥出比肩大参数模型的能力，同时大幅提升推理吞吐量。该项目的代码仓库与模型权重均采用Modified MIT License开源，开发者可在遵守许可证基本要求的前提下，自由进行使用、修改、分发甚至商业应用，是一款兼顾技术先进性、实用性与开源开放性的大语言模型，目前已在Hugging Face平台上线，同时提供京东云官方API与本地部署两种使用方式。

二、功能特色

JoyAI-LLM-Flash的核心功能特色围绕训练优化、推理效率、智能体能力、全维度任务表现四大维度打造，既包含原创的技术框架创新，也兼顾了实际应用中的效率与场景适配性，具体特色如下：

（一）创新FiberPO框架，大幅提升训练稳定性与鲁棒性

模型首次将纤维丛理论引入强化学习领域，提出了原创的FiberPO优化框架，该框架专为解决大规模、异构智能体训练的核心痛点设计。在传统的大模型强化学习训练中，面对复杂的数据分布和异构的训练环境，容易出现训练收敛慢、模型鲁棒性差的问题，而FiberPO框架通过纤维丛理论对训练参数空间进行优化设计，让模型在大规模智能体训练中，能够更好地适配复杂数据分布，显著提升了训练过程的稳定性，同时让训练后的模型在不同场景下的鲁棒性大幅增强，为模型的全维度能力打下了坚实的训练基础。

（二）训练推理协同优化，实现1.3-1.7倍推理吞吐量提升

模型创新性地将Muon优化器与稠密MTP（多令牌预测）技术结合，打造了训练-推理协同优化体系，从底层解决了大模型规模扩展过程中的推理不稳定性问题。在传统大模型部署中，参数规模的提升往往会伴随推理效率的下降，而JoyAI-LLM-Flash通过训练阶段的Muon优化器分层优化，让模型参数分布更适配推理场景，再结合推理阶段的MTP技术，实现了推理效率的跨越式提升——相比非MTP版本的模型，其推理吞吐量提升了1.3倍至1.7倍，大幅优化了高并发场景下的使用效率，更适合企业级的规模化部署与应用。

（三）原生智能体能力，适配工具调用与自主问题解决

智能体能力是JoyAI-LLM-Flash的核心设计方向，模型从架构设计到调优阶段，均围绕工具使用、逻辑推理、自主问题解决三大智能体核心能力打造，而非简单的文本生成。模型原生支持工具调用能力，官方提供了完整的工具调用代码示例，可直接对接计算器、文本处理等各类工具，同时具备强大的多步骤推理能力，能够根据用户需求自主分析问题、设计解题路径、完成复杂任务，而非仅给出简单的答案，这种原生的智能体能力让模型无需额外的二次开发，即可快速适配各类智能体应用场景。

（四）全维度能力优异，128K超长上下文处理表现突出

模型在知识对齐、代码生成、数学推理、长上下文处理、智能体交互等全维度任务中均表现优异，在MMLU、HumanEval、GSM8K等主流测评榜单中，成绩均大幅领先Qwen3-30B-A3B-Instuct-2507、GLM-4.7-Flash等同类模型。同时，模型原生支持128K tokens的超长上下文窗口，能够轻松处理长文档分析、长文生成、海量信息检索等长上下文任务，在长上下文专属测评RULER中取得95.60的高分，远超同类模型的89.66（Qwen3-30B）与56.12（GLM-4.7-Flash），解决了传统大模型上下文窗口有限、长文本处理能力弱的痛点。

三、技术细节

JoyAI-LLM-Flash的技术核心围绕混合专家（MoE）架构设计、训练优化技术、推理优化技术三大板块打造，同时搭配了先进的注意力机制与激活函数，让模型在参数效率、训练效率、推理效率上实现了三重平衡，其核心架构参数如下表所示，所有参数均为官方开源的标准配置：

JoyAI-LLM-Flash核心架构参数表

技术指标	具体配置
模型架构	混合专家（Mixture-of-Experts，MoE）
总参数规模	48B（480亿）
激活参数规模	3B（30亿）
总层数（含稠密层）	40层
稠密层层数	1层
注意力隐藏维度	2048
单专家MoE隐藏维度	768
注意力头数	32
专家总数	256个
单Token选中专家数	8个
共享专家数	1个
词汇表大小	129K
上下文窗口长度	128K tokens
注意力机制	MLA
激活函数	SwiGLU

基于上述架构参数，模型的核心技术细节可分为四个部分，各部分技术环环相扣，共同构成了模型的技术体系：

（一）混合专家（MoE）稀疏架构设计

模型采用经典的MoE稀疏架构，这是实现“48B总参数、3B激活参数”的核心技术。模型共设计256个专家模块，同时设置1个共享专家模块，在推理过程中，每个输入Token仅会激活8个专家模块与1个共享专家模块，其余专家模块处于休眠状态，这样的设计让模型在保留48B大参数模型的特征表达能力的同时，将实际推理的计算量控制在3B参数级别，大幅降低了显存占用与计算成本，让模型能够在常规的GPU硬件上实现高效推理。

同时，模型在40层网络中仅设计1层稠密层，其余均为稀疏专家层，这种设计既通过稀疏层控制了推理成本，又通过最后的稠密层实现了特征的聚合与融合，解决了MoE架构容易出现的“专家特征碎片化”问题，平衡了稀疏性与模型表达能力。

（二）训练优化核心技术

Muon优化器：模型预训练阶段的核心优化器，该优化器采用分层优化策略，针对模型中的2D矩阵权重（注意力投影、MLP权重）进行专门优化，通过正交化更新、动量预热、方差缩减、谨慎权重衰减四大特性，解决了大规模MoE模型训练中的收敛不稳定性问题，让模型在20万亿文本Token的大规模预训练中，能够高效、稳定地收敛。
多阶段全链路调优：模型在预训练后，依次经过大规模监督微调（SFT）、直接偏好优化（DPO）、强化学习（RL）三个阶段的调优，其中RL阶段基于原创的FiberPO框架实现，让模型的输出不仅符合语法与逻辑，更贴合人类的偏好与实际应用需求，提升了模型的对齐能力。
大规模预训练语料：模型在20万亿文本Token的语料上完成预训练，语料覆盖中文、英文等多语言，同时包含前沿知识、代码、数学、行业场景等多类型内容，为模型的全维度能力打下了语料基础。

（三）推理优化关键技术

MTP多令牌预测技术：这是提升模型推理吞吐量的核心技术，传统大模型采用单令牌预测，每次仅生成一个Token，而MTP技术支持单次推理生成多个令牌，结合Muon优化器训练的参数分布，让模型在不损失生成质量的前提下，大幅提升了推理速度，最终实现1.3-1.7倍的吞吐量提升。
MLA注意力机制：模型采用MLA注意力机制替代传统的多头自注意力机制，针对MoE架构的稀疏特性进行了优化，能够更高效地捕捉输入文本的上下文关联，同时降低了注意力计算的复杂度，进一步提升了推理效率。
SwiGLU激活函数：激活函数采用SwiGLU，该函数是GLU函数与Swish函数的结合，相比传统的ReLU激活函数，具有更好的梯度传播特性，能够有效缓解模型训练中的梯度消失问题，同时让模型的非线性表达能力更强，提升了模型的特征提取能力。

（四）词汇表与上下文优化

模型的词汇表大小为129K，相比传统大模型的64K或80K词汇表，能够更好地覆盖生僻词、行业专业词、代码关键词等，减少了文本切分后的Token数量，既提升了模型的理解能力，又降低了推理的计算量。同时，模型将上下文窗口设计为128K tokens，通过对注意力机制的优化，解决了长上下文处理中的计算量爆炸问题，让模型能够高效处理超长文本，适配长文档分析、长文生成等实际场景。

四、应用场景

JoyAI-LLM-Flash凭借高吞吐、强推理、原生智能体能力、超长上下文的核心优势，同时在知识、代码、数学、行业场景等多维度任务中表现优异，可广泛适配企业级、开发者级、科研级等多种使用场景，具体的核心应用场景如下：

（一）企业级智能体开发

模型在智能体专属测评中表现突出，SWE-bench Verified达到60.60分，Tau2系列零售、航空、电信测评分别取得67.55、54.00、79.83的高分，非常适合零售、航空、电信、金融等行业的企业级智能体开发。可直接开发客服智能体、运维智能体、业务咨询智能体、销售智能体等，模型的原生工具调用能力让智能体能够对接企业内部的业务系统、计算器、数据查询工具等，自主完成用户的复杂需求，而1.3-1.7倍的高吞吐特性，让智能体能够应对企业高并发的业务请求，大幅提升服务效率。

（二）代码开发与工程实践

模型是一款高性能的代码生成大模型，在代码专属测评中，HumanEval达到96.34分、LiveCodeBench达到65.60分，均大幅领先同类模型，同时在SciCode科学计算代码测评中也表现优异。可适配程序员的日常代码开发、代码调试、单元测试生成、科学计算代码编写等场景，能够根据自然语言描述生成Python、Java、C++等主流编程语言的代码，同时具备代码解释、代码优化的能力，大幅提升程序员的开发效率。此外，模型的高吞吐特性也让其能够适配代码批量生成的场景，如低代码平台的代码自动生成。

（三）数学与科学推理计算

模型拥有极强的数学推理能力，在GSM8K（95.83分）、AIME2025（65.83分）、MATH 500（97.10分）等数学测评中均取得了远超同类模型的成绩，能够处理小学、中学、大学甚至竞赛级别的复杂数学题，同时具备科学推理能力。可适配教育领域的数学答疑、科学知识讲解，科研领域的数学建模、公式推导、科学计算，以及企业领域的数据分析、数值计算等场景，模型的多步骤推理能力让其能够清晰地给出解题过程与推理逻辑，而非仅给出最终答案。

（四）长文本处理与知识服务

模型支持128K tokens的超长上下文窗口，在长上下文测评RULER中取得95.60的高分，能够轻松处理万字以上的长文档，可适配长文本处理的各类场景：如企业的合同分析、报告撰写、文献解读，教育领域的论文写作、书籍分析，新媒体领域的长篇文案创作，以及信息检索领域的海量文本信息提取、关键信息总结等。模型能够在超长文本中精准捕捉上下文关联，生成逻辑连贯、内容详实的长文本，同时能够从长文档中快速提取关键信息，解决了传统大模型长文本处理能力弱的痛点。

（五）高并发通用生成式AI场景

模型的1.3-1.7倍推理吞吐量提升，让其成为高并发通用生成式AI场景的理想选择，可适配电商文案批量生成、金融报告批量撰写、教育题库批量生成、新媒体内容批量创作等场景。相比传统大模型，该模型在相同的硬件资源下，能够处理更多的生成请求，大幅提升了批量处理的效率，降低了企业的算力成本，同时模型的知识对齐能力优异，生成的内容质量高、贴合实际需求。

（六）科研与开源技术探索

作为一款开源的MoE架构大模型，JoyAI-LLM-Flash还为科研人员与开源开发者提供了优质的技术研究载体，可适配MoE架构优化、大模型强化学习、推理加速技术、智能体架构设计等科研方向。模型的原创FiberPO框架、Muon+MTP训练推理协同技术，为大模型的训练与推理优化提供了新的思路，开发者可基于模型的开源代码与权重，进行二次开发与技术创新，推动大模型技术的落地与发展。

JoyAI-LLM-Flash：京东开源的 MoE 大语言模型，高吞吐强推理多场景智能体适配

五、使用方法

JoyAI-LLM-Flash的使用方式分为京东云API接入与本地部署两种，官方提供了兼容OpenAI/Anthropic的API接口，同时支持vLLM、SGLang两款高性能推理引擎的本地部署，且提供了完整的聊天完成、工具调用代码示例，使用门槛低，适配各类开发者。在使用前需先满足基础的环境要求，再根据实际需求选择部署与使用方式，具体的使用方法如下：

（一）基础环境准备

核心依赖包版本要求：Python库transformers的最低版本为4.57.1，这是模型运行的核心依赖，在部署前需确保该库版本满足要求，可通过pip install transformers>=4.57.1命令安装或升级。
硬件环境要求：模型为MoE架构，激活参数3B，可在常规GPU硬件上部署，入门级可选择2×RTX 4090（24GB），企业级推荐选择NVIDIA A100/A800/H100等专业GPU，具体硬件配置可根据部署规模与并发需求调整。
其他依赖：若选择本地部署，需安装对应的推理引擎依赖，vLLM可通过pip install vllm安装，SGLang可通过pip install sglang安装；若使用API接入，仅需安装OpenAI Python库，通过pip install openai安装即可。

（二）模型部署方式

JoyAI-LLM-Flash提供两种部署方式，分别适配快速接入与私有化部署的需求，开发者可根据实际场景选择：

京东云API部署：官方提供京东云专属API，接口完全兼容OpenAI/Anthropic的API规范，无需本地部署硬件，仅需通过京东云获取API密钥，即可快速调用模型能力，适合快速开发、小规模使用的场景，API官方文档可参考京东云专属链接。
本地推理引擎部署：官方推荐使用vLLM、SGLang两款高性能推理引擎进行本地私有化部署，这两款引擎均针对大模型推理进行了优化，能够充分发挥模型的高吞吐特性，适合企业级私有化部署、高并发使用、数据隐私要求高的场景，官方部署指南可参考模型Hugging Face主页的Model Deployment Guide板块。

（三）推荐采样参数

对于第三方基于vLLM或SGLang部署的API服务，官方推荐使用以下采样参数，可在该参数下获得更优的文本生成效果，兼顾生成的多样性与准确性：

temperature=0.6：控制生成的随机性，0.6的取值让生成内容既不单调，又不偏离用户需求；
top_p=1.0：采用核采样策略，1.0的取值表示考虑所有的Token，保证生成内容的完整性。

（四）具体使用示例

官方提供了Chat Completion（聊天完成）与Tool call Completion（工具调用完成）的完整Python代码示例，均基于OpenAI Python库开发，兼容本地部署与京东云API，代码示例与详细解释如下：

1. 聊天完成示例

适用于普通的聊天、问答、文本生成等场景，代码可直接运行，仅需替换本地部署的IP与端口，或京东云的API基础地址与密钥：

from openai import OpenAI

# 初始化客户端，本地部署填写IP:PORT，京东云API填写官方base_url与api_key
client = OpenAI(base_url="http://IP:PORT/v1", api_key="EMPTY")

def simple_chat(client: OpenAI):
  # 构建用户消息，支持纯文本输入
  messages = [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "which one is bigger, 9.11 or 9.9? think carefully.",
        }
      ],
    },
  ]
  # 获取模型名称
  model_name = client.models.list().data[0].id
  # 调用模型生成回复
  response = client.chat.completions.create(
    model=model_name, messages=messages, stream=False, max_tokens=4096
  )
  # 打印生成结果
  print(f"response: {response.choices[0].message.content}")

if __name__ == "__main__":
  simple_chat(client)

代码解释：该示例通过OpenAI客户端连接模型，构建用户的文本请求，调用模型的聊天完成接口，生成并打印回复，max_tokens=4096表示模型最多生成4096个Token，可根据需求调整。

2. 工具调用完成示例

适用于工具调用场景，模型可自主选择并调用预设工具，完成复杂任务，以下为调用计算器工具的示例：

import json

from openai import OpenAI

# 初始化客户端
client = OpenAI(base_url="http://IP:PORT/v1", api_key="EMPTY")

# 定义计算器工具函数
def my_calculator(expression: str) -> str:
  return str(eval(expression))

# 定义文本重写工具函数
def rewrite(expression: str) -> str:
  return str(expression)

def simple_tool_call(client: OpenAI):
  # 构建用户消息，要求调用工具计算数学题
  messages = [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "use my functions to compute the results for the equations: 6+1",
        },
      ],
    },
  ]
  # 定义工具列表，包含工具名称、描述、参数
  tools = [
    {
      "type": "function",
      "function": {
        "name": "my_calculator",
        "description": "A calculator that can evaluate a mathematical equation and compute its results.",
        "parameters": {
          "type": "object",
          "properties": {
            "expression": {
              "type": "string",
              "description": "The mathematical expression to evaluate.",
            },
          },
          "required": ["expression"],
        },
      },
    },
    {
      "type": "function",
      "function": {
        "name": "rewrite",
        "description": "Rewrite a given text for improved clarity",
        "parameters": {
          "type": "object",
          "properties": {
            "text": {
              "type": "string",
              "description": "The input text to rewrite",
            }
          },
        },
      },
    },
  ]
  # 获取模型名称并调用工具
  model_name = client.models.list().data[0].id
  response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=1.0,
    max_tokens=1024,
    tools=tools,
    tool_choice="auto",
  )
  # 获取模型的工具调用结果
  tool_calls = response.choices[0].message.tool_calls
  results = []
  for tool_call in tool_calls:
    function_name = tool_call.function.name
    function_args = tool_call.function.arguments
    if function_name == "my_calculator":
      result = my_calculator(**json.loads(function_args))
      results.append(result)
  # 将工具调用结果反馈给模型
  messages.append({"role": "assistant", "tool_calls": tool_calls})
  for tool_call, result in zip(tool_calls, results):
    messages.append(
      {
        "role": "tool",
        "tool_call_id": tool_call.id,
        "name": tool_call.function.name,
        "content": result,
      }
    )
  # 模型基于工具结果生成最终回复
  response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=1.0,
    max_tokens=1024,
  )
  # 打印最终结果
  print(response.choices[0].message.content)

if __name__ == "__main__":
  simple_tool_call(client)

代码解释：该示例先定义了计算器、文本重写两款工具函数，再向模型传递工具列表与用户的计算需求，模型会自主选择计算器工具完成计算，工具的运行结果会反馈给模型，最终模型基于工具结果生成自然语言回复，实现了“模型+工具”的智能体交互。

六、常见问题解答

JoyAI-LLM-Flash的开源许可证是什么？

JoyAI-LLM-Flash的参数规模是多少？

答：模型采用混合专家（MoE）稀疏架构设计，总参数规模为480亿（48B），实际推理过程中仅激活30亿（3B）参数，这种设计既保留了48B大参数模型的特征表达能力，又将推理的计算量控制在3B参数级别，大幅降低了显存占用与算力成本，实现了能力与效率的平衡。

使用JoyAI-LLM-Flash对transformers库有版本要求吗？

答：有明确的最低版本要求，Python核心依赖库transformers的版本需不低于4.57.1，这是模型运行的基础要求，在部署和使用模型前，需通过pip list检查版本，若版本过低，可通过pip install transformers>=4.57.1命令升级。

JoyAI-LLM-Flash推荐的推理采样参数是什么？

答：对于第三方基于vLLM或SGLang部署的API服务，官方给出了明确的推荐采样参数：temperature=0.6，top_p=1.0。其中temperature控制生成的随机性，0.6的取值兼顾多样性与准确性；top_p采用核采样策略，1.0表示考虑所有Token，保证生成内容的完整性。

JoyAI-LLM-Flash支持哪些推理引擎进行本地部署？

答：目前官方推荐使用的高性能推理引擎为vLLM和SGLang，这两款引擎均针对大模型的推理效率进行了深度优化，支持动态批处理、PagedAttention等技术，能够充分发挥JoyAI-LLM-Flash的MoE架构优势与高吞吐特性，是本地私有化部署的首选。

JoyAI-LLM-Flash的上下文窗口长度支持多少tokens？

答：模型原生支持128K tokens的超长上下文窗口，能够轻松处理万字以上的长文本，在长上下文专属测评RULER中取得95.60的高分，远超同类模型，适合长文档分析、长文生成、海量信息检索等长上下文处理场景。

JoyAI-LLM-Flash是否提供兼容主流平台的API接口？

答：提供，该模型的京东云官方API完全兼容OpenAI与Anthropic的API规范，现有基于这两类接口开发的应用程序，无需进行大量的代码修改，仅需替换API的基础地址与密钥，即可快速集成JoyAI-LLM-Flash的模型能力，大幅降低了开发成本。

JoyAI-LLM-Flash预训练阶段采用了什么优化器？

答：模型在20万亿文本Token的大规模预训练阶段，核心采用了Muon优化器，该优化器针对大模型的训练痛点进行了设计，通过分层优化、正交化更新、动量预热等特性，解决了大规模MoE模型训练中的收敛不稳定性问题，提升了训练效率与模型质量。

JoyAI-LLM-Flash的推理吞吐量相比非MTP版本有多少提升？

答：模型通过将Muon优化器与稠密MTP（多令牌预测）技术结合，实现了训练与推理的协同优化，相比非MTP版本的模型，其推理吞吐量实现了1.3倍至1.7倍的提升，大幅优化了高并发场景下的使用效率，更适合企业级的规模化部署。

JoyAI-LLM-Flash是否支持工具调用能力？

答：支持，工具调用是模型的核心原生能力之一，模型从架构设计到调优阶段均围绕智能体能力打造，官方也在Hugging Face主页提供了完整的Tool call Completion（工具调用完成）Python代码示例，可直接参考对接计算器、文本处理、数据查询等各类工具。

JoyAI-LLM-Flash支持哪些语言？

答：模型主要支持中文与英文，预训练语料包含大量的中、英文文本，同时覆盖前沿知识、代码、数学、行业场景等多类型内容，在中、英文的理解与生成任务中均表现优异，可适配中、英文的聊天、问答、文本生成、代码开发等场景。

七、相关链接

JoyAI-LLM-Flash项目Hugging Face官方主页：https://huggingface.co/jdopensource/JoyAI-LLM-Flash
京东云JoyAI-LLM-Flash API官方文档：https://docs.jdcloud.com/cn/jdaip/chat

八、总结

JoyAI-LLM-Flash是京东开源的一款达到行业先进水平的中型指令大语言模型，以混合专家（MoE）稀疏架构为核心打造了48B总参数、3B激活参数的参数体系，在20万亿文本Token上依托Muon优化器完成大规模预训练，并经过监督微调（SFT）、直接偏好优化（DPO）、强化学习（RL）的多阶段全链路调优，还创新将纤维丛理论引入强化学习领域，提出了原创的FiberPO优化框架，解决了大规模异构智能体训练的稳定性问题。该模型通过Muon优化器与稠密MTP技术的结合，实现了训练与推理的协同优化，让推理吞吐量相比非MTP版本提升1.3-1.7倍，同时原生支持128K tokens的超长上下文窗口与工具调用能力，在知识对齐、代码生成、数学推理、智能体交互、长上下文处理等多维度测评中均大幅领先Qwen3-30B-A3B-Instuct-2507、GLM-4.7-Flash等同类模型。模型的部署方式灵活，既支持京东云API的快速接入，兼容OpenAI/Anthropic接口，又支持vLLM、SGLang推理引擎的本地私有化部署，且对transformers库仅要求最低4.57.1版本，官方还提供了聊天完成、工具调用的完整Python代码示例，降低了使用门槛。其代码仓库与模型权重均基于Modified MIT License开源，允许开发者自由使用、修改、分发甚至商业应用，是一款兼顾技术先进性、推理效率、部署灵活性与场景适配性的大语言模型，可直接应用于企业智能体开发、代码工程、长文本处理、数学推理、高并发生成式AI等多行业、多类型的智能应用开发场景，同时也为大模型的科研与开源技术探索提供了优质的载体。

MoE大语言模型开源大模型

打赏

版权及免责申明：本文由@97ai原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/joyai-llm-flash.html

THE END

97ai

我不是在训练模型，而是在与未来的自己对话。

+ 关注

JoyAI-LLM-Flash：京东开源的 MoE 大语言模型，高吞吐强推理多场景智能体适配

文章目录

一、JoyAI-LLM-Flash是什么

二、功能特色

（一）创新FiberPO框架，大幅提升训练稳定性与鲁棒性

（二）训练推理协同优化，实现1.3-1.7倍推理吞吐量提升

（三）原生智能体能力，适配工具调用与自主问题解决

（四）全维度能力优异，128K超长上下文处理表现突出

三、技术细节

JoyAI-LLM-Flash核心架构参数表

（一）混合专家（MoE）稀疏架构设计

（二）训练优化核心技术

（三）推理优化关键技术

（四）词汇表与上下文优化

四、应用场景

（一）企业级智能体开发

（二）代码开发与工程实践

（三）数学与科学推理计算

（四）长文本处理与知识服务

（五）高并发通用生成式AI场景

（六）科研与开源技术探索

五、使用方法

（一）基础环境准备

（二）模型部署方式

（三）推荐采样参数

（四）具体使用示例

1. 聊天完成示例

2. 工具调用完成示例

六、常见问题解答

七、相关链接

八、总结

相关文章