JoyAI-LLM-Flash:京东开源的 MoE 大语言模型,高吞吐强推理多场景智能体适配
一、JoyAI-LLM-Flash是什么
JoyAI-LLM-Flash是京东开源的一款达到行业先进水平的中型指令大语言模型,核心采用混合专家(Mixture-of-Experts,MoE)稀疏架构设计,打造了480亿总参数、30亿激活参数的参数体系,在保证大模型表达能力的同时,实现了轻量级推理的效率优势。该模型在20万亿文本Token的大规模语料上完成预训练,预训练阶段采用Muon优化器解决了大规模模型训练的收敛不稳定性问题,后续还经过了大规模监督微调(SFT)、直接偏好优化(DPO)、强化学习(RL)的多阶段全链路调优,调优场景覆盖多种异构环境,最终让模型在前沿知识理解、逻辑推理、代码生成、智能体交互四大核心能力上均达到了优异水平。
作为一款面向实际应用的大语言模型,JoyAI-LLM-Flash并非单纯追求参数规模,而是聚焦训练与推理的效率平衡,通过创新的技术框架和优化手段,让模型在推理阶段仅激活30亿参数,却能发挥出比肩大参数模型的能力,同时大幅提升推理吞吐量。该项目的代码仓库与模型权重均采用Modified MIT License开源,开发者可在遵守许可证基本要求的前提下,自由进行使用、修改、分发甚至商业应用,是一款兼顾技术先进性、实用性与开源开放性的大语言模型,目前已在Hugging Face平台上线,同时提供京东云官方API与本地部署两种使用方式。
二、功能特色
JoyAI-LLM-Flash的核心功能特色围绕训练优化、推理效率、智能体能力、全维度任务表现四大维度打造,既包含原创的技术框架创新,也兼顾了实际应用中的效率与场景适配性,具体特色如下:
(一)创新FiberPO框架,大幅提升训练稳定性与鲁棒性
模型首次将纤维丛理论引入强化学习领域,提出了原创的FiberPO优化框架,该框架专为解决大规模、异构智能体训练的核心痛点设计。在传统的大模型强化学习训练中,面对复杂的数据分布和异构的训练环境,容易出现训练收敛慢、模型鲁棒性差的问题,而FiberPO框架通过纤维丛理论对训练参数空间进行优化设计,让模型在大规模智能体训练中,能够更好地适配复杂数据分布,显著提升了训练过程的稳定性,同时让训练后的模型在不同场景下的鲁棒性大幅增强,为模型的全维度能力打下了坚实的训练基础。
(二)训练推理协同优化,实现1.3-1.7倍推理吞吐量提升
模型创新性地将Muon优化器与稠密MTP(多令牌预测)技术结合,打造了训练-推理协同优化体系,从底层解决了大模型规模扩展过程中的推理不稳定性问题。在传统大模型部署中,参数规模的提升往往会伴随推理效率的下降,而JoyAI-LLM-Flash通过训练阶段的Muon优化器分层优化,让模型参数分布更适配推理场景,再结合推理阶段的MTP技术,实现了推理效率的跨越式提升——相比非MTP版本的模型,其推理吞吐量提升了1.3倍至1.7倍,大幅优化了高并发场景下的使用效率,更适合企业级的规模化部署与应用。
(三)原生智能体能力,适配工具调用与自主问题解决
智能体能力是JoyAI-LLM-Flash的核心设计方向,模型从架构设计到调优阶段,均围绕工具使用、逻辑推理、自主问题解决三大智能体核心能力打造,而非简单的文本生成。模型原生支持工具调用能力,官方提供了完整的工具调用代码示例,可直接对接计算器、文本处理等各类工具,同时具备强大的多步骤推理能力,能够根据用户需求自主分析问题、设计解题路径、完成复杂任务,而非仅给出简单的答案,这种原生的智能体能力让模型无需额外的二次开发,即可快速适配各类智能体应用场景。
(四)全维度能力优异,128K超长上下文处理表现突出
模型在知识对齐、代码生成、数学推理、长上下文处理、智能体交互等全维度任务中均表现优异,在MMLU、HumanEval、GSM8K等主流测评榜单中,成绩均大幅领先Qwen3-30B-A3B-Instuct-2507、GLM-4.7-Flash等同类模型。同时,模型原生支持128K tokens的超长上下文窗口,能够轻松处理长文档分析、长文生成、海量信息检索等长上下文任务,在长上下文专属测评RULER中取得95.60的高分,远超同类模型的89.66(Qwen3-30B)与56.12(GLM-4.7-Flash),解决了传统大模型上下文窗口有限、长文本处理能力弱的痛点。
三、技术细节
JoyAI-LLM-Flash的技术核心围绕混合专家(MoE)架构设计、训练优化技术、推理优化技术三大板块打造,同时搭配了先进的注意力机制与激活函数,让模型在参数效率、训练效率、推理效率上实现了三重平衡,其核心架构参数如下表所示,所有参数均为官方开源的标准配置:
JoyAI-LLM-Flash核心架构参数表
| 技术指标 | 具体配置 |
|---|---|
| 模型架构 | 混合专家(Mixture-of-Experts,MoE) |
| 总参数规模 | 48B(480亿) |
| 激活参数规模 | 3B(30亿) |
| 总层数(含稠密层) | 40层 |
| 稠密层层数 | 1层 |
| 注意力隐藏维度 | 2048 |
| 单专家MoE隐藏维度 | 768 |
| 注意力头数 | 32 |
| 专家总数 | 256个 |
| 单Token选中专家数 | 8个 |
| 共享专家数 | 1个 |
| 词汇表大小 | 129K |
| 上下文窗口长度 | 128K tokens |
| 注意力机制 | MLA |
| 激活函数 | SwiGLU |
基于上述架构参数,模型的核心技术细节可分为四个部分,各部分技术环环相扣,共同构成了模型的技术体系:
(一)混合专家(MoE)稀疏架构设计
模型采用经典的MoE稀疏架构,这是实现“48B总参数、3B激活参数”的核心技术。模型共设计256个专家模块,同时设置1个共享专家模块,在推理过程中,每个输入Token仅会激活8个专家模块与1个共享专家模块,其余专家模块处于休眠状态,这样的设计让模型在保留48B大参数模型的特征表达能力的同时,将实际推理的计算量控制在3B参数级别,大幅降低了显存占用与计算成本,让模型能够在常规的GPU硬件上实现高效推理。
同时,模型在40层网络中仅设计1层稠密层,其余均为稀疏专家层,这种设计既通过稀疏层控制了推理成本,又通过最后的稠密层实现了特征的聚合与融合,解决了MoE架构容易出现的“专家特征碎片化”问题,平衡了稀疏性与模型表达能力。
(二)训练优化核心技术
Muon优化器:模型预训练阶段的核心优化器,该优化器采用分层优化策略,针对模型中的2D矩阵权重(注意力投影、MLP权重)进行专门优化,通过正交化更新、动量预热、方差缩减、谨慎权重衰减四大特性,解决了大规模MoE模型训练中的收敛不稳定性问题,让模型在20万亿文本Token的大规模预训练中,能够高效、稳定地收敛。
多阶段全链路调优:模型在预训练后,依次经过大规模监督微调(SFT)、直接偏好优化(DPO)、强化学习(RL)三个阶段的调优,其中RL阶段基于原创的FiberPO框架实现,让模型的输出不仅符合语法与逻辑,更贴合人类的偏好与实际应用需求,提升了模型的对齐能力。
大规模预训练语料:模型在20万亿文本Token的语料上完成预训练,语料覆盖中文、英文等多语言,同时包含前沿知识、代码、数学、行业场景等多类型内容,为模型的全维度能力打下了语料基础。
(三)推理优化关键技术
MTP多令牌预测技术:这是提升模型推理吞吐量的核心技术,传统大模型采用单令牌预测,每次仅生成一个Token,而MTP技术支持单次推理生成多个令牌,结合Muon优化器训练的参数分布,让模型在不损失生成质量的前提下,大幅提升了推理速度,最终实现1.3-1.7倍的吞吐量提升。
MLA注意力机制:模型采用MLA注意力机制替代传统的多头自注意力机制,针对MoE架构的稀疏特性进行了优化,能够更高效地捕捉输入文本的上下文关联,同时降低了注意力计算的复杂度,进一步提升了推理效率。
SwiGLU激活函数:激活函数采用SwiGLU,该函数是GLU函数与Swish函数的结合,相比传统的ReLU激活函数,具有更好的梯度传播特性,能够有效缓解模型训练中的梯度消失问题,同时让模型的非线性表达能力更强,提升了模型的特征提取能力。
(四)词汇表与上下文优化
模型的词汇表大小为129K,相比传统大模型的64K或80K词汇表,能够更好地覆盖生僻词、行业专业词、代码关键词等,减少了文本切分后的Token数量,既提升了模型的理解能力,又降低了推理的计算量。同时,模型将上下文窗口设计为128K tokens,通过对注意力机制的优化,解决了长上下文处理中的计算量爆炸问题,让模型能够高效处理超长文本,适配长文档分析、长文生成等实际场景。
四、应用场景
JoyAI-LLM-Flash凭借高吞吐、强推理、原生智能体能力、超长上下文的核心优势,同时在知识、代码、数学、行业场景等多维度任务中表现优异,可广泛适配企业级、开发者级、科研级等多种使用场景,具体的核心应用场景如下:
(一)企业级智能体开发
模型在智能体专属测评中表现突出,SWE-bench Verified达到60.60分,Tau2系列零售、航空、电信测评分别取得67.55、54.00、79.83的高分,非常适合零售、航空、电信、金融等行业的企业级智能体开发。可直接开发客服智能体、运维智能体、业务咨询智能体、销售智能体等,模型的原生工具调用能力让智能体能够对接企业内部的业务系统、计算器、数据查询工具等,自主完成用户的复杂需求,而1.3-1.7倍的高吞吐特性,让智能体能够应对企业高并发的业务请求,大幅提升服务效率。
(二)代码开发与工程实践
模型是一款高性能的代码生成大模型,在代码专属测评中,HumanEval达到96.34分、LiveCodeBench达到65.60分,均大幅领先同类模型,同时在SciCode科学计算代码测评中也表现优异。可适配程序员的日常代码开发、代码调试、单元测试生成、科学计算代码编写等场景,能够根据自然语言描述生成Python、Java、C++等主流编程语言的代码,同时具备代码解释、代码优化的能力,大幅提升程序员的开发效率。此外,模型的高吞吐特性也让其能够适配代码批量生成的场景,如低代码平台的代码自动生成。
(三)数学与科学推理计算
模型拥有极强的数学推理能力,在GSM8K(95.83分)、AIME2025(65.83分)、MATH 500(97.10分)等数学测评中均取得了远超同类模型的成绩,能够处理小学、中学、大学甚至竞赛级别的复杂数学题,同时具备科学推理能力。可适配教育领域的数学答疑、科学知识讲解,科研领域的数学建模、公式推导、科学计算,以及企业领域的数据分析、数值计算等场景,模型的多步骤推理能力让其能够清晰地给出解题过程与推理逻辑,而非仅给出最终答案。
(四)长文本处理与知识服务
模型支持128K tokens的超长上下文窗口,在长上下文测评RULER中取得95.60的高分,能够轻松处理万字以上的长文档,可适配长文本处理的各类场景:如企业的合同分析、报告撰写、文献解读,教育领域的论文写作、书籍分析,新媒体领域的长篇文案创作,以及信息检索领域的海量文本信息提取、关键信息总结等。模型能够在超长文本中精准捕捉上下文关联,生成逻辑连贯、内容详实的长文本,同时能够从长文档中快速提取关键信息,解决了传统大模型长文本处理能力弱的痛点。
(五)高并发通用生成式AI场景
模型的1.3-1.7倍推理吞吐量提升,让其成为高并发通用生成式AI场景的理想选择,可适配电商文案批量生成、金融报告批量撰写、教育题库批量生成、新媒体内容批量创作等场景。相比传统大模型,该模型在相同的硬件资源下,能够处理更多的生成请求,大幅提升了批量处理的效率,降低了企业的算力成本,同时模型的知识对齐能力优异,生成的内容质量高、贴合实际需求。
(六)科研与开源技术探索
作为一款开源的MoE架构大模型,JoyAI-LLM-Flash还为科研人员与开源开发者提供了优质的技术研究载体,可适配MoE架构优化、大模型强化学习、推理加速技术、智能体架构设计等科研方向。模型的原创FiberPO框架、Muon+MTP训练推理协同技术,为大模型的训练与推理优化提供了新的思路,开发者可基于模型的开源代码与权重,进行二次开发与技术创新,推动大模型技术的落地与发展。

五、使用方法
JoyAI-LLM-Flash的使用方式分为京东云API接入与本地部署两种,官方提供了兼容OpenAI/Anthropic的API接口,同时支持vLLM、SGLang两款高性能推理引擎的本地部署,且提供了完整的聊天完成、工具调用代码示例,使用门槛低,适配各类开发者。在使用前需先满足基础的环境要求,再根据实际需求选择部署与使用方式,具体的使用方法如下:
(一)基础环境准备
核心依赖包版本要求:Python库
transformers的最低版本为4.57.1,这是模型运行的核心依赖,在部署前需确保该库版本满足要求,可通过pip install transformers>=4.57.1命令安装或升级。硬件环境要求:模型为MoE架构,激活参数3B,可在常规GPU硬件上部署,入门级可选择2×RTX 4090(24GB),企业级推荐选择NVIDIA A100/A800/H100等专业GPU,具体硬件配置可根据部署规模与并发需求调整。
其他依赖:若选择本地部署,需安装对应的推理引擎依赖,vLLM可通过
pip install vllm安装,SGLang可通过pip install sglang安装;若使用API接入,仅需安装OpenAI Python库,通过pip install openai安装即可。
(二)模型部署方式
JoyAI-LLM-Flash提供两种部署方式,分别适配快速接入与私有化部署的需求,开发者可根据实际场景选择:
京东云API部署:官方提供京东云专属API,接口完全兼容OpenAI/Anthropic的API规范,无需本地部署硬件,仅需通过京东云获取API密钥,即可快速调用模型能力,适合快速开发、小规模使用的场景,API官方文档可参考京东云专属链接。
本地推理引擎部署:官方推荐使用vLLM、SGLang两款高性能推理引擎进行本地私有化部署,这两款引擎均针对大模型推理进行了优化,能够充分发挥模型的高吞吐特性,适合企业级私有化部署、高并发使用、数据隐私要求高的场景,官方部署指南可参考模型Hugging Face主页的Model Deployment Guide板块。
(三)推荐采样参数
对于第三方基于vLLM或SGLang部署的API服务,官方推荐使用以下采样参数,可在该参数下获得更优的文本生成效果,兼顾生成的多样性与准确性:
temperature=0.6:控制生成的随机性,0.6的取值让生成内容既不单调,又不偏离用户需求;
top_p=1.0:采用核采样策略,1.0的取值表示考虑所有的Token,保证生成内容的完整性。
(四)具体使用示例
官方提供了Chat Completion(聊天完成)与Tool call Completion(工具调用完成)的完整Python代码示例,均基于OpenAI Python库开发,兼容本地部署与京东云API,代码示例与详细解释如下:
1. 聊天完成示例
适用于普通的聊天、问答、文本生成等场景,代码可直接运行,仅需替换本地部署的IP与端口,或京东云的API基础地址与密钥:
from openai import OpenAI
# 初始化客户端,本地部署填写IP:PORT,京东云API填写官方base_url与api_key
client = OpenAI(base_url="http://IP:PORT/v1", api_key="EMPTY")
def simple_chat(client: OpenAI):
# 构建用户消息,支持纯文本输入
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "which one is bigger, 9.11 or 9.9? think carefully.",
}
],
},
]
# 获取模型名称
model_name = client.models.list().data[0].id
# 调用模型生成回复
response = client.chat.completions.create(
model=model_name, messages=messages, stream=False, max_tokens=4096
)
# 打印生成结果
print(f"response: {response.choices[0].message.content}")
if __name__ == "__main__":
simple_chat(client)
代码解释:该示例通过OpenAI客户端连接模型,构建用户的文本请求,调用模型的聊天完成接口,生成并打印回复,max_tokens=4096表示模型最多生成4096个Token,可根据需求调整。
2. 工具调用完成示例
适用于工具调用场景,模型可自主选择并调用预设工具,完成复杂任务,以下为调用计算器工具的示例:
import json
from openai import OpenAI
# 初始化客户端
client = OpenAI(base_url="http://IP:PORT/v1", api_key="EMPTY")
# 定义计算器工具函数
def my_calculator(expression: str) -> str:
return str(eval(expression))
# 定义文本重写工具函数
def rewrite(expression: str) -> str:
return str(expression)
def simple_tool_call(client: OpenAI):
# 构建用户消息,要求调用工具计算数学题
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "use my functions to compute the results for the equations: 6+1",
},
],
},
]
# 定义工具列表,包含工具名称、描述、参数
tools = [
{
"type": "function",
"function": {
"name": "my_calculator",
"description": "A calculator that can evaluate a mathematical equation and compute its results.",
"parameters": {
"type": "object",
"properties": {
"expression": {
"type": "string",
"description": "The mathematical expression to evaluate.",
},
},
"required": ["expression"],
},
},
},
{
"type": "function",
"function": {
"name": "rewrite",
"description": "Rewrite a given text for improved clarity",
"parameters": {
"type": "object",
"properties": {
"text": {
"type": "string",
"description": "The input text to rewrite",
}
},
},
},
},
]
# 获取模型名称并调用工具
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name,
messages=messages,
temperature=1.0,
max_tokens=1024,
tools=tools,
tool_choice="auto",
)
# 获取模型的工具调用结果
tool_calls = response.choices[0].message.tool_calls
results = []
for tool_call in tool_calls:
function_name = tool_call.function.name
function_args = tool_call.function.arguments
if function_name == "my_calculator":
result = my_calculator(**json.loads(function_args))
results.append(result)
# 将工具调用结果反馈给模型
messages.append({"role": "assistant", "tool_calls": tool_calls})
for tool_call, result in zip(tool_calls, results):
messages.append(
{
"role": "tool",
"tool_call_id": tool_call.id,
"name": tool_call.function.name,
"content": result,
}
)
# 模型基于工具结果生成最终回复
response = client.chat.completions.create(
model=model_name,
messages=messages,
temperature=1.0,
max_tokens=1024,
)
# 打印最终结果
print(response.choices[0].message.content)
if __name__ == "__main__":
simple_tool_call(client)代码解释:该示例先定义了计算器、文本重写两款工具函数,再向模型传递工具列表与用户的计算需求,模型会自主选择计算器工具完成计算,工具的运行结果会反馈给模型,最终模型基于工具结果生成自然语言回复,实现了“模型+工具”的智能体交互。
六、常见问题解答
JoyAI-LLM-Flash的开源许可证是什么?
答:该项目的代码仓库与模型权重均采用Modified MIT License进行开源,该许可证属于宽松的开源许可证,核心要求是在使用、复制、修改或分发模型时,必须保留原作者的版权声明和许可声明;同时允许自由的商业使用、修改、分发,软件按“现状”提供,京东作为原作者不承担任何明示或暗示的保证,也不承担因软件使用产生的连带责任。
JoyAI-LLM-Flash的参数规模是多少?
答:模型采用混合专家(MoE)稀疏架构设计,总参数规模为480亿(48B),实际推理过程中仅激活30亿(3B)参数,这种设计既保留了48B大参数模型的特征表达能力,又将推理的计算量控制在3B参数级别,大幅降低了显存占用与算力成本,实现了能力与效率的平衡。
使用JoyAI-LLM-Flash对transformers库有版本要求吗?
答:有明确的最低版本要求,Python核心依赖库transformers的版本需不低于4.57.1,这是模型运行的基础要求,在部署和使用模型前,需通过pip list检查版本,若版本过低,可通过pip install transformers>=4.57.1命令升级。
JoyAI-LLM-Flash推荐的推理采样参数是什么?
答:对于第三方基于vLLM或SGLang部署的API服务,官方给出了明确的推荐采样参数:temperature=0.6,top_p=1.0。其中temperature控制生成的随机性,0.6的取值兼顾多样性与准确性;top_p采用核采样策略,1.0表示考虑所有Token,保证生成内容的完整性。
JoyAI-LLM-Flash支持哪些推理引擎进行本地部署?
答:目前官方推荐使用的高性能推理引擎为vLLM和SGLang,这两款引擎均针对大模型的推理效率进行了深度优化,支持动态批处理、PagedAttention等技术,能够充分发挥JoyAI-LLM-Flash的MoE架构优势与高吞吐特性,是本地私有化部署的首选。
JoyAI-LLM-Flash的上下文窗口长度支持多少tokens?
答:模型原生支持128K tokens的超长上下文窗口,能够轻松处理万字以上的长文本,在长上下文专属测评RULER中取得95.60的高分,远超同类模型,适合长文档分析、长文生成、海量信息检索等长上下文处理场景。
JoyAI-LLM-Flash是否提供兼容主流平台的API接口?
答:提供,该模型的京东云官方API完全兼容OpenAI与Anthropic的API规范,现有基于这两类接口开发的应用程序,无需进行大量的代码修改,仅需替换API的基础地址与密钥,即可快速集成JoyAI-LLM-Flash的模型能力,大幅降低了开发成本。
JoyAI-LLM-Flash预训练阶段采用了什么优化器?
答:模型在20万亿文本Token的大规模预训练阶段,核心采用了Muon优化器,该优化器针对大模型的训练痛点进行了设计,通过分层优化、正交化更新、动量预热等特性,解决了大规模MoE模型训练中的收敛不稳定性问题,提升了训练效率与模型质量。
JoyAI-LLM-Flash的推理吞吐量相比非MTP版本有多少提升?
答:模型通过将Muon优化器与稠密MTP(多令牌预测)技术结合,实现了训练与推理的协同优化,相比非MTP版本的模型,其推理吞吐量实现了1.3倍至1.7倍的提升,大幅优化了高并发场景下的使用效率,更适合企业级的规模化部署。
JoyAI-LLM-Flash是否支持工具调用能力?
答:支持,工具调用是模型的核心原生能力之一,模型从架构设计到调优阶段均围绕智能体能力打造,官方也在Hugging Face主页提供了完整的Tool call Completion(工具调用完成)Python代码示例,可直接参考对接计算器、文本处理、数据查询等各类工具。
JoyAI-LLM-Flash支持哪些语言?
答:模型主要支持中文与英文,预训练语料包含大量的中、英文文本,同时覆盖前沿知识、代码、数学、行业场景等多类型内容,在中、英文的理解与生成任务中均表现优异,可适配中、英文的聊天、问答、文本生成、代码开发等场景。
七、相关链接
JoyAI-LLM-Flash项目Hugging Face官方主页:https://huggingface.co/jdopensource/JoyAI-LLM-Flash
京东云JoyAI-LLM-Flash API官方文档:https://docs.jdcloud.com/cn/jdaip/chat
八、总结
JoyAI-LLM-Flash是京东开源的一款达到行业先进水平的中型指令大语言模型,以混合专家(MoE)稀疏架构为核心打造了48B总参数、3B激活参数的参数体系,在20万亿文本Token上依托Muon优化器完成大规模预训练,并经过监督微调(SFT)、直接偏好优化(DPO)、强化学习(RL)的多阶段全链路调优,还创新将纤维丛理论引入强化学习领域,提出了原创的FiberPO优化框架,解决了大规模异构智能体训练的稳定性问题。该模型通过Muon优化器与稠密MTP技术的结合,实现了训练与推理的协同优化,让推理吞吐量相比非MTP版本提升1.3-1.7倍,同时原生支持128K tokens的超长上下文窗口与工具调用能力,在知识对齐、代码生成、数学推理、智能体交互、长上下文处理等多维度测评中均大幅领先Qwen3-30B-A3B-Instuct-2507、GLM-4.7-Flash等同类模型。模型的部署方式灵活,既支持京东云API的快速接入,兼容OpenAI/Anthropic接口,又支持vLLM、SGLang推理引擎的本地私有化部署,且对transformers库仅要求最低4.57.1版本,官方还提供了聊天完成、工具调用的完整Python代码示例,降低了使用门槛。其代码仓库与模型权重均基于Modified MIT License开源,允许开发者自由使用、修改、分发甚至商业应用,是一款兼顾技术先进性、推理效率、部署灵活性与场景适配性的大语言模型,可直接应用于企业智能体开发、代码工程、长文本处理、数学推理、高并发生成式AI等多行业、多类型的智能应用开发场景,同时也为大模型的科研与开源技术探索提供了优质的载体。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/joyai-llm-flash.html

