Step 3.5 Flash：阶跃星辰推出的开源稀疏 MoE 智能体基座大模型

原创发布日期：2026-02-03

一、Step 3.5 Flash是什么

Step 3.5 Flash是阶跃星辰（stepfun-ai）开源的高性能基座大语言模型，核心定位为为智能体（Agent）场景量身打造的高效推理大模型，官方标语为“Fast, Sharp & Reliable Agentic Intelligence”，即快速、精准、可靠的智能体智能。该模型是阶跃星辰当前能力最强的开源基础模型，核心设计目标是在兼顾推理速度、智能水平与使用成本的前提下，为开发者、企业用户提供可落地的实时Agent工作流底层支撑，解决传统大模型在智能体场景中推理延迟高、长链条任务稳定性不足、长上下文计算开销大、本地部署门槛高等行业痛点。

从技术本质来看，Step 3.5 Flash基于稀疏混合专家（Sparse MoE）Transformer架构构建，区别于传统稠密模型全参数激活的运行模式，模型总参数量达到196.81B（包含196B主干网络与0.81B输出头），但在每token生成过程中仅激活约11B参数，以“高智能密度”的设计实现了大参数量模型的能力与小参数量模型的效率兼顾。模型原生面向Agent场景优化，集成了专用的强化学习框架、多Token预测加速、混合注意力长上下文处理等技术，在智能体任务、数学逻辑推理、代码编写与执行、长文本理解等核心场景中，性能表现可对标行业顶级闭源大模型，同时保持开源模型的可定制、可本地部署、成本可控的优势。

从开源生态定位上，Step 3.5 Flash的GitHub仓库不仅提供模型核心说明文档，还集成了llama.cpp工程化工具、格式转换脚本、多框架部署命令、完整性能基准数据，形成了“模型权重+部署工具+使用文档+基准测试”的完整开源套件，支持开发者快速完成云端接入、本地编译、推理测试、二次微调和场景化应用开发，降低了高性能Agent大模型的使用与落地门槛。该模型采用Apache-2.0开源许可证，允许商业使用、修改、分发与二次开发，适配个人开发者、中小企业、科研机构、大型企业的多样化使用需求。

二、功能特色

Step 3.5 Flash的功能特色围绕“高速推理、强Agent能力、长上下文高效处理、低门槛部署、稳定长链条输出”五大核心方向设计，所有特性均经过官方基准测试与实际场景验证，具体如下：

（一）极速推理与高吞吐量

模型搭载阶跃星辰自研的MTP-3三通道多Token预测技术，通过专用的多Token预测头（融合滑动窗口注意力与前馈网络），实现单次前向传播同时预测4个token，大幅提升生成速度。常规使用场景下，模型生成吞吐量稳定在100-300 tok/s，单流编码类任务峰值可达350 tok/s，可支撑实时交互、即时推理、高频工具调用等对延迟敏感的场景，解决传统大模型推理慢、无法适配实时Agent工作流的问题。

（二）顶尖智能体与代码能力

Step 3.5 Flash是原生为Agent场景优化的模型，集成可扩展的强化学习框架，保障长周期、多步骤、高复杂度任务的稳定执行。在代码与智能体权威基准测试中，模型取得SWE-bench Verified 74.4%、Terminal-Bench 2.0 51.0%的成绩，可完成复杂项目代码编写、终端命令执行、代码调试、智能体任务规划与执行等专业任务，能够基于自然语言指令自动生成可视化系统、拆解复杂需求为子任务、协同多工具完成跨平台作业。

（三）256K高效长上下文处理

模型采用3:1滑动窗口混合注意力（SWA+FullAttention） 机制，每3层滑动窗口注意力搭配1层全注意力，在支持256K超长上下文窗口的同时，显著降低长文本处理的计算开销。该设计让模型可处理十万字级别的文档、超长代码库、多轮对话历史、大规模数据集，且不会因上下文长度增加出现性能断崖式下跌，在长文本摘要、文档问答、跨文档信息整合、长代码分析等场景中保持稳定输出。

（四）轻量化本地部署适配

模型针对本地推理场景深度优化，打破“高性能模型必须依赖大规模云端算力”的限制，可在高端消费级硬件与企业级工作站上安全本地运行，核心适配设备包括Mac Studio M4 Max、NVIDIA DGX Spark、AMD Ryzen AI Max+ 395等，兼顾数据隐私与性能表现。同时兼容vLLM、SGLang、Hugging Face Transformers、llama.cpp四大主流推理框架，提供多样化部署方案，满足不同开发者的技术栈与硬件条件。

（五）稳定长链条任务输出

模型通过架构优化与训练策略调整，具备极强的任务稳定性，可胜任多步骤、长周期、高逻辑复杂度的链式任务，不会因任务链条延长出现逻辑断裂、输出失真、结果错误等问题。无论是数学推理的多步演算、智能体的多工具协同、代码工程的全流程开发，还是长文档的逐段分析，都能持续保持高质量、高一致性的输出，满足企业级应用对可靠性的要求。

（六）多场景兼容与生态适配

模型已完成华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家国内外头部芯片厂商的适配，通过底层联合优化提升推理效率与硬件兼容性；同时支持OpenRouter、阶跃星辰官方平台两种云端API调用方式，OpenRouter提供限免试用权限，降低新手上手成本；还可无缝接入主流代码编辑环境（如Claude Code、Codex），拓展代码开发场景的使用边界。

三、技术细节

Step 3.5 Flash的核心竞争力源于底层架构的创新设计，涵盖稀疏MoE路由、注意力机制、多Token预测、模型规格等多个维度，所有技术参数均来自官方开源文档，具体细节如下：

（一）核心模型规格

模型的基础技术参数决定了其能力上限与运行条件，官方完整规格如下表：

核心组件	具体参数
主干架构	45层Transformer，隐藏层维度4096
上下文窗口长度	最大支持256K token
词表大小	128896个token
总参数量	196.81B（196B主干+0.81B输出头）
单token激活参数量	约11B
开源许可证	Apache-2.0
支持精度	BF16、FP8、GGUF int4

（二）稀疏混合专家（MoE）路由机制

作为模型效率的核心支撑，Step 3.5 Flash采用细粒度的MoE路由策略，区别于传统粗粒度专家分配模式，具体设计为：

专家配置：每层网络包含288个路由专家+1个永久激活的共享专家，共享专家负责基础语义理解，路由专家负责细分任务的专业处理；
激活规则：每token生成时仅选择Top-8个路由专家激活，结合共享专家完成计算，在保留196B参数模型的知识储备与推理能力的同时，以11B参数的计算量完成推理，实现能力与效率的平衡；
路由优化：采用精细化路由算法，避免专家负载不均衡、部分专家闲置的问题，提升每一轮推理的计算效率与显存利用率。

（三）MTP-3多Token预测技术

MTP-3是模型实现高速推理的核心技术，属于阶跃星辰自研的多token并行预测模块，核心原理与优势：

结构设计：由滑动窗口注意力子模块与稠密前馈网络（FFN）组成，适配模型的混合注意力机制，不破坏原有上下文理解能力；
预测效率：单次前向传播可同时输出4个token，相比传统单token预测模式，推理速度提升数倍，且不会因并行预测降低输出质量；
场景适配：针对代码生成、长文本输出、实时对话等token生成量大的场景优化，在保持逻辑连贯性的前提下，最大化提升生成吞吐量。

（四）3:1滑动窗口混合注意力

为解决长上下文计算开销大的行业难题，模型采用创新的混合注意力架构：

比例配置：严格遵循3层滑动窗口注意力（SWA）+1层全注意力（FullAttention）的比例，兼顾局部上下文聚焦与全局信息关联；
工作逻辑：滑动窗口注意力负责捕捉局部文本的关联信息，降低计算量；全注意力层定期整合全局上下文信息，保证长文本的整体逻辑一致性；
效率优势：相比全量全注意力模型，在256K上下文长度下，计算开销与显存占用大幅降低，推理速度保持稳定，同时避免滑动窗口模型常见的全局信息丢失问题。

（五）推理与部署优化技术

专家并行（Expert Parallelism）：支持多GPU环境下的专家并行部署，充分利用多卡算力，提升大规模推理的吞吐量；
量化支持：原生支持BF16、FP8高精度量化与GGUF int4低精度量化，低精度模式下显存占用大幅降低，可在消费级硬件运行；
框架适配：深度适配vLLM、SGLang等高性能推理框架，集成专用的推理解析器、工具调用解析器，支持自动工具选择、链式推理解析等Agent核心能力；
本地编译优化：仓库内置llama.cpp定制版本，提供Mac、NVIDIA CUDA、AMD Vulkan多平台编译脚本，支持GGUF格式模型的本地推理与性能测试。

（六）性能基准核心数据

模型在推理、智能体、代码三大核心维度的权威基准测试中，表现优于同类型开源模型，部分核心指标对比如下：

测试维度	基准名称	Step 3.5 Flash得分	核心优势
智能体能力	τ²-Bench	88.2	超越多数开源模型，接近闭源模型水平
数学推理	AIME 2025	97.3	复杂数学问题推理准确率行业顶尖
代码能力	SWE-bench Verified	74.4	实战化代码任务处理能力突出
长文本理解	xbench-DeepSearch	83.7	长文本深度搜索与信息整合能力优异

注：完整基准数据包含十余项国际权威测试，涵盖中英文双语场景、单轮/多轮任务、结构化/非结构化数据处理，所有数据均为官方标准测试环境下的实测结果，无数据美化与条件倾斜。

四、应用场景

Step 3.5 Flash的功能与技术特性，决定了其可覆盖从个人使用到企业级落地的全场景需求，核心应用场景分为六大类，均有官方案例与技术支撑：

（一）智能体（Agent）开发与部署

作为原生为Agent场景优化的模型，是该领域的核心应用方向。可用于开发个人智能助手、企业业务智能体、自动化运维Agent、多智能体协同系统，支持任务规划、工具调用、环境交互、长链条任务执行、跨平台协同等能力，适用于自动化办公、业务流程自动化、智能客服、数据分析机器人等落地项目。

（二）代码工程与开发辅助

模型在代码基准测试中表现优异，可作为程序员的辅助工具，支持自然语言转代码、全项目代码生成、代码调试与纠错、终端命令生成、可视化系统开发、代码注释与文档编写，适配前端、后端、数据分析、可视化开发等多个开发方向，可集成到VS Code、JetBrains等IDE，提升开发效率。

（三）长文本处理与文档办公

依托256K长上下文能力，可处理PDF、Word、TXT、代码库等超长文档，支持文档摘要、关键信息提取、跨文档问答、内容校对、报告生成、合同审核、文献解读等办公场景，适用于法务、金融、科研、行政等需要处理大量文本资料的岗位，大幅降低文本整理与分析的工作量。

（四）数学推理与科学计算

模型在AIME、HMMT、IMOAnswerBench等高难度数学基准中取得顶尖成绩，可处理复杂数学公式推导、等差数列/等比数列计算、几何问题求解、逻辑证明、数值计算等任务，无需外部工具即可完成多步演算，适用于学生学习辅助、科研计算、工程数学问题求解等场景。

（五）本地私有化部署应用

针对数据隐私敏感的行业（金融、医疗、政务、企业内部数据），可本地部署在自有硬件设备上，构建私有化对话系统、内部知识库问答、业务数据处理工具，所有数据不脱离本地环境，避免数据泄露风险，同时保持高性能推理能力，满足行业合规要求。

（六）端云协同智能系统

可作为云端核心大脑，将用户复杂需求拆解为子任务，协同本地终端设备完成数据分析、可视化展示、命令执行等操作，构建端云协同的智能系统，适用于地理信息系统、工业监控、数据可视化、跨设备自动化控制等场景，实现云端智能与本地执行的无缝衔接。

Step 3.5 Flash：阶跃星辰推出的开源稀疏 MoE 智能体基座大模型

五、使用方法

Step 3.5 Flash提供云端API快速调用与本地私有化部署两种核心使用方式，覆盖新手快速体验、开发者二次开发、企业私有化部署全需求，所有步骤均严格遵循官方文档，具体操作如下：

（一）云端API快速开始

云端调用无需本地硬件配置，适合快速体验模型能力、轻量级应用开发，支持OpenRouter与阶跃星辰官方平台两种渠道。

获取API密钥

方式一：注册OpenRouter账号（https://openrouter.ai），平台提供Step 3.5 Flash限免试用权限，在账号后台获取API Key；
方式二：注册阶跃星辰官方平台（https://platform.stepfun.ai），完成认证后获取专属API Key。

环境配置
安装兼容OpenAI接口的SDK，支持Python等主流语言，安装命令：

  pip install --upgrade "openai>=1.0"

代码调用示例
以Python为例，分别适配阶跃星辰官方接口与OpenRouter接口，核心代码如下：

  from openai import OpenAI
  # 配置客户端（二选一）
  # 选项1：阶跃星辰官方接口
  client = OpenAI(
    api_key="你的API密钥",
    base_url="https://api.stepfun.ai/v1"
  )
  # 选项2：OpenRouter接口
  # client = OpenAI(
  #   api_key="你的OpenRouter密钥",
  #   base_url="https://openrouter.ai/api/v1",
  #   default_headers={"HTTP-Referer": "你的站点地址", "X-Title": "站点名称"}
  # )

  # 发起对话请求
  completion = client.chat.completions.create(
    model="step-3.5-flash", # OpenRouter需使用stepfun/step-3.5-flash
    messages=[
      {"role": "system", "content": "你是由阶跃星辰提供的AI助手，支持多语言对话与专业任务处理"},
      {"role": "user", "content": "请介绍Step 3.5 Flash的核心优势"}
    ]
  )
  # 输出结果
  print(completion.choices[0].message.content)

（二）本地部署（四大框架适配）

本地部署适合私有化使用、高性能推理、二次开发，官方支持vLLM、SGLang、Hugging Face Transformers、llama.cpp四种框架，可根据硬件与技术栈选择。

vLLM部署（推荐高性能云端/服务器使用）

安装最新nightly版本：Docker拉取或pip安装预发布版本；
启动命令：FP8精度与BF16精度分别对应不同命令，需设置张量并行大小、专家并行、推理解析器等参数；
优势：支持高吞吐量服务，适配多GPU环境，后续将完整支持MTP-3加速。

SGLang部署

安装开发版SGLang，支持Docker与源码安装；
启动命令：配置EAGLE speculative解码、多步draft token预测，提升推理速度；
优势：针对长文本与Agent任务优化，工具调用与推理解析能力完善。

Hugging Face Transformers部署（调试/验证使用）

加载模型与分词器，开启trust_remote_code参数；
适配自动设备映射，快速完成功能验证，不适合高并发生产环境；
优势：简单易用，适合模型功能测试与代码调试。

llama.cpp部署（本地消费级硬件使用）

环境要求：GGUF int4模型权重111.5GB，运行时开销约7GB，最低显存/统一内存120GB；
编译步骤：克隆仓库后，针对Mac（Metal加速）、NVIDIA（CUDA）、AMD（Vulkan）分别执行编译脚本；
运行命令：使用llama-cli加载GGUF模型，设置上下文长度、批处理大小等参数，可通过llama-batched-bench测试性能。

（三）Agent平台集成

可将模型集成到Claude Code、Codex等主流代码与Agent平台，步骤如下：

前置条件：获取OpenRouter或阶跃星辰API密钥；
环境准备：安装Node.js v20及以上版本，推荐使用nvm管理版本；
配置修改：在对应平台的模型列表中添加Step 3.5 Flash，填入API密钥与接口地址，完成后即可在平台中调用模型进行代码开发与Agent任务执行。

六、常见问题解答

Step 3.5 Flash的参数量是多少，实际运行时激活多少参数？

模型总参数量为196.81B，包含主干网络196B与输出头0.81B，每token生成过程中仅激活约11B参数，兼顾大模型能力与小模型推理效率。

模型支持的最大上下文长度是多少，是否会随长度增加降低性能？

模型原生支持256K token上下文，采用3:1滑动窗口混合注意力机制，相比传统长上下文模型，性能衰减幅度极小，在全长度范围内保持稳定的理解与生成能力。

该模型是否支持中文场景，测试数据是否包含中文基准

模型支持中英文双语处理，官方基准测试包含BrowseComp-ZH等中文专用场景，在中文长文本、中文智能体任务、中文代码注释等场景中表现优异，无语言适配偏差。

本地运行Step 3.5 Flash需要什么硬件配置？

llama.cpp低精度模式最低要求120GB显存/统一内存，推荐128GB及以上，适配设备包括Mac Studio M4 Max、NVIDIA DGX Spark、AMD Ryzen AI Max+ 395；云端多GPU部署可使用8卡H20等服务器配置，支持张量并行与专家并行。

模型支持哪些推理框架，哪个框架性能最优？

官方支持vLLM、SGLang、Transformers、llama.cpp，生产环境高吞吐量推荐vLLM与SGLang，本地消费级硬件推荐llama.cpp，功能调试推荐Transformers。

国内网络环境下如何获取模型权重与部署代码？

模型权重已上传至Hugging Face与ModelScope，国内用户可通过ModelScope快速下载；GitHub仓库可正常克隆，编译脚本与依赖包可通过国内镜像源加速安装。

低精度量化是否会影响模型能力，FP8、int4量化的差异是什么？

官方量化方案均经过精度校准，FP8精度几乎无能力损失，适合高性能部署；int4 GGUF量化显存占用最低，适合本地硬件，能力损失控制在可接受范围，日常使用与专业任务均能满足需求。

如何免费体验Step 3.5 Flash，是否有试用额度？

OpenRouter平台提供Step 3.5 Flash限免试用权限，注册账号即可获取API密钥进行测试，适合个人用户快速体验模型能力。

模型是否支持工具调用与Agent任务规划，是否需要额外配置？

原生支持自动工具选择、工具调用解析、链式推理规划，部署时开启对应解析器参数即可使用，无需额外训练或二次开发，适配主流Agent工作流。

模型的推理速度具体是多少，不同场景有差异吗？

常规场景吞吐量100-300 tok/s，单流代码任务峰值350 tok/s，长文本、代码生成场景速度更高，短对话场景延迟更低，硬件配置与框架选择会影响实际速度。

是否支持模型微调，官方提供微调脚本与教程吗？

模型基于标准Transformer架构，支持Hugging Face Transformers生态的微调方案，官方仓库提供基础适配代码，可结合LoRA、全参数微调等方式进行二次定制。

本地部署时出现显存不足怎么办

可切换为int4 GGUF量化模型，降低批处理大小与上下文长度，开启量化与内存优化参数；多GPU环境可开启张量并行与专家并行，分散显存占用。

推理速度未达到官方标称值，如何优化？

使用最新版本的vLLM/SGLang，开启MTP-3相关参数，配置合适的并行数与批处理大小；服务器环境关闭不必要的后台进程，充分利用GPU算力。

模型输出出现逻辑错误或不连贯，如何调整？

可调整生成温度（temperature）参数，降低随机性；使用官方推荐的系统提示词，明确任务要求；长任务可拆分多轮对话，避免单轮输入过长。

哪些芯片厂商已完成模型适配，国产硬件是否支持？

华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等厂商已完成适配，国产硬件可通过厂商优化驱动与部署脚本实现高效推理。

七、相关链接

GitHub开源仓库：https://github.com/stepfun-ai/Step-3.5-Flash
Hugging Face模型权重：https://huggingface.co/stepfun-ai/Step-3.5-Flash
ModelScope模型权重：https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash
阶跃星辰官方平台：https://platform.stepfun.ai
llama.cpp定制版本：https://github.com/stepfun-ai/Step-3.5-Flash/tree/main/llama.cpp

八、总结

Step 3.5 Flash是阶跃星辰打造的面向智能体场景的高性能开源基座大模型，以稀疏MoE架构、MTP-3多Token预测、3:1滑动窗口混合注意力为核心技术支撑，实现了196B总参数模型的能力与11B激活参数的效率平衡，在智能体任务、数学推理、代码开发、长文本处理等核心场景的基准测试中超越主流开源模型，部分指标对标顶级闭源产品，同时提供云端API、多框架本地部署两种使用方式，适配多样化硬件与技术栈，采用Apache-2.0协议开放使用，兼顾性能、效率、易用性与商业化合规性，既可以满足个人用户快速体验与学习需求，也能支撑企业私有化部署、智能体系统开发、代码工程、长文本处理等落地场景，是当前开源生态中面向Agent与复杂推理任务的优质底层模型选择。

开源大语言模型

打赏

版权及免责申明：本文由@AI工具集原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/step-3-5-flash.html

THE END

AI工具集

工具不孤岛，AI集大成——这里有你要的一切智能解法

+ 关注

Step 3.5 Flash：阶跃星辰推出的开源稀疏 MoE 智能体基座大模型

文章目录

一、Step 3.5 Flash是什么

二、功能特色

（一）极速推理与高吞吐量

（二）顶尖智能体与代码能力

（三）256K高效长上下文处理

（四）轻量化本地部署适配

（五）稳定长链条任务输出

（六）多场景兼容与生态适配

三、技术细节

（一）核心模型规格

（二）稀疏混合专家（MoE）路由机制

（三）MTP-3多Token预测技术

（四）3:1滑动窗口混合注意力

（五）推理与部署优化技术

（六）性能基准核心数据

四、应用场景

（一）智能体（Agent）开发与部署

（二）代码工程与开发辅助

（三）长文本处理与文档办公

（四）数学推理与科学计算

（五）本地私有化部署应用

（六）端云协同智能系统

五、使用方法

（一）云端API快速开始

（二）本地部署（四大框架适配）

（三）Agent平台集成

六、常见问题解答

七、相关链接

八、总结

相关文章