Step 3.5 Flash:阶跃星辰推出的开源稀疏 MoE 智能体基座大模型

原创 发布日期:
65

一、Step 3.5 Flash是什么

Step 3.5 Flash是阶跃星辰(stepfun-ai)开源的高性能基座大语言模型,核心定位为为智能体(Agent)场景量身打造的高效推理大模型,官方标语为“Fast, Sharp & Reliable Agentic Intelligence”,即快速、精准、可靠的智能体智能。该模型是阶跃星辰当前能力最强的开源基础模型,核心设计目标是在兼顾推理速度、智能水平与使用成本的前提下,为开发者、企业用户提供可落地的实时Agent工作流底层支撑,解决传统大模型在智能体场景中推理延迟高、长链条任务稳定性不足、长上下文计算开销大、本地部署门槛高等行业痛点。

从技术本质来看,Step 3.5 Flash基于稀疏混合专家(Sparse MoE)Transformer架构构建,区别于传统稠密模型全参数激活的运行模式,模型总参数量达到196.81B(包含196B主干网络与0.81B输出头),但在每token生成过程中仅激活约11B参数,以“高智能密度”的设计实现了大参数量模型的能力与小参数量模型的效率兼顾。模型原生面向Agent场景优化,集成了专用的强化学习框架、多Token预测加速、混合注意力长上下文处理等技术,在智能体任务、数学逻辑推理、代码编写与执行、长文本理解等核心场景中,性能表现可对标行业顶级闭源大模型,同时保持开源模型的可定制、可本地部署、成本可控的优势。

从开源生态定位上,Step 3.5 Flash的GitHub仓库不仅提供模型核心说明文档,还集成了llama.cpp工程化工具、格式转换脚本、多框架部署命令、完整性能基准数据,形成了“模型权重+部署工具+使用文档+基准测试”的完整开源套件,支持开发者快速完成云端接入、本地编译、推理测试、二次微调和场景化应用开发,降低了高性能Agent大模型的使用与落地门槛。该模型采用Apache-2.0开源许可证,允许商业使用、修改、分发与二次开发,适配个人开发者、中小企业、科研机构、大型企业的多样化使用需求。

二、功能特色

Step 3.5 Flash的功能特色围绕“高速推理、强Agent能力、长上下文高效处理、低门槛部署、稳定长链条输出”五大核心方向设计,所有特性均经过官方基准测试与实际场景验证,具体如下:

(一)极速推理与高吞吐量

模型搭载阶跃星辰自研的MTP-3三通道多Token预测技术,通过专用的多Token预测头(融合滑动窗口注意力与前馈网络),实现单次前向传播同时预测4个token,大幅提升生成速度。常规使用场景下,模型生成吞吐量稳定在100-300 tok/s,单流编码类任务峰值可达350 tok/s,可支撑实时交互、即时推理、高频工具调用等对延迟敏感的场景,解决传统大模型推理慢、无法适配实时Agent工作流的问题。

(二)顶尖智能体与代码能力

Step 3.5 Flash是原生为Agent场景优化的模型,集成可扩展的强化学习框架,保障长周期、多步骤、高复杂度任务的稳定执行。在代码与智能体权威基准测试中,模型取得SWE-bench Verified 74.4%、Terminal-Bench 2.0 51.0%的成绩,可完成复杂项目代码编写、终端命令执行、代码调试、智能体任务规划与执行等专业任务,能够基于自然语言指令自动生成可视化系统、拆解复杂需求为子任务、协同多工具完成跨平台作业。

(三)256K高效长上下文处理

模型采用3:1滑动窗口混合注意力(SWA+FullAttention) 机制,每3层滑动窗口注意力搭配1层全注意力,在支持256K超长上下文窗口的同时,显著降低长文本处理的计算开销。该设计让模型可处理十万字级别的文档、超长代码库、多轮对话历史、大规模数据集,且不会因上下文长度增加出现性能断崖式下跌,在长文本摘要、文档问答、跨文档信息整合、长代码分析等场景中保持稳定输出。

(四)轻量化本地部署适配

模型针对本地推理场景深度优化,打破“高性能模型必须依赖大规模云端算力”的限制,可在高端消费级硬件与企业级工作站上安全本地运行,核心适配设备包括Mac Studio M4 Max、NVIDIA DGX Spark、AMD Ryzen AI Max+ 395等,兼顾数据隐私与性能表现。同时兼容vLLM、SGLang、Hugging Face Transformers、llama.cpp四大主流推理框架,提供多样化部署方案,满足不同开发者的技术栈与硬件条件。

(五)稳定长链条任务输出

模型通过架构优化与训练策略调整,具备极强的任务稳定性,可胜任多步骤、长周期、高逻辑复杂度的链式任务,不会因任务链条延长出现逻辑断裂、输出失真、结果错误等问题。无论是数学推理的多步演算、智能体的多工具协同、代码工程的全流程开发,还是长文档的逐段分析,都能持续保持高质量、高一致性的输出,满足企业级应用对可靠性的要求。

(六)多场景兼容与生态适配

模型已完成华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等多家国内外头部芯片厂商的适配,通过底层联合优化提升推理效率与硬件兼容性;同时支持OpenRouter、阶跃星辰官方平台两种云端API调用方式,OpenRouter提供限免试用权限,降低新手上手成本;还可无缝接入主流代码编辑环境(如Claude Code、Codex),拓展代码开发场景的使用边界。

三、技术细节

Step 3.5 Flash的核心竞争力源于底层架构的创新设计,涵盖稀疏MoE路由、注意力机制、多Token预测、模型规格等多个维度,所有技术参数均来自官方开源文档,具体细节如下:

(一)核心模型规格

模型的基础技术参数决定了其能力上限与运行条件,官方完整规格如下表:

核心组件 具体参数
主干架构 45层Transformer,隐藏层维度4096
上下文窗口长度 最大支持256K token
词表大小 128896个token
总参数量 196.81B(196B主干+0.81B输出头)
单token激活参数量 约11B
开源许可证 Apache-2.0
支持精度 BF16、FP8、GGUF int4

(二)稀疏混合专家(MoE)路由机制

作为模型效率的核心支撑,Step 3.5 Flash采用细粒度的MoE路由策略,区别于传统粗粒度专家分配模式,具体设计为:

  1. 专家配置:每层网络包含288个路由专家+1个永久激活的共享专家,共享专家负责基础语义理解,路由专家负责细分任务的专业处理;

  2. 激活规则:每token生成时仅选择Top-8个路由专家激活,结合共享专家完成计算,在保留196B参数模型的知识储备与推理能力的同时,以11B参数的计算量完成推理,实现能力与效率的平衡;

  3. 路由优化:采用精细化路由算法,避免专家负载不均衡、部分专家闲置的问题,提升每一轮推理的计算效率与显存利用率。

(三)MTP-3多Token预测技术

MTP-3是模型实现高速推理的核心技术,属于阶跃星辰自研的多token并行预测模块,核心原理与优势:

  1. 结构设计:由滑动窗口注意力子模块与稠密前馈网络(FFN)组成,适配模型的混合注意力机制,不破坏原有上下文理解能力;

  2. 预测效率:单次前向传播可同时输出4个token,相比传统单token预测模式,推理速度提升数倍,且不会因并行预测降低输出质量;

  3. 场景适配:针对代码生成、长文本输出、实时对话等token生成量大的场景优化,在保持逻辑连贯性的前提下,最大化提升生成吞吐量。

(四)3:1滑动窗口混合注意力

为解决长上下文计算开销大的行业难题,模型采用创新的混合注意力架构:

  1. 比例配置:严格遵循3层滑动窗口注意力(SWA)+1层全注意力(FullAttention)的比例,兼顾局部上下文聚焦与全局信息关联;

  2. 工作逻辑:滑动窗口注意力负责捕捉局部文本的关联信息,降低计算量;全注意力层定期整合全局上下文信息,保证长文本的整体逻辑一致性;

  3. 效率优势:相比全量全注意力模型,在256K上下文长度下,计算开销与显存占用大幅降低,推理速度保持稳定,同时避免滑动窗口模型常见的全局信息丢失问题。

(五)推理与部署优化技术

  1. 专家并行(Expert Parallelism):支持多GPU环境下的专家并行部署,充分利用多卡算力,提升大规模推理的吞吐量;

  2. 量化支持:原生支持BF16、FP8高精度量化与GGUF int4低精度量化,低精度模式下显存占用大幅降低,可在消费级硬件运行;

  3. 框架适配:深度适配vLLM、SGLang等高性能推理框架,集成专用的推理解析器、工具调用解析器,支持自动工具选择、链式推理解析等Agent核心能力;

  4. 本地编译优化:仓库内置llama.cpp定制版本,提供Mac、NVIDIA CUDA、AMD Vulkan多平台编译脚本,支持GGUF格式模型的本地推理与性能测试。

(六)性能基准核心数据

模型在推理、智能体、代码三大核心维度的权威基准测试中,表现优于同类型开源模型,部分核心指标对比如下:

测试维度 基准名称 Step 3.5 Flash得分 核心优势
智能体能力 τ²-Bench 88.2 超越多数开源模型,接近闭源模型水平
数学推理 AIME 2025 97.3 复杂数学问题推理准确率行业顶尖
代码能力 SWE-bench Verified 74.4 实战化代码任务处理能力突出
长文本理解 xbench-DeepSearch 83.7 长文本深度搜索与信息整合能力优异

注:完整基准数据包含十余项国际权威测试,涵盖中英文双语场景、单轮/多轮任务、结构化/非结构化数据处理,所有数据均为官方标准测试环境下的实测结果,无数据美化与条件倾斜。

四、应用场景

Step 3.5 Flash的功能与技术特性,决定了其可覆盖从个人使用到企业级落地的全场景需求,核心应用场景分为六大类,均有官方案例与技术支撑:

(一)智能体(Agent)开发与部署

作为原生为Agent场景优化的模型,是该领域的核心应用方向。可用于开发个人智能助手、企业业务智能体、自动化运维Agent、多智能体协同系统,支持任务规划、工具调用、环境交互、长链条任务执行、跨平台协同等能力,适用于自动化办公、业务流程自动化、智能客服、数据分析机器人等落地项目。

(二)代码工程与开发辅助

模型在代码基准测试中表现优异,可作为程序员的辅助工具,支持自然语言转代码、全项目代码生成、代码调试与纠错、终端命令生成、可视化系统开发、代码注释与文档编写,适配前端、后端、数据分析、可视化开发等多个开发方向,可集成到VS Code、JetBrains等IDE,提升开发效率。

(三)长文本处理与文档办公

依托256K长上下文能力,可处理PDF、Word、TXT、代码库等超长文档,支持文档摘要、关键信息提取、跨文档问答、内容校对、报告生成、合同审核、文献解读等办公场景,适用于法务、金融、科研、行政等需要处理大量文本资料的岗位,大幅降低文本整理与分析的工作量。

(四)数学推理与科学计算

模型在AIME、HMMT、IMOAnswerBench等高难度数学基准中取得顶尖成绩,可处理复杂数学公式推导、等差数列/等比数列计算、几何问题求解、逻辑证明、数值计算等任务,无需外部工具即可完成多步演算,适用于学生学习辅助、科研计算、工程数学问题求解等场景。

(五)本地私有化部署应用

针对数据隐私敏感的行业(金融、医疗、政务、企业内部数据),可本地部署在自有硬件设备上,构建私有化对话系统、内部知识库问答、业务数据处理工具,所有数据不脱离本地环境,避免数据泄露风险,同时保持高性能推理能力,满足行业合规要求。

(六)端云协同智能系统

可作为云端核心大脑,将用户复杂需求拆解为子任务,协同本地终端设备完成数据分析、可视化展示、命令执行等操作,构建端云协同的智能系统,适用于地理信息系统、工业监控、数据可视化、跨设备自动化控制等场景,实现云端智能与本地执行的无缝衔接。

Step 3.5 Flash:阶跃星辰推出的开源稀疏 MoE 智能体基座大模型

五、使用方法

Step 3.5 Flash提供云端API快速调用本地私有化部署两种核心使用方式,覆盖新手快速体验、开发者二次开发、企业私有化部署全需求,所有步骤均严格遵循官方文档,具体操作如下:

(一)云端API快速开始

云端调用无需本地硬件配置,适合快速体验模型能力、轻量级应用开发,支持OpenRouter与阶跃星辰官方平台两种渠道。

  1. 获取API密钥

    • 方式一:注册OpenRouter账号(https://openrouter.ai),平台提供Step 3.5 Flash限免试用权限,在账号后台获取API Key;

    • 方式二:注册阶跃星辰官方平台(https://platform.stepfun.ai),完成认证后获取专属API Key。

  2. 环境配置
    安装兼容OpenAI接口的SDK,支持Python等主流语言,安装命令:

  pip install --upgrade "openai>=1.0"
  1. 代码调用示例
    以Python为例,分别适配阶跃星辰官方接口与OpenRouter接口,核心代码如下:

  from openai import OpenAI
  # 配置客户端(二选一)
  # 选项1:阶跃星辰官方接口
  client = OpenAI(
    api_key="你的API密钥",
    base_url="https://api.stepfun.ai/v1"
  )
  # 选项2:OpenRouter接口
  # client = OpenAI(
  #   api_key="你的OpenRouter密钥",
  #   base_url="https://openrouter.ai/api/v1",
  #   default_headers={"HTTP-Referer": "你的站点地址", "X-Title": "站点名称"}
  # )

  # 发起对话请求
  completion = client.chat.completions.create(
    model="step-3.5-flash", # OpenRouter需使用stepfun/step-3.5-flash
    messages=[
      {"role": "system", "content": "你是由阶跃星辰提供的AI助手,支持多语言对话与专业任务处理"},
      {"role": "user", "content": "请介绍Step 3.5 Flash的核心优势"}
    ]
  )
  # 输出结果
  print(completion.choices[0].message.content)

(二)本地部署(四大框架适配)

本地部署适合私有化使用、高性能推理、二次开发,官方支持vLLM、SGLang、Hugging Face Transformers、llama.cpp四种框架,可根据硬件与技术栈选择。

  1. vLLM部署(推荐高性能云端/服务器使用)

    • 安装最新nightly版本:Docker拉取或pip安装预发布版本;

    • 启动命令:FP8精度与BF16精度分别对应不同命令,需设置张量并行大小、专家并行、推理解析器等参数;

    • 优势:支持高吞吐量服务,适配多GPU环境,后续将完整支持MTP-3加速。

  2. SGLang部署

    • 安装开发版SGLang,支持Docker与源码安装;

    • 启动命令:配置EAGLE speculative解码、多步draft token预测,提升推理速度;

    • 优势:针对长文本与Agent任务优化,工具调用与推理解析能力完善。

  3. Hugging Face Transformers部署(调试/验证使用)

    • 加载模型与分词器,开启trust_remote_code参数;

    • 适配自动设备映射,快速完成功能验证,不适合高并发生产环境;

    • 优势:简单易用,适合模型功能测试与代码调试。

  4. llama.cpp部署(本地消费级硬件使用)

    • 环境要求:GGUF int4模型权重111.5GB,运行时开销约7GB,最低显存/统一内存120GB;

    • 编译步骤:克隆仓库后,针对Mac(Metal加速)、NVIDIA(CUDA)、AMD(Vulkan)分别执行编译脚本;

    • 运行命令:使用llama-cli加载GGUF模型,设置上下文长度、批处理大小等参数,可通过llama-batched-bench测试性能。

(三)Agent平台集成

可将模型集成到Claude Code、Codex等主流代码与Agent平台,步骤如下:

  1. 前置条件:获取OpenRouter或阶跃星辰API密钥;

  2. 环境准备:安装Node.js v20及以上版本,推荐使用nvm管理版本;

  3. 配置修改:在对应平台的模型列表中添加Step 3.5 Flash,填入API密钥与接口地址,完成后即可在平台中调用模型进行代码开发与Agent任务执行。

六、常见问题解答

Step 3.5 Flash的参数量是多少,实际运行时激活多少参数?

模型总参数量为196.81B,包含主干网络196B与输出头0.81B,每token生成过程中仅激活约11B参数,兼顾大模型能力与小模型推理效率。

模型支持的最大上下文长度是多少,是否会随长度增加降低性能?

模型原生支持256K token上下文,采用3:1滑动窗口混合注意力机制,相比传统长上下文模型,性能衰减幅度极小,在全长度范围内保持稳定的理解与生成能力。

该模型是否支持中文场景,测试数据是否包含中文基准

模型支持中英文双语处理,官方基准测试包含BrowseComp-ZH等中文专用场景,在中文长文本、中文智能体任务、中文代码注释等场景中表现优异,无语言适配偏差。

本地运行Step 3.5 Flash需要什么硬件配置?

llama.cpp低精度模式最低要求120GB显存/统一内存,推荐128GB及以上,适配设备包括Mac Studio M4 Max、NVIDIA DGX Spark、AMD Ryzen AI Max+ 395;云端多GPU部署可使用8卡H20等服务器配置,支持张量并行与专家并行。

模型支持哪些推理框架,哪个框架性能最优?

官方支持vLLM、SGLang、Transformers、llama.cpp,生产环境高吞吐量推荐vLLM与SGLang,本地消费级硬件推荐llama.cpp,功能调试推荐Transformers。

国内网络环境下如何获取模型权重与部署代码?

模型权重已上传至Hugging Face与ModelScope,国内用户可通过ModelScope快速下载;GitHub仓库可正常克隆,编译脚本与依赖包可通过国内镜像源加速安装。

低精度量化是否会影响模型能力,FP8、int4量化的差异是什么?

官方量化方案均经过精度校准,FP8精度几乎无能力损失,适合高性能部署;int4 GGUF量化显存占用最低,适合本地硬件,能力损失控制在可接受范围,日常使用与专业任务均能满足需求。

如何免费体验Step 3.5 Flash,是否有试用额度?

OpenRouter平台提供Step 3.5 Flash限免试用权限,注册账号即可获取API密钥进行测试,适合个人用户快速体验模型能力。

模型是否支持工具调用与Agent任务规划,是否需要额外配置?

原生支持自动工具选择、工具调用解析、链式推理规划,部署时开启对应解析器参数即可使用,无需额外训练或二次开发,适配主流Agent工作流。

模型的推理速度具体是多少,不同场景有差异吗?

常规场景吞吐量100-300 tok/s,单流代码任务峰值350 tok/s,长文本、代码生成场景速度更高,短对话场景延迟更低,硬件配置与框架选择会影响实际速度。

是否支持模型微调,官方提供微调脚本与教程吗?

模型基于标准Transformer架构,支持Hugging Face Transformers生态的微调方案,官方仓库提供基础适配代码,可结合LoRA、全参数微调等方式进行二次定制。

本地部署时出现显存不足怎么办

可切换为int4 GGUF量化模型,降低批处理大小与上下文长度,开启量化与内存优化参数;多GPU环境可开启张量并行与专家并行,分散显存占用。

推理速度未达到官方标称值,如何优化?

使用最新版本的vLLM/SGLang,开启MTP-3相关参数,配置合适的并行数与批处理大小;服务器环境关闭不必要的后台进程,充分利用GPU算力。

模型输出出现逻辑错误或不连贯,如何调整?

可调整生成温度(temperature)参数,降低随机性;使用官方推荐的系统提示词,明确任务要求;长任务可拆分多轮对话,避免单轮输入过长。

哪些芯片厂商已完成模型适配,国产硬件是否支持?

华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥等厂商已完成适配,国产硬件可通过厂商优化驱动与部署脚本实现高效推理。

七、相关链接

  1. GitHub开源仓库:https://github.com/stepfun-ai/Step-3.5-Flash

  2. Hugging Face模型权重:https://huggingface.co/stepfun-ai/Step-3.5-Flash

  3. ModelScope模型权重:https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

  4. 阶跃星辰官方平台:https://platform.stepfun.ai

  5. llama.cpp定制版本:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main/llama.cpp

八、总结

Step 3.5 Flash是阶跃星辰打造的面向智能体场景的高性能开源基座大模型,以稀疏MoE架构、MTP-3多Token预测、3:1滑动窗口混合注意力为核心技术支撑,实现了196B总参数模型的能力与11B激活参数的效率平衡,在智能体任务、数学推理、代码开发、长文本处理等核心场景的基准测试中超越主流开源模型,部分指标对标顶级闭源产品,同时提供云端API、多框架本地部署两种使用方式,适配多样化硬件与技术栈,采用Apache-2.0协议开放使用,兼顾性能、效率、易用性与商业化合规性,既可以满足个人用户快速体验与学习需求,也能支撑企业私有化部署、智能体系统开发、代码工程、长文本处理等落地场景,是当前开源生态中面向Agent与复杂推理任务的优质底层模型选择。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法