Step‑3.7‑Flash:阶跃星辰开源的原生多模态高速Agent大模型
一、Step‑3.7‑Flash是什么
Step‑3.7‑Flash是上海阶跃星辰(StepFun)开源的新一代生产级Agent专用多模态大模型,属于StepFun Flash系列的迭代升级版本,核心定位是平衡速度、成本、可靠执行与复杂任务处理能力,适配企业高频、多轮的Agent规模化部署场景。
该模型采用稀疏MoE(混合专家)架构,总参数达198B(含196B语言主干+1.8B ViT视觉编码器),推理时仅激活约11B参数,兼顾大模型能力与小模型推理效率;最高生成速度达400 Tokens/s,支持256K超长上下文,提供低、中、高三档推理级别,可灵活平衡响应速度、成本与推理深度。

二、功能特色
1. 原生多模态理解与执行
原生支持图像、视频、文本混合输入,可直接解析UI界面、图表、文档、图片及各类应用界面。
能将复杂视觉信息转化为结构化数据、可执行代码或任务指令,无需额外适配模块。
在SimpleVQA(Search)基准测试中得分79.2,V*(Python)基准达95.3,视觉理解能力达到前沿水平。
2. 联网与视觉搜索增强
强化全网检索+视觉搜索双能力,可跨文本、图像主动获取多源信息并交叉验证。
支持长尾实体、新兴概念识别,解决传统模型搜索范围窄、信息滞后的问题。
长程任务中可自动发起多轮搜索,确保信息准确性,降低决策偏差。
3. 高可靠工具调用与编排
针对生产级Agent优化工具调用稳定性,可长程多轮稳定调用API、浏览器、终端、Office工具等。
内置任务轨迹一致性机制,减少工具调用跑偏、执行失败风险,适合复杂工作流。
支持批量工具编排,可并行执行多任务,显著提升高频场景效率。
4. 全生态兼容适配
兼容主流Agent框架:Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw等。
支持MCP、Skills等工具调用协议,云端/本地部署均可快速接入,降低开发成本。
适配SGLang、NVIDIA NIM等推理框架,提供BF16、FP8、NVFP4多种量化格式,适配不同硬件环境。
5. 极致性能与成本优势
生成速度400 Tokens/s,是Gemini 3.5 Flash(200 Tokens/s)的2倍,远超多数主流模型(100 Tokens/s以下)。
激活参数仅11B,推理成本接近11B小模型,在SWE‑Bench上以1/9成本达到Claude Opus 4.6 97%的编码性能。
256K上下文窗口,可处理超长文档、代码库、多轮对话历史,满足企业级长文本需求。
三、技术细节
1. 核心架构
稀疏MoE架构:总参数198B,包含288个专家层,每次推理仅激活8个专家(约11B参数),通过“按需激活”平衡能力与效率。
多模态融合设计:1.8B ViT视觉编码器与196B语言主干深度集成,图像特征直接映射至语言空间,无需中间转换层。
三级推理机制:
低级:速度最优(≈400 Tokens/s),适合简单任务、高频调用;
中级:平衡速度与能力(≈250 Tokens/s),通用场景首选;
高级:推理深度最强(≈150 Tokens/s),适合复杂推理、高精度任务。
2. 关键参数与性能指标
| 维度 | 核心参数 |
|---|---|
| 总参数 | 198B(196B语言+1.8B ViT) |
| 激活参数 | 11B |
| 上下文长度 | 256K |
| 生成速度 | 最高400 Tokens/s |
| 专家数量 | 288(每次激活8个) |
| 量化格式 | BF16、FP8、NVFP4 |
| 视觉基准 | SimpleVQA(Search)79.2;V*(Python)95.3 |
3. 推理优化技术
NVFP4量化:NVIDIA专属4位量化,显存占用降低75%,推理速度提升30%,适配NVIDIA GPU集群。
动态专家调度:根据输入内容自动选择最优专家组合,减少无效计算,提升吞吐量。
KV缓存优化:采用FP8精度存储KV缓存,降低显存占用,支持更长上下文并发推理。
4. 训练与数据
基于StepFun自研Steptron训练框架,延续Step 3.5 Flash的全链路开源策略(权重+框架)。
训练数据覆盖多模态网页、文档、代码、工具调用轨迹,重点强化Agent场景的工具交互、长程推理能力。
四、应用场景
1. 企业级Agent工作流
自动化办公Agent:解析Excel、Word、PPT等文档,自动生成报告、数据分析、格式排版。
客服Agent:多轮对话理解用户需求,调用知识库、订单系统、物流接口,自动解决售后问题。
数据分析师Agent:解析图表、财报、行业报告,自动生成可视化分析与结论,支持多源数据交叉验证。
2. 高频编码与开发
全栈开发Agent:理解UI设计图、需求文档,自动生成前后端代码、接口文档、测试用例。
代码审查Agent:批量解析代码库,检测漏洞、优化性能、规范代码风格,适配大规模团队开发。
脚本自动化Agent:生成Shell、Python脚本,自动化服务器运维、数据备份、日志分析等任务。
3. 多模态内容生成与处理
营销内容Agent:根据产品图片、品牌调性,自动生成文案、海报设计、短视频脚本。
教育内容Agent:解析教材图片、课件,生成教案、习题、知识点总结,适配个性化教学。
媒体内容Agent:处理新闻图片、视频帧,自动生成新闻稿、视频字幕、内容摘要。
4. 金融与政务场景
金融风控Agent:解析财报、交易流水、用户画像,自动生成风控报告、风险预警。
政务办理Agent:理解办事指南、表单图片,自动填写资料、提交申请、查询进度。

五、使用方法
1. 环境准备
硬件要求:推荐NVIDIA A100/H100 GPU(≥80GB显存);最低RTX 4090(24GB显存,需NVFP4量化)。
软件依赖:Python 3.10+、PyTorch 2.2+、SGLang、Transformers、NVIDIA TensorRT‑LLM。
2. 快速部署(SGLang+Docker)
# 1. 拉取镜像 docker pull lmsysorg/sglang:dev-pr-18084 # 2. 启动容器 docker run -it --gpus all \ --shm-size=32g \ --ipc=host \ --network=host \ lmsysorg/sglang:dev-pr-18084 bash # 3. 启动模型服务(NVFP4量化) python -m sglang.launch_server \ --model stepfun-ai/Step-3.7-Flash-NVFP4 \ --quantization modelopt_fp4 \ --kv-cache-dtype fp8_e4m3 \ --moe-runner-backend flashinfer_trtllm \ --host 0.0.0.0 --port 8000
3. API调用示例
from openai import OpenAI
client=OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
# 多模态调用(图片+文本)
response=client.chat.completions.create(
model="step-3.7-flash",
messages=[
{"role": "user", "content": [
{"type": "text", "text": "分析这张图表的趋势并生成结论"},
{"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
]}
],
reasoning_level="medium" # 可选low/medium/high
)
print(response.choices[0].message.content)4. 本地部署(Hugging Face)
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_name="stepfun-ai/Step-3.7-Flash"
tokenizer=AutoTokenizer.from_pretrained(model_name)
model=AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
load_in_4bit=True # 启用4位量化,降低显存占用
)
# 文本生成示例
inputs=tokenizer("写一个Python函数,实现快速排序", return_tensors="pt").to("cuda")
outputs=model.generate(**inputs, max_length=512, reasoning_level="high")
print(tokenizer.decode(outputs[0], skip_special_tokens=True))六、竞品对比
选取Gemini 3.5 Flash、DeepSeek V4 Flash、Step‑3.7‑Flash三款主流高速模型对比,核心差异如下:
| 对比维度 | Step‑3.7‑Flash | Gemini 3.5 Flash | DeepSeek V4 Flash |
|---|---|---|---|
| 模型架构 | 稀疏MoE(198B总/11B激活) | 稀疏MoE(未知) | 密集(未知) |
| 生成速度 | 400 Tokens/s | 200 Tokens/s | 120 Tokens/s |
| 上下文长度 | 256K | 1M | 128K |
| 多模态能力 | 原生多模态(图像+视频) | 原生多模态 | 仅文本(需额外适配) |
| 工具调用稳定性 | 长程稳定,低跑偏率 | 中等,复杂任务易出错 | 较弱,多轮调用易崩溃 |
| 推理成本 | 低(11B激活) | 中 | 高(密集大模型) |
| 开源状态 | 完全开源(权重+框架) | 闭源(仅API) | 开源(部分权重) |
| 生态兼容性 | 全Agent框架适配 | 仅Google生态 | 适配主流框架,兼容性一般 |
核心优势总结
对比Gemini 3.5 Flash:速度翻倍、完全开源、工具调用更稳定,但上下文长度较短(256K vs 1M)。
对比DeepSeek V4 Flash:原生多模态、速度3倍、成本更低、Agent生态更完善,编码性能接近但成本仅1/9。
七、常见问题解答
Q:Step‑3.7‑Flash支持哪些硬件部署?
A:优先支持NVIDIA GPU(A100/H100/RTX 4090等),适配SGLang、TensorRT‑LLM等推理框架;通过NVFP4量化可在消费级GPU(24GB显存)部署,BF16/FP8格式需数据中心级GPU(≥80GB显存)。
Q:模型开源包含哪些内容?是否可商用?
A:开源内容包括预训练权重、微调权重、Steptron训练框架、推理代码,完全免费开源,支持商用部署,无版权限制。
Q:256K上下文是否足够企业级长文本需求?
A:256K可覆盖95%以上企业场景(如万字文档、完整代码库、千轮对话);超长场景(≥1M)可选择Gemini 3.5 Flash,但需接受闭源、高成本的限制。
Q:如何平衡速度与推理精度?
A:通过三级推理级别灵活调整:简单高频任务选“low”(400 Tokens/s),通用场景选“medium”(平衡),复杂推理选“high”(精度最优)。
Q:模型在中文场景表现如何?
A:针对中文Agent场景优化,中文理解、生成、工具调用能力优于多数海外模型,适配中文办公、客服、政务等场景,支持中文多模态输入(如中文图表、文档)。
Q:是否支持本地私有化部署?
A:完全支持,提供离线权重+本地推理代码,无需联网即可部署,满足企业数据安全合规需求,适配内网、私有云环境。
八、相关链接
Hugging Face权重(NVFP4量化):https://huggingface.co/stepfun-ai/Step-3.7-Flash-NVFP4
SGLang部署文档:https://docs.sglang.io/cookbook/autoregressive/StepFun/Step-3.7-Flash
九、总结
Step‑3.7‑Flash是阶跃星辰面向生产级Agent场景打造的高速多模态MoE大模型,凭借198B总参数、11B激活参数的稀疏架构,实现400 Tokens/s的极致生成速度与256K超长上下文,原生支持多模态理解、增强搜索、可靠工具调用,兼容主流Agent框架并完全开源。模型在速度、成本、稳定性上取得平衡,适配企业自动化办公、编码开发、多模态内容生成、金融政务等高频场景,为Agent规模化落地提供高效、低成本的基础模型支撑,是国产大模型在生产级Agent领域的重要突破。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/step-3-7-flash.html

