Step‑3.7‑Flash：阶跃星辰开源的原生多模态高速Agent大模型

AI新闻 AI工具箱 1个月前

213

一、Step‑3.7‑Flash是什么

Step‑3.7‑Flash是上海阶跃星辰（StepFun）开源的新一代生产级Agent专用多模态大模型，属于StepFun Flash系列的迭代升级版本，核心定位是平衡速度、成本、可靠执行与复杂任务处理能力，适配企业高频、多轮的Agent规模化部署场景。

该模型采用稀疏MoE（混合专家）架构，总参数达198B（含196B语言主干+1.8B ViT视觉编码器），推理时仅激活约11B参数，兼顾大模型能力与小模型推理效率；最高生成速度达400 Tokens/s，支持256K超长上下文，提供低、中、高三档推理级别，可灵活平衡响应速度、成本与推理深度。

Step‑3.7‑Flash：阶跃星辰开源的原生多模态高速Agent大模型

二、功能特色

1. 原生多模态理解与执行

原生支持图像、视频、文本混合输入，可直接解析UI界面、图表、文档、图片及各类应用界面。
能将复杂视觉信息转化为结构化数据、可执行代码或任务指令，无需额外适配模块。
在SimpleVQA（Search）基准测试中得分79.2，V*（Python）基准达95.3，视觉理解能力达到前沿水平。

2. 联网与视觉搜索增强

强化全网检索+视觉搜索双能力，可跨文本、图像主动获取多源信息并交叉验证。
支持长尾实体、新兴概念识别，解决传统模型搜索范围窄、信息滞后的问题。
长程任务中可自动发起多轮搜索，确保信息准确性，降低决策偏差。

3. 高可靠工具调用与编排

针对生产级Agent优化工具调用稳定性，可长程多轮稳定调用API、浏览器、终端、Office工具等。
内置任务轨迹一致性机制，减少工具调用跑偏、执行失败风险，适合复杂工作流。
支持批量工具编排，可并行执行多任务，显著提升高频场景效率。

4. 全生态兼容适配

兼容主流Agent框架：Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw等。
支持MCP、Skills等工具调用协议，云端/本地部署均可快速接入，降低开发成本。
适配SGLang、NVIDIA NIM等推理框架，提供BF16、FP8、NVFP4多种量化格式，适配不同硬件环境。

5. 极致性能与成本优势

生成速度400 Tokens/s，是Gemini 3.5 Flash（200 Tokens/s）的2倍，远超多数主流模型（100 Tokens/s以下）。
激活参数仅11B，推理成本接近11B小模型，在SWE‑Bench上以1/9成本达到Claude Opus 4.6 97%的编码性能。
256K上下文窗口，可处理超长文档、代码库、多轮对话历史，满足企业级长文本需求。

三、技术细节

1. 核心架构

稀疏MoE架构：总参数198B，包含288个专家层，每次推理仅激活8个专家（约11B参数），通过“按需激活”平衡能力与效率。
多模态融合设计：1.8B ViT视觉编码器与196B语言主干深度集成，图像特征直接映射至语言空间，无需中间转换层。
三级推理机制：

低级：速度最优（≈400 Tokens/s），适合简单任务、高频调用；
中级：平衡速度与能力（≈250 Tokens/s），通用场景首选；
高级：推理深度最强（≈150 Tokens/s），适合复杂推理、高精度任务。

2. 关键参数与性能指标

维度	核心参数
总参数	198B（196B语言+1.8B ViT）
激活参数	11B
上下文长度	256K
生成速度	最高400 Tokens/s
专家数量	288（每次激活8个）
量化格式	BF16、FP8、NVFP4
视觉基准	SimpleVQA（Search）79.2；V*（Python）95.3

3. 推理优化技术

NVFP4量化：NVIDIA专属4位量化，显存占用降低75%，推理速度提升30%，适配NVIDIA GPU集群。
动态专家调度：根据输入内容自动选择最优专家组合，减少无效计算，提升吞吐量。
KV缓存优化：采用FP8精度存储KV缓存，降低显存占用，支持更长上下文并发推理。

4. 训练与数据

基于StepFun自研Steptron训练框架，延续Step 3.5 Flash的全链路开源策略（权重+框架）。
训练数据覆盖多模态网页、文档、代码、工具调用轨迹，重点强化Agent场景的工具交互、长程推理能力。

四、应用场景

1. 企业级Agent工作流

自动化办公Agent：解析Excel、Word、PPT等文档，自动生成报告、数据分析、格式排版。
客服Agent：多轮对话理解用户需求，调用知识库、订单系统、物流接口，自动解决售后问题。
数据分析师Agent：解析图表、财报、行业报告，自动生成可视化分析与结论，支持多源数据交叉验证。

2. 高频编码与开发

全栈开发Agent：理解UI设计图、需求文档，自动生成前后端代码、接口文档、测试用例。
代码审查Agent：批量解析代码库，检测漏洞、优化性能、规范代码风格，适配大规模团队开发。
脚本自动化Agent：生成Shell、Python脚本，自动化服务器运维、数据备份、日志分析等任务。

3. 多模态内容生成与处理

营销内容Agent：根据产品图片、品牌调性，自动生成文案、海报设计、短视频脚本。
教育内容Agent：解析教材图片、课件，生成教案、习题、知识点总结，适配个性化教学。
媒体内容Agent：处理新闻图片、视频帧，自动生成新闻稿、视频字幕、内容摘要。

4. 金融与政务场景

金融风控Agent：解析财报、交易流水、用户画像，自动生成风控报告、风险预警。
政务办理Agent：理解办事指南、表单图片，自动填写资料、提交申请、查询进度。

Step‑3.7‑Flash：阶跃星辰开源的原生多模态高速Agent大模型

五、使用方法

1. 环境准备

硬件要求：推荐NVIDIA A100/H100 GPU（≥80GB显存）；最低RTX 4090（24GB显存，需NVFP4量化）。
软件依赖：Python 3.10+、PyTorch 2.2+、SGLang、Transformers、NVIDIA TensorRT‑LLM。

2. 快速部署（SGLang+Docker）

# 1. 拉取镜像
docker pull lmsysorg/sglang:dev-pr-18084

# 2. 启动容器
docker run -it --gpus all \
 --shm-size=32g \
 --ipc=host \
 --network=host \
 lmsysorg/sglang:dev-pr-18084 bash

# 3. 启动模型服务（NVFP4量化）
python -m sglang.launch_server \
 --model stepfun-ai/Step-3.7-Flash-NVFP4 \
 --quantization modelopt_fp4 \
 --kv-cache-dtype fp8_e4m3 \
 --moe-runner-backend flashinfer_trtllm \
 --host 0.0.0.0 --port 8000

3. API调用示例

from openai import OpenAI

client=OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

# 多模态调用（图片+文本）
response=client.chat.completions.create(
  model="step-3.7-flash",
  messages=[
    {"role": "user", "content": [
      {"type": "text", "text": "分析这张图表的趋势并生成结论"},
      {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
    ]}
  ],
  reasoning_level="medium" # 可选low/medium/high
)
print(response.choices[0].message.content)

4. 本地部署（Hugging Face）

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name="stepfun-ai/Step-3.7-Flash"
tokenizer=AutoTokenizer.from_pretrained(model_name)
model=AutoModelForCausalLM.from_pretrained(
  model_name,
  torch_dtype=torch.bfloat16,
  device_map="auto",
  load_in_4bit=True # 启用4位量化，降低显存占用
)

# 文本生成示例
inputs=tokenizer("写一个Python函数，实现快速排序", return_tensors="pt").to("cuda")
outputs=model.generate(**inputs, max_length=512, reasoning_level="high")
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

六、竞品对比

选取Gemini 3.5 Flash、DeepSeek V4 Flash、Step‑3.7‑Flash三款主流高速模型对比，核心差异如下：

对比维度	Step‑3.7‑Flash	Gemini 3.5 Flash	DeepSeek V4 Flash
模型架构	稀疏MoE（198B总/11B激活）	稀疏MoE（未知）	密集（未知）
生成速度	400 Tokens/s	200 Tokens/s	120 Tokens/s
上下文长度	256K	1M	128K
多模态能力	原生多模态（图像+视频）	原生多模态	仅文本（需额外适配）
工具调用稳定性	长程稳定，低跑偏率	中等，复杂任务易出错	较弱，多轮调用易崩溃
推理成本	低（11B激活）	中	高（密集大模型）
开源状态	完全开源（权重+框架）	闭源（仅API）	开源（部分权重）
生态兼容性	全Agent框架适配	仅Google生态	适配主流框架，兼容性一般

核心优势总结

对比Gemini 3.5 Flash：速度翻倍、完全开源、工具调用更稳定，但上下文长度较短（256K vs 1M）。
对比DeepSeek V4 Flash：原生多模态、速度3倍、成本更低、Agent生态更完善，编码性能接近但成本仅1/9。

七、常见问题解答

Q：Step‑3.7‑Flash支持哪些硬件部署？

A：优先支持NVIDIA GPU（A100/H100/RTX 4090等），适配SGLang、TensorRT‑LLM等推理框架；通过NVFP4量化可在消费级GPU（24GB显存）部署，BF16/FP8格式需数据中心级GPU（≥80GB显存）。

Q：模型开源包含哪些内容？是否可商用？

A：开源内容包括预训练权重、微调权重、Steptron训练框架、推理代码，完全免费开源，支持商用部署，无版权限制。

Q：256K上下文是否足够企业级长文本需求？

A：256K可覆盖95%以上企业场景（如万字文档、完整代码库、千轮对话）；超长场景（≥1M）可选择Gemini 3.5 Flash，但需接受闭源、高成本的限制。

Q：如何平衡速度与推理精度？

A：通过三级推理级别灵活调整：简单高频任务选“low”（400 Tokens/s），通用场景选“medium”（平衡），复杂推理选“high”（精度最优）。

Q：模型在中文场景表现如何？

A：针对中文Agent场景优化，中文理解、生成、工具调用能力优于多数海外模型，适配中文办公、客服、政务等场景，支持中文多模态输入（如中文图表、文档）。

Q：是否支持本地私有化部署？

A：完全支持，提供离线权重+本地推理代码，无需联网即可部署，满足企业数据安全合规需求，适配内网、私有云环境。

八、相关链接

官方博客（模型详情）：https://static.stepfun.com/blog/step-3.7-flash/
GitHub仓库：https://github.com/stepfun-ai/Step-3.7-Flash
Hugging Face权重（NVFP4量化）：https://huggingface.co/stepfun-ai/Step-3.7-Flash-NVFP4
NVIDIA部署指南：https://developer.nvidia.com/blog/run-step-3-7-flash-on-nvidia-gpus-with-enterprise-ready-multimodal-ai/
SGLang部署文档：https://docs.sglang.io/cookbook/autoregressive/StepFun/Step-3.7-Flash

九、总结

Step‑3.7‑Flash是阶跃星辰面向生产级Agent场景打造的高速多模态MoE大模型，凭借198B总参数、11B激活参数的稀疏架构，实现400 Tokens/s的极致生成速度与256K超长上下文，原生支持多模态理解、增强搜索、可靠工具调用，兼容主流Agent框架并完全开源。模型在速度、成本、稳定性上取得平衡，适配企业自动化办公、编码开发、多模态内容生成、金融政务等高频场景，为Agent规模化落地提供高效、低成本的基础模型支撑，是国产大模型在生产级Agent领域的重要突破。

多模态大模型开源大模型

打赏

版权及免责申明：本文由@AI工具箱原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/step-3-7-flash.html

THE END

AI工具箱

一个喜欢收集AI工具的小萌新

+ 关注

Step‑3.7‑Flash：阶跃星辰开源的原生多模态高速Agent大模型

文章目录

一、Step‑3.7‑Flash是什么

二、功能特色

1. 原生多模态理解与执行

2. 联网与视觉搜索增强

3. 高可靠工具调用与编排

4. 全生态兼容适配

5. 极致性能与成本优势

三、技术细节

1. 核心架构

2. 关键参数与性能指标

3. 推理优化技术

4. 训练与数据

四、应用场景

1. 企业级Agent工作流

2. 高频编码与开发

3. 多模态内容生成与处理

4. 金融与政务场景

五、使用方法

1. 环境准备

2. 快速部署（SGLang+Docker）

3. API调用示例

4. 本地部署（Hugging Face）

六、竞品对比

核心优势总结

七、常见问题解答

八、相关链接

九、总结

相关文章