Step‑3.7‑Flash:阶跃星辰开源的原生多模态高速Agent大模型

原创 发布日期:
62

一、Step‑3.7‑Flash是什么

Step‑3.7‑Flash是上海阶跃星辰(StepFun)开源的新一代生产级Agent专用多模态大模型,属于StepFun Flash系列的迭代升级版本,核心定位是平衡速度、成本、可靠执行与复杂任务处理能力,适配企业高频、多轮的Agent规模化部署场景。

该模型采用稀疏MoE(混合专家)架构,总参数达198B(含196B语言主干+1.8B ViT视觉编码器),推理时仅激活约11B参数,兼顾大模型能力与小模型推理效率;最高生成速度达400 Tokens/s,支持256K超长上下文,提供低、中、高三档推理级别,可灵活平衡响应速度、成本与推理深度。

Step‑3.7‑Flash:阶跃星辰开源的原生多模态高速Agent大模型

二、功能特色

1. 原生多模态理解与执行

  • 原生支持图像、视频、文本混合输入,可直接解析UI界面、图表、文档、图片及各类应用界面。

  • 能将复杂视觉信息转化为结构化数据、可执行代码或任务指令,无需额外适配模块。

  • 在SimpleVQA(Search)基准测试中得分79.2,V*(Python)基准达95.3,视觉理解能力达到前沿水平。

2. 联网与视觉搜索增强

  • 强化全网检索+视觉搜索双能力,可跨文本、图像主动获取多源信息并交叉验证。

  • 支持长尾实体、新兴概念识别,解决传统模型搜索范围窄、信息滞后的问题。

  • 长程任务中可自动发起多轮搜索,确保信息准确性,降低决策偏差。

3. 高可靠工具调用与编排

  • 针对生产级Agent优化工具调用稳定性,可长程多轮稳定调用API、浏览器、终端、Office工具等。

  • 内置任务轨迹一致性机制,减少工具调用跑偏、执行失败风险,适合复杂工作流。

  • 支持批量工具编排,可并行执行多任务,显著提升高频场景效率。

4. 全生态兼容适配

  • 兼容主流Agent框架:Claude Code、KiloCode、RooCode、OpenCode、Hermes Agent、OpenClaw等。

  • 支持MCP、Skills等工具调用协议,云端/本地部署均可快速接入,降低开发成本。

  • 适配SGLang、NVIDIA NIM等推理框架,提供BF16、FP8、NVFP4多种量化格式,适配不同硬件环境。

5. 极致性能与成本优势

  • 生成速度400 Tokens/s,是Gemini 3.5 Flash(200 Tokens/s)的2倍,远超多数主流模型(100 Tokens/s以下)。

  • 激活参数仅11B,推理成本接近11B小模型,在SWE‑Bench上以1/9成本达到Claude Opus 4.6 97%的编码性能。

  • 256K上下文窗口,可处理超长文档、代码库、多轮对话历史,满足企业级长文本需求。

三、技术细节

1. 核心架构

  • 稀疏MoE架构:总参数198B,包含288个专家层,每次推理仅激活8个专家(约11B参数),通过“按需激活”平衡能力与效率。

  • 多模态融合设计:1.8B ViT视觉编码器与196B语言主干深度集成,图像特征直接映射至语言空间,无需中间转换层。

  • 三级推理机制

    • 低级:速度最优(≈400 Tokens/s),适合简单任务、高频调用;

    • 中级:平衡速度与能力(≈250 Tokens/s),通用场景首选;

    • 高级:推理深度最强(≈150 Tokens/s),适合复杂推理、高精度任务。

2. 关键参数与性能指标

维度 核心参数
总参数 198B(196B语言+1.8B ViT)
激活参数 11B
上下文长度 256K
生成速度 最高400 Tokens/s
专家数量 288(每次激活8个)
量化格式 BF16、FP8、NVFP4
视觉基准 SimpleVQA(Search)79.2;V*(Python)95.3

3. 推理优化技术

  • NVFP4量化:NVIDIA专属4位量化,显存占用降低75%,推理速度提升30%,适配NVIDIA GPU集群。

  • 动态专家调度:根据输入内容自动选择最优专家组合,减少无效计算,提升吞吐量。

  • KV缓存优化:采用FP8精度存储KV缓存,降低显存占用,支持更长上下文并发推理。

4. 训练与数据

  • 基于StepFun自研Steptron训练框架,延续Step 3.5 Flash的全链路开源策略(权重+框架)。

  • 训练数据覆盖多模态网页、文档、代码、工具调用轨迹,重点强化Agent场景的工具交互、长程推理能力。

四、应用场景

1. 企业级Agent工作流

  • 自动化办公Agent:解析Excel、Word、PPT等文档,自动生成报告、数据分析、格式排版。

  • 客服Agent:多轮对话理解用户需求,调用知识库、订单系统、物流接口,自动解决售后问题。

  • 数据分析师Agent:解析图表、财报、行业报告,自动生成可视化分析与结论,支持多源数据交叉验证。

2. 高频编码与开发

  • 全栈开发Agent:理解UI设计图、需求文档,自动生成前后端代码、接口文档、测试用例。

  • 代码审查Agent:批量解析代码库,检测漏洞、优化性能、规范代码风格,适配大规模团队开发。

  • 脚本自动化Agent:生成Shell、Python脚本,自动化服务器运维、数据备份、日志分析等任务。

3. 多模态内容生成与处理

  • 营销内容Agent:根据产品图片、品牌调性,自动生成文案、海报设计、短视频脚本。

  • 教育内容Agent:解析教材图片、课件,生成教案、习题、知识点总结,适配个性化教学。

  • 媒体内容Agent:处理新闻图片、视频帧,自动生成新闻稿、视频字幕、内容摘要。

4. 金融与政务场景

  • 金融风控Agent:解析财报、交易流水、用户画像,自动生成风控报告、风险预警。

  • 政务办理Agent:理解办事指南、表单图片,自动填写资料、提交申请、查询进度。

Step‑3.7‑Flash:阶跃星辰开源的原生多模态高速Agent大模型

五、使用方法

1. 环境准备

  • 硬件要求:推荐NVIDIA A100/H100 GPU(≥80GB显存);最低RTX 4090(24GB显存,需NVFP4量化)。

  • 软件依赖:Python 3.10+、PyTorch 2.2+、SGLang、Transformers、NVIDIA TensorRT‑LLM。

2. 快速部署(SGLang+Docker)

# 1. 拉取镜像
docker pull lmsysorg/sglang:dev-pr-18084

# 2. 启动容器
docker run -it --gpus all \
 --shm-size=32g \
 --ipc=host \
 --network=host \
 lmsysorg/sglang:dev-pr-18084 bash

# 3. 启动模型服务(NVFP4量化)
python -m sglang.launch_server \
 --model stepfun-ai/Step-3.7-Flash-NVFP4 \
 --quantization modelopt_fp4 \
 --kv-cache-dtype fp8_e4m3 \
 --moe-runner-backend flashinfer_trtllm \
 --host 0.0.0.0 --port 8000

3. API调用示例

from openai import OpenAI

client=OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

# 多模态调用(图片+文本)
response=client.chat.completions.create(
  model="step-3.7-flash",
  messages=[
    {"role": "user", "content": [
      {"type": "text", "text": "分析这张图表的趋势并生成结论"},
      {"type": "image_url", "image_url": {"url": "https://example.com/chart.png"}}
    ]}
  ],
  reasoning_level="medium" # 可选low/medium/high
)
print(response.choices[0].message.content)

4. 本地部署(Hugging Face)

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_name="stepfun-ai/Step-3.7-Flash"
tokenizer=AutoTokenizer.from_pretrained(model_name)
model=AutoModelForCausalLM.from_pretrained(
  model_name,
  torch_dtype=torch.bfloat16,
  device_map="auto",
  load_in_4bit=True # 启用4位量化,降低显存占用
)

# 文本生成示例
inputs=tokenizer("写一个Python函数,实现快速排序", return_tensors="pt").to("cuda")
outputs=model.generate(**inputs, max_length=512, reasoning_level="high")
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

六、竞品对比

选取Gemini 3.5 Flash、DeepSeek V4 Flash、Step‑3.7‑Flash三款主流高速模型对比,核心差异如下:

对比维度 Step‑3.7‑Flash Gemini 3.5 Flash DeepSeek V4 Flash
模型架构 稀疏MoE(198B总/11B激活) 稀疏MoE(未知) 密集(未知)
生成速度400 Tokens/s 200 Tokens/s 120 Tokens/s
上下文长度 256K1M 128K
多模态能力 原生多模态(图像+视频) 原生多模态 仅文本(需额外适配)
工具调用稳定性 长程稳定,低跑偏率 中等,复杂任务易出错 较弱,多轮调用易崩溃
推理成本 低(11B激活) 高(密集大模型)
开源状态完全开源(权重+框架) 闭源(仅API) 开源(部分权重)
生态兼容性 全Agent框架适配 仅Google生态 适配主流框架,兼容性一般

核心优势总结

  • 对比Gemini 3.5 Flash:速度翻倍、完全开源、工具调用更稳定,但上下文长度较短(256K vs 1M)。

  • 对比DeepSeek V4 Flash:原生多模态、速度3倍、成本更低、Agent生态更完善,编码性能接近但成本仅1/9。

七、常见问题解答

Q:Step‑3.7‑Flash支持哪些硬件部署?

A:优先支持NVIDIA GPU(A100/H100/RTX 4090等),适配SGLang、TensorRT‑LLM等推理框架;通过NVFP4量化可在消费级GPU(24GB显存)部署,BF16/FP8格式需数据中心级GPU(≥80GB显存)。

Q:模型开源包含哪些内容?是否可商用?

A:开源内容包括预训练权重、微调权重、Steptron训练框架、推理代码,完全免费开源,支持商用部署,无版权限制。

Q:256K上下文是否足够企业级长文本需求?

A:256K可覆盖95%以上企业场景(如万字文档、完整代码库、千轮对话);超长场景(≥1M)可选择Gemini 3.5 Flash,但需接受闭源、高成本的限制。

Q:如何平衡速度与推理精度?

A:通过三级推理级别灵活调整:简单高频任务选“low”(400 Tokens/s),通用场景选“medium”(平衡),复杂推理选“high”(精度最优)。

Q:模型在中文场景表现如何?

A:针对中文Agent场景优化,中文理解、生成、工具调用能力优于多数海外模型,适配中文办公、客服、政务等场景,支持中文多模态输入(如中文图表、文档)。

Q:是否支持本地私有化部署?

A:完全支持,提供离线权重+本地推理代码,无需联网即可部署,满足企业数据安全合规需求,适配内网、私有云环境。

八、相关链接

九、总结

Step‑3.7‑Flash是阶跃星辰面向生产级Agent场景打造的高速多模态MoE大模型,凭借198B总参数、11B激活参数的稀疏架构,实现400 Tokens/s的极致生成速度与256K超长上下文,原生支持多模态理解、增强搜索、可靠工具调用,兼容主流Agent框架并完全开源。模型在速度、成本、稳定性上取得平衡,适配企业自动化办公、编码开发、多模态内容生成、金融政务等高频场景,为Agent规模化落地提供高效、低成本的基础模型支撑,是国产大模型在生产级Agent领域的重要突破。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新