阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

9652点击 2026-06-05 09:55

OpenRouter Trending榜单冷不丁窜出一匹国产黑马，热度暴涨稳居全球第二。

定睛一看，原来是阶跃星辰新发的Step 3.7 Flash。

再一看，不只OpenRouter，这个新模型在AA榜那边也顺手拿了几个第一；

在HuggingFace上开源之后的下载量和讨论也一直没降过温。

这我是真好奇，这新模型到底火在哪了。

于是咱去感受了一波，手把手教我用Blender这种专业3D软件就算了；

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

它居然还直接带我开飞机，没错，是真的大飞机！！

仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

当然了，教我开飞机只是节目效果，重点是Step 3.7 Flash自己也起飞了——

Token意义上的速度起飞，输出速度最高416 tokens/s。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

不光快吧，人家还省钱，单任务成本压到了Claude Opus 4.6的约1/9，但编程能力却做到了Claude的97%。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

只能说，停停停各位先别跑分了，咋感觉Step 3.7 Flash这次换成效率打法了呢。

模型竞赛的赛点，从单次最强挪到了效率优先

其实前两年大模型圈子的画风还比较简单。

大家比的是啥？比谁聪明。

各家埋头刷Benchmark，成绩多拿一两分就能小火一把，当时比拼的核心是模型单次问答能力的上限。

但今年风向变了。

相信大家也都发现，OpenAI、Anthropic、Cursor嘴里念叨的关键词换成了企业级Agent、工具调用、任务交付……随着Agent成为主流落地形态，原先只拼单点性能的老一套竞赛规则不适用了。

在进入真实业务的Agent工作链路后，AI要反复调用工具、多轮检索信息、分步拆解复杂任务。

问题就出在这儿。

一次回答慢两秒，你能忍，但Agent一个任务要调几十次模型，每次都慢两秒，谁的火气都大。

调一次贵一点没感觉，调几十几百次之后，账单突然就开始在你血压上蹦迪了。

这种高频交互带来的调用量暴涨，推理延迟、Token消耗成倍飙升，不光是咱日常用着闹心，开发者和企业的钱包更是遭不住啊。

业内近一年的Agent研究也开始专门引入「预算约束」「成本最优规划」等评价维度，本质上就是因为推理成本已经成为Agent落地的核心瓶颈。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

所以现在用AI，真卡住生产的、也急需优化的就是Token效率，具体体现在推理速度和调用成本两个维度。

阶跃星辰这次，好像真找到了Agent时代的版本答案：

同样的活儿，Step 3.7 Flash能更快、更便宜地干完。

咱索性就直接上手试一试！

实测Step 3.7 Flash：又快又省钱

多模态理解能力

先来看看它看图办事的能力怎么样。

上传了一张灵巧手图片，它能结合外观细节快速确认，还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

既然产品确认了，那咱再来看看参数，直接让模型自己去搜，最后给我一张产品表格。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

于是Step 3.7 Flash联网搜索了这款灵巧手全维度参数，把厂商信息、硬件配置、负载、售价等内容全给整理了出来。

只不过表格太长，我只截取了结构和感知的一部分。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

在这个任务里，模型分析的内容基本达标，体验下来感觉响应速度确实很快。

工具编排能力

接下来，我们给Step 3.7 Flash一条龙杂活，考考它的工具编排能力，主要看它是否能在长程多轮里稳定调用工具、不跑偏。

比如说，整理报销单。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

想必大家都觉得，搞发票是一件很麻烦的事情。

出差一趟，总会积压四五张发票，要一张张核对金额，还要整理好并填写相应的报销规范。

于是，我把发票全部放在了一个文件夹里，然后把它丢给了Step 3.7 Flash（此处接入了OpenClaw）。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

输入提示词后，就直接让它开干了。

OpenClaw里可以看到任务完成的计时，大概也就不到60秒吧…它就告诉我它干完了。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

文件夹里多了两份它写好的文件，一个是报销的Excel文件，列出了报销清单，另一份是给财务的报销说明。

逐一打开来看，也没有任何问题，写的内容完全无误。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

多Agent集群能力

接下来，我们把难度又再拉升一个等级：考考Step 3.7 Flash的多Agent集群能力。

官方演示里不是有个「40个Agent扮演产品评测团」的case嘛，我就非常好奇，想要复刻一下。

具体任务是这样的：

一个新的外卖App，准备在「拼单/AI点菜推荐/会员折扣/深夜配送/碳积分」5个新功能里挑重点做。

让40个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由，最后汇总出每个功能的偏好分布和典型反对意见。

当然，不只是给它提示词这么简单。

我们先让Step 3.7 Flash生成40个差异化虚拟用户，覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

然后再把这40个persona分别投喂给Step 3.7 Flash。

每个Agent要做的是：站在自己的人设视角，对5个功能做排序，选出最想优先上线的功能，并给出支持理由和最不看好的功能。

最后，把40个Agent的结果统一汇总，并生成一个可视化看板。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

结果也挺有意思的：40个Agent全部有效返回，没有出现角色混淆或者格式大面积跑偏。

最终投票里，AI点菜推荐拿到11票，排第一；拼单拿到10票，紧随其后；深夜配送8票，会员折扣6票，碳积分5票。

其中还能看到更细的人群分层，比如年轻白领更偏向AI点菜推荐，因为它解决的是「今天吃什么」的高频决策疲劳。

而学生等价格敏感人群，更倾向拼单和会员折扣，因为能凑起送价、摊配送费。

从结果来看，Step 3.7 Flash在这个任务里的表现还是挺稳的：

40个虚拟用户的画像差异明显，投票理由和人设基本能对上，也没有出现大家都选同一个功能的「假共识」。

这波重大利好产品经理啊！让Agent集群先开一轮需求评审会，自己只需要拍板下一步就可以了~

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

实测下来，我对Step 3.7 Flash的第一印象就是快。

每个任务，简单的不到一分钟，复杂的也就是几分钟，它就能给我交付出结果。

有句话叫唯快不破。在传统单轮问答里，快一点只是体验更顺。但在Agent场景里，速度直接决定任务能不能用。

官方介绍Step 3.7 Flash时，把这个数字拉到了一个新的工程极限：单任务最高超过400tps。

这是什么概念？在没有特别推理加速的前提下，绝大多数模型的推理速度都在100tps以下，主流甚至只在30tps上下。

在Artificial Analysis的速度天梯上，此前最快的GPT-5.3也就70多tps。Step 3.7 Flash是在支持多模态的前提下，硬把速度顶到了400tps。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

海外还有开发者把Step 3.7 Flash和几个主流模型放在一起测，结果发现3.7 Flash跑出了2123 tok/s，一骑绝尘。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

他后来还在NVFP4设置下，把极限吞吐顶到了6000 tok/s，常规上下文长度下也能稳定在2000 tok/s。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

但是光快还不够，Agent也讲究一个性价比为王，这里比的是单位成本能交付多少有效结果。

Step 3.7 Flash的解法，是把性价比做成了可规模化的底气。在OpenRouter上，它的定价是每百万输入token 0.2美元、输出token 1.15美元。

两代Flash背后，阶跃算的是一笔企业账

把视角拉远一点会发现，Step 3.7 Flash并不是一时兴起。

它延续的是阶跃上一代Step 3.5 Flash的打法：追求效率上限、强调实用，在速度、性能和性价比之间找平衡，还支持本地部署。

3.7在这个基础上更进一步，兼顾了更多能力的协同效率，也在成本、稳定性和部署形态上更扛得住长期运行。

这条路能不能跑通，上一代3.5 Flash早就用真金白银验证过了。

今年2月，Step 3.5 Flash发布，两天登顶OpenRouter Trending，一个月内OpenClaw调用量做到了全球第一。

此外，Step 3.5 Flash上线两个多月就量产上车，登陆极氪8X，直接当上了这款旗舰车型的「Agent大脑」。

从开源榜单一路走到量产车机，阶跃Flash系列在真实场景里的可用性和性价比，已经被市场投了票。

还有开发者统计了OpenRouter上60多个服务商的398个核心数据，整理出一张「缓存命中率排行榜」。

阶跃以86.1%排进S档、位列全球第二，仅次于DeepSeek，和DeepSeek、月之暗面一起站在了全球第一梯队。

缓存命中率高，说明它底层的推理系统工程做得好——在长任务、Agent、RAG这些场景里，重复的上下文前缀能被高效复用，直接换来更低成本、更高吞吐、更低延迟。

某些场景下，它的实际推理成本会大幅低于其他模型，速度优势也更明显，尤其适合复杂长任务。

换句话说，在企业级Agent市场，阶跃的模型「非常值钱」。

阶跃Step 3.7 Flash登顶AA榜：速度、性价比、端到端三项第一

连续两代Flash的研发思路，其实透出了阶跃对AI商业化路径的判断：

未来大规模落地的AI应用，不会只靠少数昂贵的旗舰模型，而会形成一套由不同能力、成本、部署形态组成的「模型组合」。

高效率的Flash模型，会在Agent、Coding、Search、多模态办公和企业工作流里，承担越来越多的生产任务，成为AI规模化落地的重要基础设施。

这个判断并不孤单。今年Anthropic的ARR，从2025年底的约90亿美元，一路冲到2026年的数百亿美元量级，其中约八成收入来自企业客户。

企业级Agent的商业化潜力，正在被真金白银验证。

说到底，当Agent从Demo走进真实生产，赛点早就从「谁更聪明」，换成了「谁能在单位成本下，把更多真实任务又快又稳地跑完」。

Step 3.7 Flash最近这一波蹿红，是这个新赛点的体现，也是大模型竞速新竞争力的钟声。

体验地址：https://chat.stepfun.com/chats/new

文章来自于"量子位"，作者 "听雨闻乐"。

关键词: AI新闻 , Step 3.7 Flash , OpenRouter Trending , 阶跃星辰

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0