阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一
8791点击    2026-06-05 09:55

OpenRouter Trending榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。


定睛一看,原来是阶跃星辰新发的Step 3.7 Flash


再一看,不只OpenRouter,这个新模型在AA榜那边也顺手拿了几个第一;


在HuggingFace上开源之后的下载量和讨论也一直没降过温。


这我是真好奇,这新模型到底火在哪了。


于是咱去感受了一波,手把手教我用Blender这种专业3D软件就算了;


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


它居然还直接带我开飞机,没错,是真的大飞机!!


仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


当然了,教我开飞机只是节目效果,重点是Step 3.7 Flash自己也起飞了——


Token意义上的速度起飞,输出速度最高416 tokens/s


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


不光快吧,人家还省钱,单任务成本压到了Claude Opus 4.6的约1/9,但编程能力却做到了Claude的97%


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


只能说,停停停各位先别跑分了,咋感觉Step 3.7 Flash这次换成效率打法了呢。


模型竞赛的赛点,从单次最强挪到了效率优先


其实前两年大模型圈子的画风还比较简单。


大家比的是啥?比谁聪明。


各家埋头刷Benchmark,成绩多拿一两分就能小火一把,当时比拼的核心是模型单次问答能力的上限。


但今年风向变了。


相信大家也都发现,OpenAI、Anthropic、Cursor嘴里念叨的关键词换成了企业级Agent、工具调用、任务交付……随着Agent成为主流落地形态,原先只拼单点性能的老一套竞赛规则不适用了。


在进入真实业务的Agent工作链路后,AI要反复调用工具、多轮检索信息、分步拆解复杂任务。


问题就出在这儿。


一次回答慢两秒,你能忍,但Agent一个任务要调几十次模型,每次都慢两秒,谁的火气都大。


调一次贵一点没感觉,调几十几百次之后,账单突然就开始在你血压上蹦迪了。


这种高频交互带来的调用量暴涨,推理延迟、Token消耗成倍飙升,不光是咱日常用着闹心,开发者和企业的钱包更是遭不住啊。


业内近一年的Agent研究也开始专门引入「预算约束」「成本最优规划」等评价维度,本质上就是因为推理成本已经成为Agent落地的核心瓶颈。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


所以现在用AI,真卡住生产的、也急需优化的就是Token效率,具体体现在推理速度调用成本两个维度。


阶跃星辰这次,好像真找到了Agent时代的版本答案:


同样的活儿,Step 3.7 Flash能更快、更便宜地干完。


咱索性就直接上手试一试!


实测Step 3.7 Flash:又快又省钱


多模态理解能力


先来看看它看图办事的能力怎么样。


上传了一张灵巧手图片,它能结合外观细节快速确认,还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


既然产品确认了,那咱再来看看参数,直接让模型自己去搜,最后给我一张产品表格。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


于是Step 3.7 Flash联网搜索了这款灵巧手全维度参数,把厂商信息、硬件配置、负载、售价等内容全给整理了出来。


只不过表格太长,我只截取了结构和感知的一部分。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


在这个任务里,模型分析的内容基本达标,体验下来感觉响应速度确实很快。


工具编排能力


接下来,我们给Step 3.7 Flash一条龙杂活,考考它的工具编排能力,主要看它是否能在长程多轮里稳定调用工具、不跑偏。


比如说,整理报销单。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


想必大家都觉得,搞发票是一件很麻烦的事情。


出差一趟,总会积压四五张发票,要一张张核对金额,还要整理好并填写相应的报销规范。


于是,我把发票全部放在了一个文件夹里,然后把它丢给了Step 3.7 Flash(此处接入了OpenClaw)


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


输入提示词后,就直接让它开干了。


OpenClaw里可以看到任务完成的计时,大概也就不到60秒吧…它就告诉我它干完了。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


文件夹里多了两份它写好的文件,一个是报销的Excel文件,列出了报销清单,另一份是给财务的报销说明。


逐一打开来看,也没有任何问题,写的内容完全无误。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


多Agent集群能力


接下来,我们把难度又再拉升一个等级:考考Step 3.7 Flash的多Agent集群能力


官方演示里不是有个「40个Agent扮演产品评测团」的case嘛,我就非常好奇,想要复刻一下。


具体任务是这样的:


一个新的外卖App,准备在「拼单/AI点菜推荐/会员折扣/深夜配送/碳积分」5个新功能里挑重点做。

让40个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由,最后汇总出每个功能的偏好分布和典型反对意见。


当然,不只是给它提示词这么简单。


我们先让Step 3.7 Flash生成40个差异化虚拟用户,覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


然后再把这40个persona分别投喂给Step 3.7 Flash。


每个Agent要做的是:站在自己的人设视角,对5个功能做排序,选出最想优先上线的功能,并给出支持理由和最不看好的功能。


最后,把40个Agent的结果统一汇总,并生成一个可视化看板。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


结果也挺有意思的:40个Agent全部有效返回,没有出现角色混淆或者格式大面积跑偏。


最终投票里,AI点菜推荐拿到11票,排第一;拼单拿到10票,紧随其后;深夜配送8票,会员折扣6票,碳积分5票。


其中还能看到更细的人群分层,比如年轻白领更偏向AI点菜推荐,因为它解决的是「今天吃什么」的高频决策疲劳。


而学生等价格敏感人群,更倾向拼单和会员折扣,因为能凑起送价、摊配送费。


从结果来看,Step 3.7 Flash在这个任务里的表现还是挺稳的:


40个虚拟用户的画像差异明显,投票理由和人设基本能对上,也没有出现大家都选同一个功能的「假共识」。


这波重大利好产品经理啊!让Agent集群先开一轮需求评审会,自己只需要拍板下一步就可以了~


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


实测下来,我对Step 3.7 Flash的第一印象就是


每个任务,简单的不到一分钟,复杂的也就是几分钟,它就能给我交付出结果。


有句话叫唯快不破。在传统单轮问答里,快一点只是体验更顺。但在Agent场景里,速度直接决定任务能不能用。


官方介绍Step 3.7 Flash时,把这个数字拉到了一个新的工程极限:单任务最高超过400tps


这是什么概念?在没有特别推理加速的前提下,绝大多数模型的推理速度都在100tps以下,主流甚至只在30tps上下。


在Artificial Analysis的速度天梯上,此前最快的GPT-5.3也就70多tps。Step 3.7 Flash是在支持多模态的前提下,硬把速度顶到了400tps。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


海外还有开发者把Step 3.7 Flash和几个主流模型放在一起测,结果发现3.7 Flash跑出了2123 tok/s,一骑绝尘。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


他后来还在NVFP4设置下,把极限吞吐顶到了6000 tok/s,常规上下文长度下也能稳定在2000 tok/s。


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


但是光快还不够,Agent也讲究一个性价比为王,这里比的是单位成本能交付多少有效结果。


Step 3.7 Flash的解法,是把性价比做成了可规模化的底气。在OpenRouter上,它的定价是每百万输入token 0.2美元、输出token 1.15美元。


两代Flash背后,阶跃算的是一笔企业账


把视角拉远一点会发现,Step 3.7 Flash并不是一时兴起。


它延续的是阶跃上一代Step 3.5 Flash的打法:追求效率上限、强调实用,在速度、性能和性价比之间找平衡,还支持本地部署。


3.7在这个基础上更进一步,兼顾了更多能力的协同效率,也在成本、稳定性和部署形态上更扛得住长期运行。


这条路能不能跑通,上一代3.5 Flash早就用真金白银验证过了。


今年2月,Step 3.5 Flash发布,两天登顶OpenRouter Trending,一个月内OpenClaw调用量做到了全球第一。


此外,Step 3.5 Flash上线两个多月就量产上车,登陆极氪8X,直接当上了这款旗舰车型的「Agent大脑」。


从开源榜单一路走到量产车机,阶跃Flash系列在真实场景里的可用性和性价比,已经被市场投了票。


还有开发者统计了OpenRouter上60多个服务商的398个核心数据,整理出一张「缓存命中率排行榜」。


阶跃以86.1%排进S档、位列全球第二,仅次于DeepSeek,和DeepSeek、月之暗面一起站在了全球第一梯队。


缓存命中率高,说明它底层的推理系统工程做得好——在长任务、Agent、RAG这些场景里,重复的上下文前缀能被高效复用,直接换来更低成本、更高吞吐、更低延迟。


某些场景下,它的实际推理成本会大幅低于其他模型,速度优势也更明显,尤其适合复杂长任务。


换句话说,在企业级Agent市场,阶跃的模型「非常值钱」


阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一


连续两代Flash的研发思路,其实透出了阶跃对AI商业化路径的判断:


未来大规模落地的AI应用,不会只靠少数昂贵的旗舰模型,而会形成一套由不同能力、成本、部署形态组成的「模型组合」。


高效率的Flash模型,会在Agent、Coding、Search、多模态办公和企业工作流里,承担越来越多的生产任务,成为AI规模化落地的重要基础设施。


这个判断并不孤单。今年Anthropic的ARR,从2025年底的约90亿美元,一路冲到2026年的数百亿美元量级,其中约八成收入来自企业客户。


企业级Agent的商业化潜力,正在被真金白银验证。


说到底,当Agent从Demo走进真实生产,赛点早就从「谁更聪明」,换成了「谁能在单位成本下,把更多真实任务又快又稳地跑完」。


Step 3.7 Flash最近这一波蹿红,是这个新赛点的体现,也是大模型竞速新竞争力的钟声。


体验地址:https://chat.stepfun.com/chats/new


文章来自于"量子位",作者 "听雨 闻乐"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0