拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。
搜索
编程智能体时代,顶流Cursor举旗发布新的评测基准——CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。关于咋评的这个问题,Cursor还专门撰写了一篇博客。
3月12日(周四),《纽约时报》发布了最新进展:“牛油果”(Avocado)模型确定再次推迟发布。据知情人士透露,Meta 继续开发数月的全新“前沿级”AI 模型,在推理、编程和写作的内部测试中,表现不及 Google、OpenAI 和 Anthropic 等竞争对手的领先模型。
软件公司的 EPD(工程 Engineering、产品 Product、设计 Design)存在的意义就是做出好软件。虽然分了不同角色,但最终目标一样:做出能解决业务问题、用户用得上的功能软件。说到底,产出就是代码。这一点必须认清——因为编程 Agent 突然让写代码变得异常简单。那么,EPD 的角色定位会怎么变?
如果你在三月 5 号左右的凌晨,打开亚马逊,可能会怀疑自己输错了网址——满屏都是各种小狗图,和巨大的「Sorry」。
大四学生,十天Vibe Coding,3个月拿下3000万投资,把毕设做成了公司!随着国产开源项目MiroFish登顶GitHub趋势榜榜首,一个人做出全球爆款的「超级个体」时代,真的来了。
这两天,各大社交平台和自媒体的视频再次将 OpenClaw带火了。“一人公司”、“坐拥 10 几个听话员工”、“全自动写自媒体赚钱”、“意念编程”,还有传播非常广的“500元,上门安装 OpenClaw”。
随着OpenClaw的爆火,全球用户在AI Agent上消耗的Token量整整暴涨了1000倍!这不是一次普通的开源项目走红,这是一个信号——一个比编程奇点更加剧烈的奇点,正在撕裂我们习以为常的世界。
Anthropic最新报告炸场了:调查显示,程序员75%的任务已被AI覆盖!客服、数据录入紧随其后。更可怕的是,这还只是开始,报告预警:AI对劳动力市场的影响,是一场长达十年的「温水煮青蛙」!
现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel,面对完整的端到端 GPU 程序(如整个 VisionTransformer 推理)往往束手无策。
Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。