阿里官宣上线Happy Oyster,全网首发实测!
阿里官宣上线Happy Oyster,全网首发实测!前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。
前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。
过去这半年,AI 圈有个变化特别扎眼:它不再只是能写几行代码,而是开始试图接管整个开发流程,从拆需求、推架构到写代码、修 Bug,一整条链路都在被重塑。过去我们评价一款 AI 编程工具,问的是它能写多少代码?写得够不够好?而现在,大家更关心的是它能不能把事情做完?用起来够不够省心。
如果你眼睛又干又痒、眼皮还有点发红?大概率是看屏幕太久、蓝光晒的。
最近,Claude Code 团队工程师 Thariq Shihipar又在X上发文了,上个月他写的Skill深度经验分享贴在社交平台爆火,这周他又发了一篇Claude的100万toke上下文窗口使用技巧的文章,平台阅读量已超过200万。
一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。
一张图在X上炸了:全球84%的人从未真正用过AI,16%偶尔玩玩免费聊天机器人,0.3%愿意每月付20美元,0.04%用AI写代码,0.01%是凌晨跑模型、买硬件的重度玩家。这不是鸡汤,微软官方数据托底。你天天刷AI资讯,以为全世界都在卷——其实你身处的那个圈子,是全球最顶端的0.01%。
因为 Claude 太好用,硬件的更新似乎都跟不上它的进化速度了,于是程序员们硬是把一个写代码的 AI 工具,玩成了一个「超级 IP」。由于网友太过热情,负责开发 Claude Cowork 的 Felix Rieseberg ,直接在Github 上线了一个支持外设硬件接入的项目:
就在刚刚,2026北京亦庄机器人半程马拉松上,阿里巴巴旗下高德正式公开全球首款开放环境全自主具身机器人「高德途途」。这款四足机器人成功协助视障人士完成复杂避障、人群穿行等实战挑战,突破了「实验室」到「开放环境」之间的技术鸿沟。
很少看到黄仁勋这么激动。接近两个小时,正面回答关于英伟达一路在大模型时代涨到4万亿美元市值的种种问题。黄仁勋在“硅谷最受欢迎播客”的全新访谈,信息量有点高。视频发布半天,单在油管上的观看量已经超过10万+。
伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。