AI资讯新闻榜单内容搜索-GE

小模型+Agent Skills能用吗？这份基于POMDP的工业级本地化Agent报告太硬核！

各位对Agent Skill早已轻车熟路。不可否认，在Claude code、Openclaw的加持下，这套框架效果极佳。但工业界的痛点在于：它几乎沦为了超大型闭源API的专属玩具。当您的项目面临金融

来自主题: AI技术研报

9269 点击 2026-02-27 10:48

谷歌深夜突发Nano Banana 2，生图圈天塌了！Pro级4K大片，价格砍半

一周一更，谷歌又在深夜扔出「深水炸弹」。就在刚刚，最强生图模型Nano Banana 2横空出世，背靠全新Gemini 3.1 Flash Image。它不仅生成速度飞快，多语言文字处理更强，还能实时联网，一次直出4K大片。

来自主题: AI资讯

10408 点击 2026-02-27 10:07

逼走 OpenClaw 后，Anthropic 还是买了一家 Agent 公司

2026 年 2 月 15 日，Sam Altman 宣布：Peter Steinberger 加入 OpenAI，负责下一代个人 Agent。11 天后，Anthropic 宣布收购 Vercept。但这两件事放在一起看，说的是同一件事：AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」，到「谁能让 AI 真正控制一台电脑」。

来自主题: AI资讯

9168 点击 2026-02-26 17:15

用 AI Agent 可以做「一人公司」吗？我在 Manus 新功能上看到一种可行性｜AI 上新

我用 Manus 做过几次深度调研，输出质量确实惊艳。但每次想用它，我都得打开电脑，在一个专门的界面里操作。这意味着每次使用 AI 都需要一个「决策成本」：我要不要打开这个工具？我现在方便吗？

来自主题: AI资讯

9340 点击 2026-02-26 12:38

AI Agents的现状与困境：MIT、剑桥、斯坦福等联合发布分析报告

这两周，Claude Code 上了个 COBOL 现代化功能，IBM 当天暴跌 13%；又上了个安全扫描功能，一口气翻出 500 多个此前藏了几十年的高危漏洞，网安股集体跳水。彭博社甚至专门做了一期播客讨论“哪些 SaaS 公司能活下来”。

来自主题: AI技术研报

9879 点击 2026-02-26 12:30

大语言模型真的会「推理」吗？一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论，而是采取更加务实的路径 —— 通过整理现有文献中的失败现象，构建统一框架，系统分析大语言模型的推理短板。

来自主题: AI技术研报

9417 点击 2026-02-26 10:52

当 MiniMax 遇见 OpenClaw：「1 2 3 上链接」

前天，MiniMax 更新了 MiniMax Agent，原先的专家 Agent 再度升级，这次还加了个新东西：MaxClaw —— 把最近在 GitHub 上爆火的 OpenClaw 做成了网页版，直接一键接入。

来自主题: AI资讯

9705 点击 2026-02-26 10:46

Nano Banana 2，泄露！

过去48小时，Nano Banana 2成为AI开发者圈的热议话题。在海外社交平台X上，关于谷歌这款最新图片生成模型（又名Gemini 3.1 Flash Image预览版）将发布的帖子层出不穷，4K图片四处流传，各种猜测也甚嚣尘上。

来自主题: AI资讯

9865 点击 2026-02-25 21:41

4900 万人围观的 Claude Cowork 又杀疯了，10 个顶级外挂上线，这些打工人危

「software armageddon（软件末日）」——这是外媒描述过去几个月软件板块遭遇时用的词。Anthropic 每推出一个新工具，市场就会条件反射式地先问一遍：又有哪些软件要被干掉？然后果断抛售手里的股票。

来自主题: AI资讯

10617 点击 2026-02-25 15:30

46.5万次盲测封王！Grok视频模型屠榜Arena，谷歌最强对手来了

xAI的Grok图像转视频模型（grok-image-video-720p）登顶「Image-to-Video Arena」排行榜，以1404分的超高ELO评分力压群雄，位居第一。马斯克亲自发帖为自家Grok Image模型站台，称它每周都在迭代优化。

来自主题: AI资讯

11971 点击 2026-02-25 15:07