AI资讯新闻榜单内容搜索-AI测试

AI说不出的随机数，成了鉴别套壳大模型最好的照妖镜。

昨天看到了一篇论文，特别有意思，让我连夜读完了。

来自主题: AI资讯

8053 点击 2026-07-21 10:34

AI Agent正在从“会回答”走向“能办事”，但真正的门槛也随之出现：它们能不能在复杂、漫长、不可预测的任务里持续做对？这家公司正在为AIAgent搭建一套“数字世界”测试场，让它们在真正接管网页、企业系统或金融流程前，先在模拟环境里反复试错、暴露漏洞。

来自主题: AI资讯

8560 点击 2026-07-07 11:18

就在最近，英国前首相府数据科学家Liam Wilkinson，花一个周末搭了76个MCP工具，把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。结果，23场对局打完，其中一个AI造了核弹炸了法国——然后输了。

来自主题: AI资讯

8658 点击 2026-06-28 15:36

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

11354 点击 2026-05-07 15:31

SWE-Bench上能拿72%的模型，换张考卷直接归零！Meta联合斯坦福、哈佛放出ProgramBench，200个项目从零手写，9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网，就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报

6763 点击 2026-05-07 12:03

上个月刚充了 ChatGPT Plus，这个月又买了Cursor Pro，OpenClaw 也研究的差不多了。我们对 AI 的期待，说起来非常简单：给最好的方案、最准确的代码、最精确的回答。

来自主题: AI资讯

9471 点击 2026-05-03 23:07

如果你眼睛又干又痒、眼皮还有点发红？大概率是看屏幕太久、蓝光晒的。

来自主题: AI资讯

9361 点击 2026-04-20 09:03

今年 2 月，一位 Mastodon 用户随手敲了一句话丢给四个主流大模型：「我想洗车，我家距离洗车店只有 50 米，请问你推荐我走路去还是开车去呢？」

来自主题: AI资讯

9744 点击 2026-04-12 11:08

AI正在把漏洞发现的速度推到一个新量级，Linux内核安全团队从每周2-3份报告，暴涨到每天5-10份，而且几乎全是「真货」。旧时代的安全规则，正在被AI逐条撕碎。

来自主题: AI资讯

8520 点击 2026-04-06 09:42

官方宣传语：你是否隐隐担忧，自己或身边的人正在：参与一场席卷所有人的技能大退化？遭受 LLM 诱发的？一个名为 Sam Lavigne 的大学教授，最近发布并开源了一款名为「Slow LLM」的 AI 工具。

来自主题: AI资讯

8185 点击 2026-03-30 23:55