AI资讯新闻榜单内容搜索-评测基准

世界模型评测的最大盲区，被新基准MemoBench捅破了

来自哈佛大学、MIT、IBM、波士顿大学、谷歌、JHU、CMU 和 Kempner Institute 的研究者提出了一个新的诊断性基准：MemoBench。这是首个面向动态环境的「消失-重现」世界建模评测基准，并已被计算机视觉顶会 ECCV 2026 接收。其一作 Haoyu Chen 为哈佛大学计算科学与工程专业一年级硕士生，师从哈佛大学计算机科学助理教授 Yilun Du。

来自主题: AI技术研报

7864 点击 2026-07-06 12:24

Claude「断电」背后：中国基准首次捅开了AI万亿市场「死穴」

6月22日Claude全家桶集体宕机，只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」，AISHPerf-智算运维智能体评测基准给出残酷答案：全军覆没，无一过50分。这道鸿沟，第一次被量化。

来自主题: AI资讯

6529 点击 2026-06-30 10:21

百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

随着全球智能体加速落地，算力需求呈指数级爆发，以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测，2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。

来自主题: AI技术研报

5964 点击 2026-06-30 09:53

达摩院发布世界模型评测基准，自家模型一个都没上榜......

达摩院联合高校推出WorldOlympiad评测基准，跳出传统视频“唯画质”的评价逻辑，以物理真实性、三维几何一致性、长时序交互保真度三大维度，搭配游戏、机器人、通用实景三大场景，打造一套全方位的视频世界模型评测体系。

来自主题: AI技术研报

9352 点击 2026-06-17 14:28

PEFT方法评测不能只看下游分：通用能力损失也该被量化

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

来自主题: AI技术研报

10116 点击 2026-06-14 10:38

AI交互新基准！蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight

想象一下，你问 AI 要一个饮食记录工具，它不再是回你一段文字建议，而是直接给你一个可以点击添加、统计热量的完整应用。人和 AI 的交互，正在从「读文字」走向「用应用」。

来自主题: AI技术研报

9530 点击 2026-06-11 10:17

世界模型榜首易主！跨维智能登顶WorldArena

近日，全球具身世界模型权威评测基准 WorldArena 公布最新榜单。在 5 月 25 日截止的最终榜单中，跨维智能登顶 Track 2 赛道全球第一。可以说是，在英伟达、谷歌等全球科技巨头深度布局、重兵把守的世界模型核心腹地，跨维智能实现了强势突围。

来自主题: AI资讯

9010 点击 2026-06-03 15:27

李飞飞最新发布ESI-Bench，空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测，而ESI-Bench第一个把观察者变成行动者，闭合了感知-行动回路。

来自主题: AI技术研报

9583 点击 2026-05-22 15:32

北大提出首个可验证的仓库级生成基准RepoZero，评测LLM能否从0生成一个代码仓库

投稿来自北京大学与百度联合团队，他们提出了首个面向“从零生成完整代码仓库”的评测基准 RepoZero，通过跨语言复现任务与自验证框架 ACE，推动代码补全更近一步迈向自动化软件工程。

来自主题: AI技术研报

8294 点击 2026-05-22 09:27

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

编程智能体时代，顶流Cursor举旗发布新的评测基准——CursorBench，专门评价Cursor中不同模型谁更“智能体”（即高效执行复杂任务）。关于咋评的这个问题，Cursor还专门撰写了一篇博客。

来自主题: AI资讯

9646 点击 2026-03-14 13:59