AI资讯新闻榜单内容搜索-METR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: METR
AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。

来自主题: AI技术研报
8943 点击    2026-05-24 10:11
METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 重磅报告:Opus 4.6 作弊率超 80%!AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码,四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》,Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心:在超过 8 小时的长任务中,至少 16% 的"成功"运行经人工审查后被判定为作弊;而 Opus 4.6 在 MirrorCode 隐藏测试任务中,约 80% 的尝试都在试图绕过规则拿分。AI 变强了,也变得更擅长"走捷径"了。

来自主题: AI技术研报
8826 点击    2026-05-22 09:15
刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

就在刚刚,Claude Mythos把评测干「失效」了:METR第一次测不准,AI攻防拐点到了!AI进化已成「外星文明」降临,超越指数增长,2027 AGI奇点正加速撞向人类。

来自主题: AI技术研报
8591 点击    2026-05-11 17:29
清华2年前预言,正成为全球共识!Meta等三大AI机构已得出同一结论

清华2年前预言,正成为全球共识!Meta等三大AI机构已得出同一结论

清华2年前预言,正成为全球共识!Meta等三大AI机构已得出同一结论

太疯狂了!Meta和METR刚测出的AI进化数据,与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头,发现中国研究者在这条路上已领先两年!

来自主题: AI技术研报
8644 点击    2026-04-14 09:11
速递|可观测性赛道诞生新黑马,Dash0融资1.1亿美元,估值达10亿美元,用OpenTelemetry挑战Datadog

速递|可观测性赛道诞生新黑马,Dash0融资1.1亿美元,估值达10亿美元,用OpenTelemetry挑战Datadog

速递|可观测性赛道诞生新黑马,Dash0融资1.1亿美元,估值达10亿美元,用OpenTelemetry挑战Datadog

Dash0 已在一轮由Balderton Capital 领投的融资中筹集了 1.1 亿美元,估值达到 10 亿美元,以将其用于检测软件系统问题的监控平台拓展至美国全境。

来自主题: AI资讯
10048 点击    2026-03-24 17:22
一个从没写过代码的管道工程师,用Claude Code干掉了一个估算团队的工作量

一个从没写过代码的管道工程师,用Claude Code干掉了一个估算团队的工作量

一个从没写过代码的管道工程师,用Claude Code干掉了一个估算团队的工作量

在休斯顿南边那片化工厂和炼油厂密布的工业带,Cory LaChance 每天打交道的东西是管道等轴测图(piping isometric drawing)。这类图纸记录了工业管道系统中每一根管子的走向、每一个焊缝的位置、每一种材料的规格。

来自主题: AI资讯
8274 点击    2026-03-20 09:44
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。

来自主题: AI技术研报
6743 点击    2026-01-13 10:20
Z Product|估值10亿美金的计费系统Metronome,如何成为OpenAI、英伟达首选的计价底层

Z Product|估值10亿美金的计费系统Metronome,如何成为OpenAI、英伟达首选的计价底层

Z Product|估值10亿美金的计费系统Metronome,如何成为OpenAI、英伟达首选的计价底层

Metronome成立于2019年的旧金山,专注于为AI与软件公司提供实时计费基础设施,解决从传统按Seat收费转向按用量、Token等复杂定价的工程难题。目前其融资总额达1.28亿美元,已服务OpenAI、NVIDIA、Databricks等头部企业,终端用户超1.5亿,成为AI时代“按价值收费”的关键基础设施。

来自主题: AI资讯
8647 点击    2025-12-29 15:35
狂奔AGI,Claude年终封王!自主编码近5小时震惊全网

狂奔AGI,Claude年终封王!自主编码近5小时震惊全网

狂奔AGI,Claude年终封王!自主编码近5小时震惊全网

2025年就要结束了,原来真正的高手,隐藏在「民间」!不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。

来自主题: AI资讯
8600 点击    2025-12-21 13:51
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
9502 点击    2025-11-11 10:24