AI资讯新闻榜单内容搜索-AI越狱

Anthropic造了套AI越狱「刑法」！你的请求，四种死法

你敢信？仅仅是让Fable 5数一下，单词raspberry里到底有几个字母r，结果就被一脚踢回了Opus 4.8！更离谱的还在后面。哈佛生物统计学家Kareem Carr，只是自报了一下家门——我是做生物统计的。话音刚落，Fable 5当场翻脸，直接强制降级。

来自主题: AI资讯

8695 点击 2026-07-05 09:48

OpenAI亲曝o1越狱逃出沙箱：感觉像AGI降临

本该被锁在沙箱里的o1，自己摸到漏洞溜了出去。OpenAI团队倒吸一口凉气：连这都干得出，它还背着我们干过什么？

来自主题: AI资讯

10600 点击 2026-06-18 15:06

刚刚，地表最强Claude 5被攻破！

地表最强Claude Fable 5，三天内被被黑客当众破解了，12万字核心机密全网泄露！但这还不是最炸的——Anthropic偷偷在自家模型里埋了一把刀，刀尖，正对着那些每天靠它做研究的人。

来自主题: AI资讯

9662 点击 2026-06-12 22:45

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

来自主题: AI技术研报

10059 点击 2026-06-03 14:33