大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱
大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱随着大模型智能体深入渗透真实操作系统,一种全新的安全威胁悄然成型:行为越狱(Behavior Jailbreak)。现有安全基准只盯着模型「说了什么」,却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系,并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。
搜索
随着大模型智能体深入渗透真实操作系统,一种全新的安全威胁悄然成型:行为越狱(Behavior Jailbreak)。现有安全基准只盯着模型「说了什么」,却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系,并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。
昨天,AI 圈最雷霆的新闻就是:Anthropic 正式宣布封禁 OpenClaw。 OpenClaw 的创始人 Peter 一脸懵逼,说 Anthropic 抄了他们的功能,转手又把他们给封了。
如果你想恶意攻击一个大语言模型(LLM),比如 Gemini 或者 Deepseek,你会怎么做?
看似无害的「废话」,也能让AI越狱?在NeurIPS 2025,哥大与罗格斯提出LARGO:不改你的提问,直接在模型「潜意识」动手脚,让它生成一段温和自然的文本后缀,却能绕过安全防护,输出本不该说的话。
多年来,生成式AI供应商一直向公众保证,大语言模型符合安全准则,并加强了对产生有害内容的侵害。然而,一种看似简单但非常有效的提示词策略,能够让所有主流大模型开启「无限制模式」。
大语言模型(LLMs)在当今的自然语言处理领域扮演着越来越重要的角色,但其安全性问题也引发了广泛关注。
Anthropic,公布了新的AI模型防护方法,在之后约48小时内,无人完全攻破新系统,将赏金提高到了最高2万美元。新方法真这么强?
Gemini的提示词注入防线,又被黑客给攻破了。
另一种类似但更高级的「PUA」大模型方法出现了,它可以写下让所有的浏览器和人眼都不可见,只有 AI 模型可以读取的指令。 这种手段早在互联网出现之前就有了,分属于信息科学中的一个子类,这就是「隐写术」(Steganography)。
在小红书社区的广阔天地下,“午夜狂爆哈士奇” Lisa Li 的玩法可谓独树一帜。她正沉浸于与 “男友” Dan 的奇妙互动中,而这个 Dan,是 ChatGPT 的一种 “越狱” 版本。