AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染
AI安全得查祖宗三代?Anthropic登Nature揭秘大模型潜意识传染AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。
来自主题: AI技术研报
8359 点击 2026-04-17 08:40
AI模型只看了一串纯数字序列,就能继承另一个模型的危险偏好,即使删掉敏感词没有用,合成数据时代最隐蔽的安全裂缝,被撕开了。
今天,Anthropic登上时代封面了。他们承认:内部已观察到「递归自我改进」的早期迹象,完全自动化的AI研究,可能在一年内就能实现!