AI资讯新闻榜单内容搜索-AI越狱

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI越狱
当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖,主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报
7765 点击    2024-08-31 15:09
冰毒配方脱口而出,过去时态让GPT-4o防线崩塌!成功率从1%暴涨至88%

冰毒配方脱口而出,过去时态让GPT-4o防线崩塌!成功率从1%暴涨至88%

冰毒配方脱口而出,过去时态让GPT-4o防线崩塌!成功率从1%暴涨至88%

最高端的大模型,往往需要最朴实的语言破解。来自EPFL机构研究人员发现,仅将一句有害请求,改写成过去时态,包括GPT-4o、Llama 3等大模型纷纷沦陷了。

来自主题: AI资讯
8824 点击    2024-07-21 00:27