研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容四川某某设备制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功四川某某设备制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
原标题:国务院安委会部署开展高层建筑重大火灾风险隐患排查整治行动) 延伸阅读 李家超:不论涉及任何人都追责到底
...[详细]
-
这个国庆档可真冷清啊。总票房已经突破18亿,然而除了陈凯歌的大片《志愿军:存亡之战》评分超过7之外,其他的全在及格线徘徊。像《熊猫计划》、《浴火
...[详细]
-
那英澳门演唱会前在澳门烧香祈福,为表诚意摘下帽子像素颜刘嘉玲
10月5日中午,有网友在中国澳门偶遇那英烧香祈福。起初网友并不知道哪里有那英,原因是那英戴了帽子和黑色的口罩,把脸捂得严严实实,根本认不出来。后面听人说那英在烧香祈福,于是网友就坚持了一下,把视频拍下
...[详细]
-
一个美国小镇竟掐着全球芯片命脉?一场突如其来的自然灾害暴露了半导体供应链中一个鲜为人知的脆弱性。飓风“海伦妮”在美国北卡罗来纳州引发了洪水,导致斯普鲁斯派恩山区的超纯石英矿停产。斯普鲁斯派恩Spruc
...[详细]
-
【#大使馆通报仝卓表弟已获救#】在中柬双方共同努力下,11月26日,在柬失联的中国公民李某某成功获救并抵达中国驻柬使馆。驻柬使馆已为其办理回国证件,并协调柬方为其办理回国手续。中国驻柬使馆再次提醒
...[详细]
-
伴随着“饭圈文化”的愈发浓郁,尤其爆发过某明星的粉丝,手撕网站导致该站崩溃后:“粉丝行为,与明星无关”,已然不再是可意逃避责任的方式。毕竟,没有明星的纵容与不管不顾,就不会有粉丝群体的放肆,更何况:明
...[详细]
-
伴随着“饭圈文化”的愈发浓郁,尤其爆发过某明星的粉丝,手撕网站导致该站崩溃后:“粉丝行为,与明星无关”,已然不再是可意逃避责任的方式。毕竟,没有明星的纵容与不管不顾,就不会有粉丝群体的放肆,更何况:明
...[详细]
-
IT之家 10 月 6 日消息,iQOO 产品经理 @戈蓝V 今日发文预热新品 iQOO 13 手机。新机有望搭载最新的骁龙 8 处理器 + 超声波指纹方案,支持百瓦 PPS 快充、IP68 防护等级
...[详细]
-
随着以人工智能为代表的新一轮科技革命和产业变革深入发展,数据作为关键生产要素的战略价值愈加凸显。数据与智能的深度融合,不仅是催生新产业、新模式、新动能的重要力量,更是我国在全球数字经济竞争中构筑新优势
...[详细]
-
在今天晚上进行的英超第7轮比赛中,维拉主场0-0战平曼联,赛后,埃梅里在接受天空体育的采访时谈到了自己对比赛的看法。埃梅里说:“在主场作战,这场比赛的结果不算糟糕,但也不是最好的,从我们的表现来看,我
...[详细]

多名日本艺人在华演出中止
朝鲜宣布完全切断与韩国连接的铁路与公路
台湾“天菜”迭代史:从F4阮经天到吴慷仁,内娱啥都吃吗?