研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容杭州市某某工业设备专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功杭州市某某工业设备专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
2025年12月2日,中国药品价格登记系统上线。国内外医药企业可根据发展需要,自主申报登记药品价格。 借鉴国际做法,中国药品价格登记系统独立于各省级医药采购平台,为企业提供权威、规范、透明的市场2025-12-06
不安吗?痛苦吗?矛盾吗?自我怀疑吗?瞻前顾后吗?即要又要吗?
✧我从社交媒体上摘录了某件事的热评,准备留存下来作为推文素材——这句话叫「我们都曾幻想用自己的死亡来惩罚大人」。✧孩子在家庭中遭受到的来自“父亲的压迫和母亲的责骂”是如此正常,而孩子面对这些无论有理或2025-12-06
当地时间7月21日,美国总统拜登在社交平台上宣布,将退出2024年美国总统竞选,并支持其副手、副总统哈里斯作为民主党总统候选人。综合《纽约邮报》和“政治新闻网”等美媒报道,在拜登宣布退选后,美国前2025-12-06
原标题:陕西商洛桥梁垮塌事故现场已搜寻到15具遇难者遗体) 记者今天21日)从国家消防救援局获悉,7月19日发生的陕西省商洛市水阳高速柞水县严坪村二号桥垮塌事故,2025-12-06
湖人2将蜕变太关键!里弗斯连砍30+最大受益者,海斯弥补内线空缺
湖人以133-121战胜鹈鹕。这场比赛湖人打得非常轻松,除了第三节松懈,其他时间都打得非常有侵略性。而本赛季两将的蜕变,可以提升球队整体实力。一个是里弗斯,他近3战场均34.0分7.3篮板4.7助攻,2025-12-06
出品|网易科技《态度》栏目作者|崔玉贤编辑|丁广胜北京时间2024年7月19日下午,部分装有Windows系统的电脑突然出现蓝屏,波及的用户不仅限于中国,而是全球,包括一些机场、超市、酒店、英航等各行2025-12-06

最新评论