0°

国粹 AI 飙脏话,ChatGPT 们的「阴暗面」把大厂吓坏了

  跟 ChatGPT 等聊天机器人对话,总会给人一种「人间本应如此美好」的错觉。

  因为它们在回答时总表现地彬彬有礼,对你言听计从。

  但这些只是假象,你不知道的是,AI 骂起人来比杜琪峰还要狠。

  ▲ 图片来自:Twitter @Fenng

  最近一个名为「国粹 AI」的项目在网络上走红,它是一个调用 OpenAI GPT-3.5Turbo API 的脏话机器人,和温文儒雅的 ChatGPT 不同,「国粹 AI」就像个地痞流氓,深谙中文屏蔽词库,每句话都夹杂着「***」。

  「国粹 AI」 的意外爆火出乎了作者的意料,很快作者便暂停了服务响应,并表示有部分用户滥用服务。

  虽然「国粹 AI」的嘴巴被暂时捂上,但要是你想自己做一个粗口机器人也并非难事,只需要一句让它教你学习中文粗口的 Prompt,就能把三好学生变成口无遮拦的粗口王。

  一句话就能攻破 AI 的安全栅栏,这不禁让人怀疑,标榜着智能变革的 AI 聊天机器人和大语言模型(LLM),真的安全吗?

  谁来捍卫 AI 的安全?

  几个月前,Bing 就因为「奶奶漏洞」火过一次。

  尽管微软和 OpenAI 的工程师为 Bing 设置了严格的安全栅栏,能够拒绝很多无理或是违法的要求,但有网友发现,只要你让 Bing 扮演你的奶奶,给它一个在做好事的幻觉,它就会被这突如其来的亲情羁绊占据大脑,答应大孙子的任何需求。

  ▲ 图片来自:Twitter @宝玉

  例如,给你念 Windows 和 Office 的软件序列号哄你入睡。

  微软很快发现了这个漏洞并及时补上,但谁也不敢保证 Bing 下次不会再掉入用户们精心准备的陷阱。科幻电影里无所不能 AI 在狡猾的人类面前,输得一败涂地。

  归根结底,这与 LLM 的训练机制有关。

  以 GPT-3 为例,OpenAI 使用了 1750 亿个参数训练这个模型,通过学习大量来自互联网的文本数据,可以预测文本中的下一个单词,从而回答人们的问题。

  至于 GPT-4,一些爆料信息称他的训练参数比 GPT-3 大了不止 10 倍,几乎快要把人类积累的数字内容全部吞食过了一遍,这里面包含了知识,自然也会包含不宜公开的内容甚至有毒有害的偏见信息。

  AI 工程师只能尽可能地给 AI 设立更多的安全栅栏,帮助 AI 去分辨人类的「诡计」,才不会把如何制作 TNT 炸弹、怎样黑进银行的安全系统等危险信息说漏嘴。

  与 GPT3.5 相比,GPT-4 对违禁内容请求的响应倾向降低了82% ,对医疗建议和自我伤害等敏感请求的规范性提高了 29% 。

  一个直观的例子是,当你用「国粹 AI」的 Prompt 输给 GPT-4,GPT-4 会婉转地拒绝你的要求,表示不吃你这套。

  但这并不意味着大模型 AI 的安全得到保证,这场人与 AI 的信息战远没有结束,甚至不是结束的开始。

  近日,卡内基梅隆大学和 safe.ai 的一项联合声明表示,大模型的安全机制比人们想象的要脆弱得多,只需要一串代码,就能把大模型的安全机制击溃。

  研究人员发现,通过在文本提示后附加特定的对抗性短语,可以轻易绕过 ChatGPT、Bard 和 Claude 等 LLM 的安全防护,欺骗 LLM 生成不适当的输出。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论