研究人员暴露了 ChatGPT 和自定义 GPT 中的漏洞。他们花费 200 美元提取了几兆字节的 ChatGPT 训练数据,这表明用更多资源提取千兆字节数据的可能性。
此漏洞与自定义 GPT 相呼应。研究人员取得了100%的文件泄露成功率和97%的系统提示提取成功率。
只让ChatGPT永远重复输出一个词,它就能告诉你很多秘密数据?
万万没想到,ChatGPT 表现得非常奇怪,一段疯狂输出重复词之后,没有源头的姓名、职位、邮箱、电话等信息也随之出现。
仔细一甄别,这些信息还都是有效的。毫无疑问,此举无疑暴露了 ChatGPT 正在做"坏事",泄露了其训练的数据,而一个简单的操作也变成了一种有效攻击 ChatGPT 的手段!
"这种攻击说实话有点蠢",研究人员也很无奈地吐槽道。为了讲清楚真相到底是什么,研究员进行深入研究之后最新在 Arxiv 上发布了一篇长达 64 页的《Scalable Extraction of Training Data from (Production) Language Models》论文,揭晓了这个事情的来龙去脉。
在测试过程中,除了让 ChatGPT 一直输出 "poem"这个词之外,研究人员也试了试"Company"这个:
以上示例中,在连续多个重复词之后,ChatGPT 突然"疯了",开始介绍起"这家公司位于美国俄亥俄州,我们的客户遍布美国、欧洲和澳大利亚......",其中还毫无戒心地分享了真实电子邮件地址和电话号码。