克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
大模型的「护城河」,再次被攻破。
输入一段神秘代码,就能让大模型生成有害内容。
从ChatGPT、Claude到开源的羊驼家族,无一幸免。
而针对一些具体问题,大模型的安全机制同样没能防住。
生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。
但团队并没有公开全部的prompt,所以这是否意味着这一问题已经得到全面修复,仍不得而知。
论文地址:https://llm-attacks.org/zou2023universal.pdf参考链接:[1]https://www.theregister.com/2023/07/27/llm_automated_attacks/[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
猜你喜欢