机器之心原创
作者:Sia
我们该有多担心?
新年伊始,ChatGPT 竟成了「恐怖分子」的帮凶?在为一位美国现役军人提供爆炸知识后,后者成功将一辆特斯拉 Cybertruck 在酒店门口引爆……
汽车爆炸现场画面,外媒视频截图
这并非科幻电影桥段,而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测,2025 年我们将迎来「第一起真实的 AI 安全事件」。
我们已经开始和另一种智能生命一起生活了,RobToews 写道,它跟人一样任性难测,且具有欺骗性。
巧的是,另份新鲜出炉的行业预测也指向同一问题。北京智源研究院在 2025 十大 AI 技术趋势中描绘了从础研究到应用落地再到 AI 安全的完整图景。值得划重点的是,AI 安全作为一个独立的技术赛道,被智源评为第十个趋势:
模型能力提升与风险预防并重,AI 安全治理体系持续完善。
报告点评道:作为复杂系统,大模型的 Scaling 带来了涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与 AI 的各方来说,都是一个值得持续探讨的议题。
AI 大模型安全,水深流急
2024 年,AI 大模型在实现跨越式发展的同时,也让我们清晰看到了安全的敏感神经如何被刺激挑动。
根据研究,AI 安全风险可以分为三类:内生安全问题、衍生安全问题和外生安全问题。
「内生安全问题」(如「数据有毒」、「价值对齐」、「决策黑盒」),属于大模型的「基因问题」——庞大的架构、海量的参数、复杂的内部交互机制,让模型既强大又难以驾驭。
很多人知道「 poem 」复读漏洞——重复一个词就能让 ChatGPT 吐出真实个人信息,这是因为大模型学习过程中,除了提取语言知识,也会「背诵」一些数据,结果数据隐私以一种意想不到的荒谬方式被触发出来。
Prompt 攻击是因为系统提示和用户输入都采用相同的格式——自然语言文本字符串,大语言模型没办法仅根据数据类型来区分指令和输入。
「越狱」手段也是层出不穷。从「奶奶漏洞」、「冒险家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技术,攻击者只需三次对话就有 65% 的概率绕过安全限制,让模型生成违禁内容。
Deceptive Delight 攻击示例,来源Palo Alto Networks
一年多前《经济学人》就开始讨论人工智能的快速发展既让人兴奋,又让人恐惧,我们应该有多担心?
2024 年初,中国社会科学院大学在研究报告中指出,安全科技将成为社会的公共品,并与人工智能并列为未来的两项通用技术。一年后,智源研究院再次呼吁关注安全治理印证了这一战略判断的前瞻性,AI 越强大,安全科技价值也在同步放大。
我们不可能扔掉利刃,放弃科技,唯有为其打造足够安全的刀鞘,让 AI 在造福人类的同时始终处于可控轨道。变与不变中,AI 安全治理或许才是 AI 行业永恒的话题。
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229786 电子证书1009 电子名片58 自媒体46414