ChatGPT卷入爆炸案刷屏，AI安全正在成为最贵的学费-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT卷入爆炸案刷屏，AI安全正在成为最贵的学费

ChatGPT卷入爆炸案刷屏，AI安全正在成为最贵的学费

来源：机器之心Pro

2025-02-06 13:20:57

125

管理

机器之心原创

作者：Sia

我们该有多担心？

新年伊始，ChatGPT 竟成了「恐怖分子」的帮凶？在为一位美国现役军人提供爆炸知识后，后者成功将一辆特斯拉 Cybertruck 在酒店门口引爆……

汽车爆炸现场画面，外媒视频截图

这并非科幻电影桥段，而是 AI 安全风险正在文明身边真实上演的缩影。知名 AI 投资人 Rob Toews 在《福布斯》专栏预测，2025 年我们将迎来「第一起真实的 AI 安全事件」。

我们已经开始和另一种智能生命一起生活了，RobToews 写道，它跟人一样任性难测，且具有欺骗性。

巧的是，另份新鲜出炉的行业预测也指向同一问题。北京智源研究院在 2025 十大 AI 技术趋势中描绘了从础研究到应用落地再到 AI 安全的完整图景。值得划重点的是，AI 安全作为一个独立的技术赛道，被智源评为第十个趋势：

模型能力提升与风险预防并重，AI 安全治理体系持续完善。

报告点评道：作为复杂系统，大模型的 Scaling 带来了涌现，但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险，如何引入新的技术监管方法，如何在人工监管上平衡行业发展和风险管控？这对参与 AI 的各方来说，都是一个值得持续探讨的议题。

AI 大模型安全，水深流急

2024 年，AI 大模型在实现跨越式发展的同时，也让我们清晰看到了安全的敏感神经如何被刺激挑动。

根据研究，AI 安全风险可以分为三类：内生安全问题、衍生安全问题和外生安全问题。

「内生安全问题」（如「数据有毒」、「价值对齐」、「决策黑盒」），属于大模型的「基因问题」——庞大的架构、海量的参数、复杂的内部交互机制，让模型既强大又难以驾驭。

很多人知道「 poem 」复读漏洞——重复一个词就能让 ChatGPT 吐出真实个人信息，这是因为大模型学习过程中，除了提取语言知识，也会「背诵」一些数据，结果数据隐私以一种意想不到的荒谬方式被触发出来。

Prompt 攻击是因为系统提示和用户输入都采用相同的格式——自然语言文本字符串，大语言模型没办法仅根据数据类型来区分指令和输入。

「越狱」手段也是层出不穷。从「奶奶漏洞」、「冒险家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技术，攻击者只需三次对话就有 65% 的概率绕过安全限制，让模型生成违禁内容。

Deceptive Delight 攻击示例，来源Palo Alto Networks

一年多前《经济学人》就开始讨论人工智能的快速发展既让人兴奋，又让人恐惧，我们应该有多担心？

2024 年初，中国社会科学院大学在研究报告中指出，安全科技将成为社会的公共品，并与人工智能并列为未来的两项通用技术。一年后，智源研究院再次呼吁关注安全治理印证了这一战略判断的前瞻性，AI 越强大，安全科技价值也在同步放大。

我们不可能扔掉利刃，放弃科技，唯有为其打造足够安全的刀鞘，让 AI 在造福人类的同时始终处于可控轨道。变与不变中，AI 安全治理或许才是 AI 行业永恒的话题。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT搜索正式向所有用户推出：无需注册或登录

3小时前

ChatGPT 的最新功能可让用户为其赋予“健谈”和“Z 世代”等特质

3小时前