神经网络把一张关于乌龟的照片看成了来复枪。一辆自动驾驶汽车从一个停车标志旁飞驰而过,只是因为一个精心制作的贴纸迷惑了电脑视觉。一副眼镜就把面部识别技术搞糊涂了,误以为某人是好莱坞女影星米拉·乔沃维奇(Milla Jovovich)。对人工智能进行黑客攻击成为了一种新的安全危机。
为了防止一些犯罪分子想要通过篡改数据集或现实环境来攻击人工智能,研究人员转向对抗性的机器学习研究。在这种情况下,研究人员对数据进行修改,从而欺骗神经网络和人工智能系统,让它们看到不存在的东西,忽略存在的东西,或者使得其关于分类对象的决策完全错误。
就像谷歌和纽约大学研究人员所做的那样,在一辆校车的照片上加上一层对人类来说无形的数据噪声,神经网络就会报告说,它几乎可以肯定那是一只鸵鸟。不仅仅是图像可以这样:研究人员已经将隐藏的语音指令嵌入到广播中,从而控制智能手机,同时不会让人们察觉。
虽然这类工作现在被描述为一种攻击,但从哲学角度来说,对抗性的例子最初被视为神经网络设计中的一个近乎盲点:我们假设机器以我们同样的方式看东西,它们用与我们相似的标准来识别物体。2014年,谷歌研究人员在一篇关于“神经网络的有趣特性”的论文中首次描述了这一想法,该论文描述了如何在图像中添加“扰动”元素会导致神经网络出现错误——他们称之为“对抗性示例”。他们发现,微小的扭曲就可能会骗过神经网络,使其误读一个数字或误将校车当成别的什么东西。这项研究对神经网络 “固有盲点”以及它们在学习过程中的“非直觉特征”提出了质疑。换句话说,我们并不真正了解神经网络是如何运作的。
加州大学伯克利分校(University of California, Berkeley)计算机科学教授唐恩?宋(Dawn Song)表示:“对抗性示例说明,我们对深度学习的原理及其局限性的理解仍然非常有限。”宋是四所大学联合进行对抗性研究的几位研究人员之一,他们共同开发了停车标志贴纸来干扰自动驾驶汽车。
华盛顿大学(University of Washington)计算机安全研究员厄尔伦斯?费尔南德斯(Earlence Fernandes)也从事停车标志研究,他表示:“攻击的范围很广,取决于攻击者处在机器学习模型生成过程的哪个阶段。” 费尔南德斯举例说,在开发机器学习模型时可进行训练时间攻击,也就是使用恶意数据来训练系统。他表示:“在人脸检测算法中,攻击者可能会用恶意数据对模型施以毒害,从而使检测算法将攻击者的脸识别为授权人。”
另一方面,推理时间攻击则是通过一系列算法——比如快速梯度符号法(Fast Gradient Sign Method,FGSM)和当前最优攻击方法(Carlini and Wagner)是两种最流行的算法——向模型显示精心制作的输入,从而迷惑神经网络。
随着人工智能渗透到我们生活的方方面面——驾驶汽车、分析视频监控系统、通过面部识别某人身份——对这些系统的攻击变得更加可能,也更加危险。黑客修改路边交通标志可能会导致车祸和人员伤害。对数据机器学习系统的细微改变也会导致人工智能系统做出的决策出现偏差。
但我们不应该过分担心。麻省理工学院的研究员安尼施·安塞也(Anish Athalye)指出,“据我们所知,这种类型的攻击目前还没有在被现实世界中的恶意组织所采纳过。但考虑到这一领域的所有研究,似乎很多机器学习系统都非常脆弱,如果现实世界的系统很容易就遭到了这种攻击,我也不会感到惊讶。”
安塞也自己的研究旨在使对抗性攻击更加健壮。一些被归为“标准”的攻击只从特定的角度进行,而另一些攻击则不管神经网络从什么角度观察物体或图像都可以进行。 “标准的对抗性例子是通过微调图像中的像素,从而将神经网络对目标图像的分类转移到其它类别——比如说把猫的图像归类为鳄梨沙拉酱。”他说,“一次又一次地重复这个过程,做出微小的改变,结果是有可能制作出一幅对人来说像一样东西的图像,却会让机器误一位完全不同的东西。”他说,研究表明,标准对抗性攻击是“脆弱的”,在现实世界中不太可能站得住脚。
因此,安塞也和他在麻省理工学院人工智能实验室LabSix的同事们开发了更好的示例,优化了攻击图像,使其不用考虑角度或距离问题都可起作用。他说:“我们还把它扩展到3D图像,这样你就可以有一个在人类看起来像乌龟的物体,但从机器角度观察却完全不同。”这其中就包括他的3D打印玩具龟,但在ImageNet分类器看来,它就像一把来复枪。
如果攻击只能以精确的角度起作用,或者干扰因素很容易被人类发现,那么攻击就没有什么用处。以自动驾驶汽车为例,它们往往通过依赖神经网络识别物体的计算机视觉技术来观察外部世界。这样的话,任何对抗性的招数都必须在每个观察角度起作用,也不会受到远近距离的影响,更不会被人类司机注意到,毕竟没有人能读懂一个被涂过油漆的交通标志。包括费尔南德斯(Fernandes)和宋(Song)在内的研究人员都成功地做到了这一点,他们使用不会模糊标识的细微油漆标记以及看起来像涂鸦的贴纸干扰路边的停车标志,却导致神经网络将“停止”解释为速度限制。
“从一个较高的层次看,这种攻击的方式是访问目标深度学习模型,然后运行一个算法来计算需要对物理对象进行何种编辑,从而使生成的图像从人类视觉看与某种原始物体相似,但对于机器学习模型来说完全是另一种东西,”费尔南德斯说。“在这种情况下,我们的算法输出需要在图像中添加的元素。在我们的例子中就是贴纸,所以我们把它们打印在纸上,然后简单地贴在一个路边的停止标志上。
这没有理由引起恐慌。费尔南德斯解释说,仅仅在停止交通标志上贴上这些贴纸是不会让自动驾驶汽车发生事故的。自动驾驶汽车会使用多个传感器和算法,不会就任何单一的机器学习模型做出决定。“因此,尽管我们的工作可以愚弄单一的机器学习模型,但这并不意味着这种愚弄就足以造成真实伤害,”他说。
开发对抗性的示例并非易事,通常需要搞清楚包括模型架构在内的神经网络技术细节,这往往称为“白盒”访问。也就是说,真正具有强大破坏性的攻击并不需要详细的神经网络信息;事实可能会证明,这些黑盒攻击对外部攻击系统更有用,因为它们可以应用到不同的神经网络。
现在需要开展工作,从而防止机器学习因其固有的弱点而变得无用。虽然已经有了很多的解决方案,但到目前为止还没有明确的防御措施。密歇根大学(University of Michigan)研究员凯文?埃克霍尔特(Kevin Eykholt)表示:“检测对抗性示例的防御措施,以及消除对抗性示例存在的防御措施,是相关研究领域的一个活跃领域。很多新防御被提出,而又以非常快的速度被打破。”他补充说:“在设计机器学习系统的时候不是盲目的设计系统,重要的是要注意并可能减轻对抗性攻击的特定风险,并考虑到一旦发生相关情况该做出何种反应。”
安塞也说,有一个想法很有希望,那就是训练神经网络,通过对抗性示例包含在训练数据中来提高识别神经网络的健壮性。他说:“通过这种方式,神经网络‘学会’对对抗性示例有一定的抵抗力。”
费尔南德斯说,在机器学习的核心发现这样的缺陷并不令人惊讶,因为系统通常在普及之前并不会经过良好的测试。“随着机器学习变得越来越普遍,安全研究人员会开始从对抗的角度来研究它,并发现其中一些可以利用的东西,这是很自然的,” 费尔南德斯如是指出。
这不仅是一个技术缺陷,也是一个哲学假设。首先,当攻击者可以自由操纵数据获取优势时,机器学习开发人员会假定训练数据和测试数据是相似的。第二,我们往往认为神经网络像我们一样思考,但实际上并不是如此;神经网络用来识别玩具龟的元素与我们所寻找的不同,而这种差异性正是攻击的突破口。费尔南德斯说:“神经网络是非常粗略地模拟人类大脑。试图将它们视为与我们大脑类似的运作方式,可能并不是思考它们的最佳方式。”