MIT CSAIL的TextFooler生成对抗性文本以增强自然语言模型

人工智能和机器学习算法容易受到对抗性样本的攻击,这些对抗性样本与原始样本有所不同。随着自然语言模型能够生成类似人类的文本,这尤其成问题,因为它们对恶意的参与者具有吸引力,这些恶意的参与者会利用它们来产生误导性的媒体。为了追求一种能说明对抗性文本可能在多大程度上影响模型预测的技术,麻省理工学院计算机科学与人工智能实验室(CSAIL),香港大学和新加坡科学技术研究局的研究人员开发了TextFooler,用于合成对抗性文字示例的基准框架。他们在论文中声称它能够成功攻击三种领先的目标模型,包括Google的BERT。

“如果这些工具容易受到有目的的对抗攻击,那么后果可能是灾难性的,”麻省理工学院博士学位的狄金说。学生和论文的主要作者,他指出TextFooler产生的对抗示例可以提高在其上训练的AI模型的鲁棒性。“这些工具需要有有效的防御方法来保护自己,而要建立这样一个安全的防御系统,我们首先需要研究对抗方法。”

研究人员断言,除了能够愚弄AI模型之外,诸如TextFooler之类的自然语言“攻击”系统的输出还应满足某些标准:人类预测的一致性,使得人类预测保持不变;语义上的相似性,使得精心制作的示例与来源具有相同的含义;和语言流利度,这样生成的示例看起来自然而合乎语法。即使没有可用的模型体系结构或参数(影响模型性能的值),TextFooler也会满足这三个条件,即黑盒方案。

它通过识别目标模型中最重要的单词并用语义上相似且语法正确的单词替换它们,直到更改预测来实现此目的。TextFooler应用于两个不同的任务-文本分类和包含(句子中文本片段之间的关系)-目的是更改分类或使原始模型的包含判断无效。例如,假定输入“在不可能的情况下投放的角色与现实完全疏远”,TextFooler可能会输出“在不可能的情况下投放的角色与现实完全疏远”。

为了评估TextFooler,研究人员将其应用于具有各种属性的文本分类数据集,包括新闻主题分类,虚假新闻检测以及句子和文档级别的情感分析,其中平均文本长度从数十个单词到数百个单词不等。对于每个数据集,他们在生成语义上类似于测试集的攻击示例以攻击那些模型之前,在训练集上训练了上述最新模型。

该团队报告说,在对抗性示例中,他们设法将所有任务中几乎所有目标模型的准确性降低到10%以下,并且只有不到20%的原始单词受到干扰。即使是BERT,与其他测试模型相比,它的性能都比较强健,TextFooler在分类任务上的预测准确性也降低了约5到7倍,在包含任务中的预测准确性也降低了约9到22倍(目标是判断是否句子可能来自包围,矛盾或中立关系。

Jin说:“该系统可用于或扩展为攻击任何基于分类的NLP模型,以测试其健壮性。”“另一方面,生成的对手可用于通过对抗训练来提高深度学习模型的鲁棒性和泛化能力,这是这项工作的关键方向。”