Google的SummAE AI生成段落的摘要

机器总结文本的时间比您想象的要难,至少在摘要是抽象而不是提取的情况下。虽然提取仅需要连接句子,但是抽象涉及使用新颖句子进行释义的任务。最近,新闻领域已经取得了进展,这可能是由于可以在其上训练算法系统的大量语料库。但是,大多数其他写作形式的强大总结仍然是一个未解决的问题。

因此,Google Brain的一个团队研究了一个称为SummAE的抽象摘要系统,该系统基本上不受监督,这意味着它可以从少量的训练数据到看不见的文字示例进行概括。尽管无法概括出仅由五个句子组成的段落,但研究人员声称它在基线上有“显着”的改进,代表了在人类水平绩效方向上的“重要”一步。

数据集和代码以及最佳模型的配置设置可在GitHub上免费获得。

共同作者写道:“作为处理单文档[摘要]的第一批工作之一,我们提出了一种新型的神经模型-SummAE。”“因此,[我们认为]希望有一种模型能够自动抽象地总结文档,而几乎不需要监督。”

SummAE包含一个降噪自动编码器,该编码器在共享空间中对目标文本的句子和段落进行编码(即生成其数字表示)。在其输入之前带有指示是否要解码句子或段落的令牌的解码器的引导下,系统通过对编码段落中的每个句子进行解码来生成摘要。

研究人员发现,训练自动编码器的大多数传统方法都会产生冗长的多句子摘要。为了鼓励它学习脱离其原始表达方式的高级概念,该团队采用了两种去噪方法-随机掩盖记号和排列段落中句子的顺序-大大增加了训练示例的数量。他们还尝试了一个对抗性批评家组件,该组件可以区分句子和段落,此外还有两个预训练任务,鼓励编码人员学习句子在段落中的叙述方式。

研究人员在ROCStories上训练了SummAE的三种不同变体,这是一整套自成体系,多样化,非技术性且简洁的散文。他们将原始的98,159个培训案例分为三个独立的集合-培训集,验证集和测试集-并收集了三个人工摘要,每个摘要分别包含500个验证示例和500个测试示例。

在进行了100,000次预训练的训练步骤后,研究小组报告说,最佳模型明显优于基于召回性的针对抽烟评估的未成年人研究(ROUGE)上的基线提取句生成器,ROUGE是旨在评估自动汇总的一组度量。此外,他们说,在一项涉及通过Amazon Mechanical Turk招聘的评估人员的定性研究中,志愿者在80%的时间内对三种SummAE模型摘要之一进行了“流畅”和“与信息相关”的评估。

共同作者写道:“段落重建显示出一定的连贯性,尽管在神经生成模型中经常会出现一些歧义和事实上的错误。”“由于摘要是从与重建相同的潜在向量中解码的,因此对其进行改进可能会导致更准确的摘要。”