Facebook研究表明经过预先训练的AI模型可以轻松适应新语言

多语言屏蔽语言建模涉及在多种语言的文本上训练AI模型,并且该技术已被广泛使用。3月,一个团队引入了一种可以共同学习属于30多个不同家族的93种语言的句子表示形式的体系结构。但是,大多数以前在语言建模方面的工作都研究了跨语言迁移,并使用跨单个语言数据集的共享词汇。相比之下,Facebook研究人员最近着手探讨是否可以使用来自非常不同领域的文本来实现语言知识的转移。

在本周于预印服务器Arxiv.org上发表的一篇论文中,Facebook AI和约翰霍普金斯大学的科学家详细介绍了不同的掩盖语言建模预训练方法对跨语言迁移的影响。他们说,他们已经发现证据表明,即使仅共享一小部分参数(有助于控制整体模型性能的变量),通用表示形式也可以在没有任何共享词汇或领域相似性的预训练模型中出现。实际上,他们声称仅通过共享参数,预训练就可以将相似的单词和句子映射到相似的隐藏表示形式。

在数个实验过程中,研究人员试图评估几种不同的跨语言传输任务的性能,并找出在使模型成为多语言模型方面发挥巨大作用的因素。此外,他们试图确定像Google的BERT这样的独立培训的单语种模型是否会跨语言学习类似的表示形式。

该团队报告说,参数共享是性能中最重要的因素,并且单词级别,上下文单词级别和句子级别的AI模型表示确实可以与简单的映射保持一致。他们说,这最后的发现提供了关于为什么仅参数共享足以使多语言表示形式出现在多语言屏蔽语言模型中的见解。

该论文的合著者写道:“我们发现,使用不同语言训练的单语模型在没有相同参数的情况下,与相同语言的上限相比,彼此之间的对齐方式令人惊讶地良好地对齐。”对未来的工作。“(这表明)应该有可能在不增加额外培训的情况下使经过预先训练的[模型]适应新语言,并且有可能可以更好地调整独立训练的表示形式,而不必共同训练所有(非常大的)未标记数据,可以收集。”

该工作建立在Facebook在自然语言处理方面的广泛工作之上,其中一些工作在上个月的博客文章中进行了详细介绍。这家技术巨头的word2vec模型使用原始音频来改善语音识别,而其自我监督模型ConvLM则可以在其训练词典之外的地方高精度地识别单词。在一项相关的开发中,Facebook最近展示了一种机器学习系统-Polyglot,该系统可以在给定语音数据的情况下以多种语言生成新的语音样本,并且该公司的研究人员设计了增强Google BERT语言模型并达到超越州立语言水平的性能的方法。流行的基准数据集的最新结果。