Facebook详细介绍了wav2vec 使用原始音频来改善语音识别

自动语音识别(ASR)不仅是Apple Siri之类的助手的基础部分,还是Nuance Dragon之类的听写软件以及GoogleContact Center AI之类的客户支持平台的基础部分。它使机器能够解析关键短语和单词的发音,并使它们能够通过语调和音调来区分人。

也许毋庸置疑,ASR是Facebook研究的重点领域,Facebook的对话技术被用于支持Portal的语音识别,并且正在扩大AI在其平台上对内容进行分类的用途。为此,在今年早些时候的InterSpeech会议上,Menlo Park公司详细介绍了wave2vec,这是一种新颖的机器学习算法,可通过使用未经转录的原始音频作为训练数据来提高ASR准确性。Facebook声称它在一个流行的基准上获得了最先进的结果,同时使用的训练数据少了两个数量级,并且与基于领先的基于字符的语音识别系统Deep Speech 2相比,它的错误率降低了22%。

Wav2vec被提供在今年早些时候的一个扩展开源的建模工具包fairseq和Facebook表示,它计划使用wav2vec提供关键词识别和声学事件检测更好的音频数据表示。此外,它希望改进其现有系统,以主动违反社区准则来识别职位。

Facebook研究科学家兼软件工程师Michael Auli,Siddhartha Shah,Alexei Baevski和克里斯蒂安·菲根(Christian Fuegen)在博客文章中。“但这也是我们自我监督培训的长期愿景的一部分,这种方法利用了未标记的培训示例,并使我们能够超越为培训AI系统而专门收集和注释的相对有限的数据集。”

除了wav2vec之外,Facebook还展示了一种新的自我监督模型ConvLM,该模型在正确地识别其训练词典之外的单词方面具有最先进的性能,以及一种用于语音识别的轻量级序列到序列(seq2seq)模型。据报道比以前的工作更有效率,同时提供了更好的WER。两者均于9月在奥地利格拉茨的国际演讲中展出。

建筑物wav2vec

正如Auli及其同事在提交的论文中解释的那样,ASR系统通常在音频序列上以频谱图(随时间变化的频谱表示形式)和相应的文本进行训练。可以预见,要获得这些示例,需要手工标记大量音频数据,这将花费宝贵的时间和资源。相比之下,wav2vec是自我监督的,这意味着它将结合使用少量未标记数据和少量标记数据。

Wav2vec首先训练一个模型,以区分真实数据和一组干扰项样本,这有助于它学习在其上训练的音频数据的数学表示形式。一个编码器模型原始音频输入映射到矢量集(数字的阵列与对应于特征值),其中有关语音的30毫秒的每个向量盖,而一个上下文模型使用向量来产生它自己的表示覆盖到音频的第二。

有了这些表示形式,wav2vec接下来尝试通过从其训练的10秒音频剪辑中生成较短的10毫秒长的干扰子示例来解决一系列自我监督预测任务。对于这些干扰因素样本,原始音频将与剪辑中其他位置的部分交换出去,并且模型必须确定10毫秒版本中的哪个是正确的。

Wav2vec学会了这种方法,可以每秒从干扰物样本中辨别出准确的语音声音,每秒数百次,从而有效地成为其自己的转录器。预测任务还充当wav2vec自我监督的基础:自动生成不正确版本的语音示例以测试系统并评估其性能,从而无需手动注释训练数据。

培训和测试WAV2VEC

Facebook AI团队使用LibriSpeech数据集(来自公共领域有声读物的一个语料库)上不到1,000个小时的未标记语音示例对wav2vec进行了培训。接下来,他们使用wav2vec生成的表示,训练了大约WSH1语料库中大约81小时带标签语音的语音识别模型(这是《华尔街日报》大声朗读的集合)。

结果令人印象深刻。在Deep Speech 2上,Facebook的基于wav2vec的模型实现了2.43%的单词错误率(WER),而基线系统使用12,000小时(超过150倍)的转录数据训练后的3.1 WER相比,实现了3.1%的单词错误率,相对错误率。在随后的实验中,wav2vec训练的模型比标记版本的LibriSpeech产生的性能好于预训练,并且与缺少预训练表示的模型相比,WER改善了30%。

根据Auli及其小组的研究,这些结果表明,自我监督的技术可以将ASR功能扩展到资源有限的转录示例数据集中的低资源语言。他们写道:“这项工作的广泛意义与Facebook AI团队以及更广泛的AI社区对自我监督培训技术的追求有关。”“自我监督不仅在语音领域而且在该领域的几乎每个领域都在加速发展。朝着以无标签培训数据为规则而不是例外的未来过渡的最快方法将是通过持续的开放式协作科学。”

ConvLM和改进的seq2seq

除了wav2vec之外,Facebook研究人员最近还详细介绍了ConvLM,它使用字符级别的自我监督语言建模来处理不熟悉的单词,即使在单词之间缺少空格的语言(如日语和泰语)中也是如此。带有Python包装程序的独立ConvLM库现已公开可用,以及LibriSpeech数据集上训练有素的模型。

与大多数单词转录算法不同,后者通过计算所有单词的频率来定义词汇表,并且无法识别那些无法满足特定阈值的单词(例如名称或位置),而ConvLM采用了无词典方法。具体来说,它可以一次预测一个单词的整个单词,利用Facebook的wav2letter ++框架对数据样本的声学模型和公司用于语言模型训练的fairseq-py工具箱进行建模。

在测试中,Facebook AI研究人员表示,ConvLM可以正确识别出高达33%的非语音事件,从而获得清晰的语音,而没有背景噪声,并且与以前任何基于字符和无词典的ASR相比,它具有更高的WER和字符错误率模型。此外,他们说ConvLM通过执行单词建模来提高wav2vec的效率,单词建模是单词和字符之间的文本的中间表示。

更快的seq2seq模型

与ConvLM和wave2vec互补的是Facebook的用于语音识别的新seq2seq模型,该公司声称在不牺牲准确性的前提下,与以前的模型相比,其参数减少了75%。

关键是Facebook AI研究人员称之为时间深度可分离块,高效的内部连接结构以及可并行化的解码器模型。该架构经过精心设计,可根据输入序列的长度线性缩放,从而使语音识别中常见的长输入的效率更高。此外,当与卷积语言模型结合使用时,它可以在较小的设备上部署ASR,同时可以扩展到较大的自我监督和半监督学习算法。

这项最新的研究建立在Facebook在自然语言处理和ASR方面的广泛工作的基础上,最新的系统是在给定语音数据时能够产生多种语言的新语音样本的系统。Facebook在5月的一份报告中表示,其AI和机器学习系统现在每个季度从Facebook删除的400万以上仇恨言论中占65%。去年在F8开发者大会上,Facebook宣布将把自然语言处理(NLP)集成到Facebook Pages中,后者会自动从Page的收件箱中提取语言,以创建能够回答客户或关注者最可能提出的问题的AI。

在其他消息中,Facebook最近推出了Pythia,这是一个模块化的即插即用框架,使数据科学家能够快速构建,再现和基准化AI模型。Facebook AI和华盛顿大学的研究人员设计了各种方法来增强Google的BERT语言模型,并在流行的基准数据集上达到或超过最新结果的性能。Facebook于今年夏天初成立了AI语言研究联盟,以解决自然语言处理方面的挑战。

“在自然语言处理的最新进展中,特别是在机器翻译方面,我们已经看到使用自我监督的结果令人鼓舞。全球有大约6,500种语言在使用-并且超过50%的Facebook社区使用英语以外的其他语言-探索能够加速ASR开发的自我监督方法对于Facebook以及更广泛的AI来说都是重要的研究追求研究社区”。Auli及其同事写道。“这种对自我监督技术的强调,需要更少的标签培训数据,并且较少依赖于特定于语言的微调,这将有助于确保最新的ASR可以使所有人,包括低资源语言使用者受益-超越英语,走向更全球化的视野。”