AI通过音频和歌词识别泰国乡村音乐

Luk thung是第二次世界大战后不久出现的一种流行的泰国民间音乐子体,由诗歌歌词组成,通常用独特的颤音演唱,伴随着传统乐器如khene(口琴),phin(琵琶)和saam sai sai (小提琴)。它的审美在音乐世界中是独一无二的,它可以预见地将西方流派训练的音乐分类算法绊倒。这就是为什么泰国朱拉隆功大学的研究人员研究了一种能够从歌词和音频中识别特定类型的luk thung歌曲的系统。

“Luk thung ......是最突出的类型之一,拥有来自农民和城市工人阶级的大量倾听者,”共同作者写道。“为了在泰国音乐界推荐个性化音乐,在数十万首歌曲中识别Luk thung歌曲可以减少错误地推荐给非Luk thung听众的机会。”

研究人员的系统包括两个模型 - 一个分类歌词,另一个分类音频 - 进入最终分类器,汇总从两个模型中学习的中间特征。为了训练他们,该团队编制了1985年至2019年期间10,547个泰语歌词和音频的数据集,以及表示“音乐专家”添加的情绪,节奏,乐器的标签。他们接下来使用以下方法构建了基于单词的功能。从歌曲的开头到结尾的整个歌词,对于每首歌曲,他们从合唱部分的音频文件中摘录了10秒的剪辑。

由于luk thung歌曲跨越方言和区域词汇,研究人员选择了一种“词袋”方法来进行歌词分类,其中一个文本(如句子或文档)被表示为其单词的包(multiset)而不考虑用于语法或单词顺序。至于音频模型,它被设计用于学习歌曲频谱图的音质和时间特性 - 信号频率变化的视觉表示 - 它被摄取。

那么该模型的表现如何?嗯,根据研究人员的说法,他们的三组分方法“基本上”提高了luk thung分类的整体准确性。此外,他们表示,它非常适合分类流媒体歌曲和自动生成luk thung歌曲的综合列表以供将来推荐,以及研究luk thung音乐随时间的演变。

“乡村歌曲,包括luk thung - 在歌词中使用的词语分布方面有一些相似之处。这个问题可以用文档级而不是单词级别的表示来解决......主唱可能是使Lukthung与其他类型不同的主要剩余决定因素。因此,将歌声与乐器隔离并设计特定于声乐的滤波器可能有利于改善分类结果。“