SynVAE AI将视觉艺术作品转化为旋律

联觉,估计是世界人口经历的1%至25%,是一种刺激一种感觉通路(如听觉)导致第二感觉通路(如视力)的非自愿经历的现象。例如,那些患有牙龈感的人会“听到”听起来像是一种颜色,而那些有词汇 - 味觉联觉的人则会在言语和品味之间产生关联。

在最近的一项研究显示该区域至少部分地启发,研究人员在阿姆斯特丹大学研究的AI系统-联觉变自动编码,或SynVAE -能够绘画等视觉艺术的乐句的映射特性(在MIDI文件的形式)。他们说,在定性试验中,人类评估员能够将MIDI文件与他们的缪斯匹配,准确度高达73%。

“艺术作为艺术家和观察者之间的信息流体验。然而,如果后者视力受损,则出现障碍,“研究人员写道。“克服这一障碍的一种方法可能是将视觉艺术(例如绘画)从难以接近的感官形态转换为可访问的感觉形式,例如音乐。”

为此,研究人员设计了一种AI架构,用于以无人监督的方式将数据从一种感觉形态转换为另一种感觉形态(即,没有成对的地面真实语料库)。他们从开源Behance艺术媒体和MNIST数据集中编辑了18万幅油画和水彩画,他们用这些数据集来教授视觉元素和音乐序列之间的SynVAE关系。

在几项评估中,人类志愿者的任务是使用三种描述符中的一种来分类图像的音调或情绪 - “可怕”,“快乐”或“快乐和平” - 通过聆听SynVAE的MIDI创作。结果表明,他们在大多数时间没有看到它的情况下正确地解释了艺术作品,这表明至少一些通过颜色和构图感知的情感可以被传达“用于复杂的数据”。

“[我们的工作证实了] ......视听的一致性不仅是理论上的,而且非常可感知,”研究人员写道。“正如我们的研究结果所示,可以高度确信SynVAE能够通过无监督学习机制将各种图像一致地转换为音乐的听觉领域。我们希望本研究中概述的方法将为评估无监督的跨模式模型提供坚实的基础,此外,SynVAE本身还可以跨感官界限更直观,更具包容性地访问视觉艺术作品。

“人工智能”是一个新兴的研究领域,由Adobe和谷歌等人开展,更不用说麻省理工学院的研究人员和世界各地的独立数据科学家。6月份的Adobe AI演示了一个人工智能系统,该系统学习绘画风格,以便在一分钟内复制艺术作品。最近,Nvidia演示了一系列算法--GigGAN--创造了从未存在的逼真风景图像。麻省理工学院 - 沃森实验室的研究人员构建了一个程序,允许用户上传任何照片并编辑所描绘的建筑物,植物群和固定装置的外观到他们内心的内容