背景资料

理解音乐是什么以及它的作用方式并建立模型,是声音和音乐计算领域的核心问题。它的基本目标是对于音乐理解的整个过程建立真实有效的计算模型,包括从声音和结构感知到人类与音乐相联系的高层次概念。这种研究趋向于定量分析,实质上采用简化论,把一种现象拆解为独立的部分和维度,然后相对孤立的研究它们。比如在音乐感知模拟中,我们对于节奏解析、旋律识别和和声提取等分别开发孤立的计算模型,而它们各自都有比较严重的局限性。这种方法忽视了并且无法利用不同音乐维度之间的交互性(例如声音和音色、节奏、旋律、和声、和声节奏以及感知到的分段结构等之间的关系)。有可能当我们的研究能设法超越这种方式,并且开始建立能够解决音乐许多方面复杂的相互作用的多维度模型的时候,计算音乐感知学的“质的飞跃”才会成为可能。

目前我们能够从音乐信号中识别并提取的信息,和人类与音乐相联系的具有语义意义的高层次概念之间还有很大的差距。目前通过机器学习等方法试图缩小这种“语义鸿沟”的努力仅仅取得了很小的进展。其中一个基础的原因可能来自当前采用的相对严格的自下而上的方法,也就是先从音频信号中提取特征,然后聚合这些特征来计算更高层次的特征和标签。这个不足之处正在逐渐被认识到,未来几年我们可能会看见这样一种增长的趋势,也就是将高层次的期望(比如说[Huron, 2006])和(音乐)知识整合到音乐感知模型中。这反过来也为音乐学家、心理学家等其它学科的研究者,带来了进入这个领域并提供宝贵知识的丰富机会。

理解音乐,远不止于将输入的声波流解码和分析成为起始点、音符、旋律、和声等更高层次的对象。音乐深植于一个丰富的文化、历史、商业和社会的语境之中,它们影响着音乐是怎样被理解和归类的。也就是说,收听者给一段音乐赋予的很多属性或者类别,不能够仅仅用音频信号本身的内容所解释。从而我们可以清楚的发现,高质量的自动音乐描述和理解只有通过补充音乐信号之外的信息源才能实现。目前的音乐信息检索(Music Information Retrieval, MIR)研究正在通过使用互联网作为一种关于音乐的“社会”信息的来源(“社区元数据”),对这个方向进行最初的尝试。未来应该会有更过更全面的对于这种语境层面的研究和建模。

为了尝试描述当前的研究状况,我们可以区分几种建立音乐计算模型的不同方式。最普遍的一种方法就是音乐信息处理,它主要基于数据建模,从数据库开始使用信号处理和机器学习的技术建立模型。另一种是计算音乐学的方式,它建立的模型来自于音乐理论,这个理论有全面的体系,可以帮助理解理论本身以及它的预测和范围。还有感知音乐学的方式,它的目标是对音乐感知建立理论。它意图通过对与收听和表演音乐有关的心理活动建立体系,从而理解音乐感知和音乐表演。最后在人机交互领域当中,我们可以使用音乐交互研究以及最近的文化计算范式,作为将用户和其语境加入到音乐建模当中的一种方式。

diagram