研究资料库

CompMusic的大部分工作集中于研究五种资料库(Serra, 2014),它们中的大部分会被Dunya使用。这些研究资料库并不是固定不变的,它们是来自不同来源,会演变和增长的数据集合。从这些资源库中我们建立了固定的测试集合,用来进行特定的实验。以下是我们现有的每个研究资源库的组成部分的链接

南印度古典音乐

  • 音频收藏:从不同来源获得的音乐会的音频录音。其中大量的录音来自Charsur数字工作站。
  • 可编辑元数据:每个音频录音都有可编辑信息,它们被存储和组织在MusicBrainz的Carnatic-Dunya收藏中。这部分信息一直受到精心维护。
  • 上下文信息:在我们的音频收藏中所使用的关于音乐概念和实体的信息,它们来自WikipediaKutcheris.com
  • 歌词:歌曲的歌词,它们来自音频收藏和Sahityam.net
  • 乐谱:音频收藏中歌曲对应的乐谱,它们来自Dr. Shivkumar Kalyanaraman主持的档案。这些乐谱被人工转换成机器可读的格式。
  • 社区信息:社区的讨论和评论,来自Rasikas

北印度古典音乐

  • 音频收藏:从不同来源(主要是商业来源)获得的音频录音。
  • 可编辑元数据:每个音频录音都有可编辑信息,它们被存储和组织在MusicBrainz的Hindustani-Dunya收藏中。这部分信息一直受到精心维护。
  • 上下文信息:在我们的音频收藏中所使用的关于音乐概念和实体的信息,它们来自Wikipedia
  • 歌词和乐谱:音频收藏中歌曲对应的歌词和乐谱,它们来自Swarganga Music foundation

土耳其玛卡姆音乐

  • 音频收藏:从不同来源(主要是商业来源)获得的音频录音。
  • 乐谱收藏:包括纯文本文件、MusicXML文件和MIDI文件的乐谱收藏,它们可在Github上获得。
  • 可编辑元数据:每个音频录音都有可编辑信息,它们被存储在MusicBrainz上。这部分信息一直受到精心维护。

京剧音乐

  • 音频收藏:主要从商业出版获得的音频录音。
  • 可编辑元数据:每个音频录音都有可编辑信息,它们被存储和组织在MusicBrainz的Dunya Beijing Opera数据库里。这部分信息一直受到精心维护,并保留了原始的中文版信息和脚本。每个发行版本、录音、作品、艺术家、以及伪发行版和别名都有对应的[汉语拼音]标注。这些元数据可以通过Dunya API,使用录音在MusicBranz上的唯一标识符(MBID)被轻松的访问到。
  • 歌词:歌词通过网络上的开放数据集获得,主要来自京剧艺术中国京剧戏考
  • 乐谱:乐谱收藏由商业出版的打印版本组成。这些研究所需的乐谱将被转换成机器可读的格式,并保留其原始的简谱记谱法。
    • 《京剧曲谱集成》,10册,上海:上海文艺出版社,1998
    • 《京剧曲谱精选》,2册,上海:上海音乐出版社,1998–2005
    • 《中国京剧流派剧目集成》,21册,北京:学苑出版社,2006–2010

北非安达卢斯音乐

  • 音频收藏:来自我们的北非安达卢斯合作伙伴Amin Chaachoo的个人收藏的音频录音。所有这些录音都被上传至Internet Archive的在线数据中。
  • 可编辑元数据:每个音频录音都有可编辑信息,它们被存储在MusicBrainz上。这部分信息一直受到精心维护。不过,有一些文化特定的元数据无法被存储在MusicBrainz上,比如nawba、tab'、mizán、曲式以及每个段落的起始和结束时间标记。这些元数据被存储在我们自己的数据集中,它们可以通过Dunya API,使用录音在MusicBranz上的唯一标识符(MBID)被轻松的访问到。
  • 歌词:资源库中每个北非安达卢斯音乐录音对应的歌词,它们来自Mehdi Chaachoo (Imprimerie Al Khalij Al Arabi, Tetouan, Morocco, 2009)的歌集"Diwan Al-Ala",并且通过人工听所有录音进行了筛选。
    • TSV和JSON格式的第一版歌词可以从这里获得
    • 也可以通过我们的Dunya API进行访问
  • 乐谱:资源库中每个北非安达卢斯音乐录音的乐谱,由我们的合作伙伴,北非安达卢斯音乐学家Amin Chachoo记谱。