乐音特征识别技术的发展和应用研究

known 发布于 2025-07-26 阅读(440)

摘  要:乐音是构成音乐的核心元素。乐音识别是音乐识别的核心工作。首先对“声音”“音频”“音乐”“乐音”等若干概念进行了定义,然后从狭义和广义两个方面分析了乐音识别的主要任务和基本流程,无论是狭义还是广义的乐音识别,单音基本特征的提取和识别,都是基础内容。重点展望了乐音识别技术的发展趋势,其三种基本脉络分别为提高非复调单音基本特征的识别效率、优化非复调多音符特征的提、拓展复调的识别和提取。最后在音乐喷泉控制器中实现了乐音特征的自动提取。研究结果可为乐音识别技术研究与系统应用提供参考。

关键词:乐音识别;特征提取;机器听觉;音符分割

中图分类号:TN912.34      文献标识码:A 文章编号:2096-4706(2020)06-0001-04

Abstract:Musical sound is the core element of music. Music recognition is the core of music recognition. Firstly,some concepts such as “sound”,“audio”,“music” and “musical sound” are defined,then the main tasks and basic processes of musical sound recognition are analyzed from the narrow sense and the broad sense. No matter the narrow sense or the broad sense of musical sound recognition,the extraction and recognition of the basic features of single sound are the basic contents. This paper focuses on the development trend of music recognition technology,and its three basic venation are to improve the recognition efficiency of the basic features of non polyphonic single tone,optimize the extraction of non polyphonic multi note features,and expand the recognition and extraction of polyphony. Finally,the automatic extraction of music features is realized in the music fountain controller. The research results can provide a reference for the research and system application of music recognition technology.

Keywords:music recognition;feature extraction;machine hearing;note segmentation

0  引  言

音乐是全人类共通的语言,包含了大量的内容信息。音乐识别是对包含音乐的音频文件进行分类、识别、音频流分割、数据检索和内容分析等一系列工作的总称,本质上是基于内容的音频识别和处理,具有高度的复杂性。

运用计算机等技术对声音和音乐进行分析和理解,被称为“计算机听觉”(Computing Audition,CA),也可以被称为“机器听觉”(Machine Listening,ML),音乐由乐音和噪音组成。乐音是构成音乐的核心元素,因此乐音的识别技术也是计算机听觉的核心部分。

关于乐音和语音的关系,研究人员持有不同观点。一种观点认为,计算机听觉中只针对数字化的声音和音乐,语音则是另外一个独立的领域。另一种观点认为,乐音识别是语音识别的一个分支。事实上,乐音识别的理论和实践都和语音识别有许多共通或相似之处。但是乐音有其自身的特殊性质,使其与一般的语音得以区分:(1)乐音可以用相对严格的数学模型进行表述,其规范性高于人声语音;(2)乐器依照系列音符序列震动而产生的乐音具有高度的声学相似性和一致性,其个体差异小于人声语音;(3)乐音处理可以针对基于钢琴全部音域的88个音符做分割、识别,具有更高的可行性;(4)除了针对音调、响度和音色之外,还对音高、时值、音量、唱名及节奏等特征进行研究。

2018年,在河南省科技厅科技研发专项的资助下,对国外乐音识别技术的发展、趋势及有关产业前景进行研究。对国内乐音识别技术的应用现状进行梳理,结合音乐喷泉控制器等实际应用场景进行相关技术的完善和应用测试。

1  乐音的基本概念

在诸多文献中,关于乐音和乐音提取的许多概念交错混杂。本文试图在此理清其中的基本概念。

声音,是由物体振动产生的声波。是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。

音频,即带有语音、音乐和音效的有规律的声波的频率、幅度变化信息的载体。

音乐,是由有组织的乐音来表达人们思想感情、反映人类现实生活情感的艺术,可以分为声乐和器乐两大类型。

乐音,发音物体有规律的振动而产生的具有固定音高的音称乐音。乐音是音乐中所使用的最主要、最基本的材料,音乐中的旋律、和声等均由乐音构成。从声学角度分析,乐音有三个要素:音调(音高)、响度(音强)、音色,也可以用基频、振幅和倍频来表示。

2  乐音识别的主要任务和基本流程

综合上述基本概念可知,乐音识别的概念可以有狭义和广义的理解。

狭义的乐音识别,主要是对单音音频进行基本特征的提取和识别。狭义的乐音识别产出的结果是音高、响度、音色信息。

广义的乐音识别则涵盖了自动乐音标注的全部内容,包括单音的音符识别、音高估计,多音符的节拍与节奏识别、旋律与和声提取,复调的多基频估计等多个方面。广义的乐音识别产出的结果就是音频的内容信息,可供音频信息检索使用。其关系如图1所示。

综上可以发现,无论是狭义还是广义的乐音识别,单音基本特征的提取和识别都是基础内容。本文讨论广义的乐音识别技术的发展和应用。

3  乐音识别技术的发展

乐音识别技术的发展主要体现出三种基本脉络。

3.1  提高非复调单音基本特征的识别效率

如前述概念所定义的,“非复调”就是指只有一个声部的音乐,即同一时刻只有一个旋律发音。单音基本特征包括单音的音高、响度和音色。单音基本特征的提取是乐音识别的基础,而单音基音(音高)检测技术则是基础中的关键。这里主要介绍单音音高检测技术。

现有的单音音高检测技术日益丰富。常见的基音提取技术有以下三种技术途径:

(1)时域估计。直接由语音波形来估计基音周期,常见的有自相关(Autocorrelation)算法、并行处理算法、平均幅度差算法、SIFT滤波器算法等;

(2)时/频域变换法。它是一种将音频信号变换到频域或者时域,用以估计基音频率的方法。首先利用同态分析方法将声道的影响消除,得到属于激励部分的信息,然后估计基

音频率。最常用的就是小波变换和倒谱法。后者包括线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC)和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等;

(3)混合法。先提取信号声道模型参数,然后利用它对信号进行滤波,得到音源序列,最后再利用自相关法或者平均幅度差法求得基音估计值。

当前的单音基音检测技术针对非复调的单音符音高识别,已经实现了较高的准确率,并实现了较好的适应性和鲁棒性。

3.2  优化非复调多音符特征的提取

多音符特征主要包括旋律、节奏等。提取旋律的主要方法大体可以分为三类:(1)基于歌声分离的旋律提取法(Singing Separation based Melody Extraction):根据音乐信号的波动性和短时性特点进行旋律特征的增强,结合自相关算法提取主旋律线;(2)基于数据驱动的旋律提取法(Data Driven Melody Extraction):仅仅依靠统计特性和分类手段,处理多音符的旋律特性。(3)基于音高显著性的旋律提取法(Pitch Salience based Melody Extraction):即在每一个音频帧上进行音高和旋律包络线提取。

提取旋律的具体实现技术:经典信号处理、基于统计理论、基于信号特征建模、基于支持向量机(SVM)。

提取节奏的主要步骤:音符起始点检测、多音符速度检测、节拍模式检测、小节线识别、节奏型识别。其中,音符起始点检测的主要实现手段已经从基于信号处理的手段发展为以人工神经网络分类和机器学习为主的检测方法;多音符速度检测则是基于信号处理和分解,开展子空间内的信号周期性估计;小节线识别主要是基于周期性的强弱拍序列估计,有研究者运用深度神经网络通过音乐特征强化学习得到拍子结构;节奏型识别主要是进行多种音乐类型的模式匹配,有研究者通过鼓及其他打击乐器的节奏信息来识别节奏型。

3.3  拓展复调的识别和提取

复调音乐包含两条以上的独立旋律。识别复调主要是区分并提取同一时刻存在多个旋律同时发出的音,以音高估计为主。复调乐音存在多个音在频谱上的重叠,带来了谐波偏移和谐波重叠的双重困难。最早于20世纪70年代由Moore等人在斯坦福大学完成,当时能够识别2个同时发声的音符。

复调识别的技术途径也可以分为基于信号处理、基于统计处理和基于模型,具体实现过程可以分为迭代估计和联合估计。其中,迭代估计是通过逐一提取复调中的音高,锁定某一帧中最突出的音,抑制与之相关的其他音的信息,在剩余频谱中重复上述过程来实现;联合估计是基于同时估计一组音高的可能性展开测算,尽管无须多轮次迭代的提取和抑制,但是需要通过基于一组单音估计的置信度函数来表征多音的置信度,常通过贝叶斯模型、最大期望算法等统计学手段加以实现。

4  实  验

以喷泉实验传统工业控制为基础,结合乐音特征识别技术、计算机仿真技术和PLC控制技术,实现音乐韵律库的可视化自动编辑、计算机实景仿真和PLC直接控制工业喷泉,达到音乐对喷泉的智能控制

软件系统输入端对音频信号进行识别、译码和编码、短时傅立叶变换,以及自动和人工辅助生成韵律库,在通过2D(如图2所示)或是3D(如图3所示)的实景效果仿真检核后,把韵律输出到PLC可编程电路控制器。PLC根据水型组态规则控制潜水泵、电磁阀、水下彩灯和变频器等执行机构,对喷泉进行控制。喷泉的造型、灯光的变化、音乐的旋律同步,使喷泉水型、灯光及色彩的变化与音乐高低起伏完美结合,渲染出音乐生动、活泼、激昂、悲伤、婉转等各种情绪变化。多感官引起人体联觉效应,突出音乐喷泉的美好体验和感受。

音乐喷泉控制器,不仅是软件和硬件的结合,也是虚拟与现实的结合,更是人类心灵与艺术的结合。

5  结  论

经过多年发展,乐音识别技术的发展体系渐成,日益完备。在单音的提取和识别这一基础之上,已经发展衍生出对单声部旋律、多声部复调的提取和识别技术,其中囊括了对音色、节奏、速度、响度、和声等多方面的识别对象。乐音识别技术的应用场景非常广泛,尤其是在面向互联网海量的数字音乐资源时,可以对数字音乐内容进行高效准确的理解和分析。

参考文献:

[1] 张一彬,周杰,边肇祺,等.基于内容的音频与音乐分析综述 [J].计算机学报,2007(5):5712-5728.

[2] DUBNOV S.Computer audition:an introduction and research survey [C]//Proceedings of the 14th ACM International Conference on Multimedia,Santa Barbara,CA,USA,October 23-27,ACM,2006.

[3] 音乐大咖.关于音乐组成的基本定义 [M].北京:中央音乐学院出版社,2000.

[4] 黄力民.乐音体系的数学原理 [J].自然杂志,1989(3):196-204+240.

[5] 李伟,高智辉.音乐信息检索技术:音乐与人工智能的融合 [J].艺术探索,2018,32(5):112-116.

[6] 徐国庆,杨丹,王彬洁,等.乐音识别方法及应用 [J].计算机应用,2005,25(4):968-970.

[7] 李伟,李子晋,高永伟.理解数字音乐——音乐信息检索技术综述 [J].复旦学报(自然科学版),2018,57(3):271-313.

作者简介:孙梦青(1984-),女,汉族,河南郑州人,讲师,硕士,研究方向:音乐理论。

标签:  乐音 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。