探讨说话人识别研究的难点:特征提取的方法 |
2014-01-05 18:16 作者:武光利 来源:硅谷网 HV: 编辑: 【搜索试试】
|
|
【硅谷网文】据《硅谷》杂志2012年第19期刊文,说话人识别是语音识别的一个重要的分支,是当前的研究热点之一。首先介绍说话人识别的基本原理,然后介绍说话人识别常用的特征参数和分类方法,最后探讨说话人识别研究的难点。
关键词:说话人识别;特征提取;分类方法
说话人识别是从说话人所发语音中提取出说话人是谁的信息的过程。根据说话人识别的目标,可分为说话人辨认和说话人确认。1)说话人辨认:根据给出的一段语音,判断是已知的N个人中的哪个人说的,所要解决的是“你是谁”的问题。如果这个人一定包含在这N个人中,则称为“闭集”否则,称为“开集”。2)说话人确认:根据给出的一段语音,判断是否是某个特定人说的,所要解决的是“你是否是你所声明的那个人”的问题。根据说话人识别系统的工作模式,可将其分为与文本有关和与文本无关的两种。
1说话人识别的基本原理
图1给出了说话人识别系统框图。建立和应用这一系统可以分为两个阶段[1],即训练阶段和识别阶段。在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。对于说话人辨认来说,所提取的参数要与训练过程中的每一人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。对于说话人确认而言,则是将从输入语音中导出的特征参数与其声音为某人的参考量相比较,如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。
图1说话人识别系统
2说话人识别常用的特征
一般而言,说话人所发出的语音信号中既包含说话人所要表达的语音信息,又包含说话人本人特有的个性特征。按照参数的稳定性,说话人特征参数可大致分为两类[2]:一类是说话人生理决定的固有特性(例如,声道构造的个性差异等),主要表现在语音的频率结构上,代表性的特征参数有基音和共振峰。这类特征不易模仿,但容易受健康的影响。另一类是声道运动的动态特征,也就是发音方式、发音习惯等。主要表现在语音频率结构的时间变化上,包含了特征参数的动态特征,这类特性相对稳定却比较容易模仿。其中倒谱系数反映了声道的共振性能,它是目前普遍采用的说话人特征参数。常用的倒谱系数有:线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。为了提高识别率,人们对传统的提取方法作了许多改进。如组合参数法,采用小波变换提取特征参数等等。
3说话人识别主要的分类方法
对于说话人识别系统,特征被提取出来以后,需要用识别模型为说话人建模,并对特征进行分类,以确定属于哪一个说话人。所谓的识别模型,是指用什么模型来描述说话人的语音特征在特征空间的分布。目前常用的模型大体上可以分为参数模型,非参数模型,人工神经网络模型(ArtificialNeuralNetwork,简称ANN)以及支持向量机(SupportVectorMachine,简称SVM)。参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。典型的参数模型包括高斯混合模型(GaussianMixtureModel,简称GMM)和隐马尔可夫模型(HiddenMarkovModel,简称HMM)。而非参数模型是指说话人模型是由语音特征经过某种运算直接得来。典型的非参数模型是模板匹配方法和矢量量化模型(VectorQuantizationModel,简称VQ)。下面就分别简要介绍这几种分类模型。
1)矢量量化模型[3]
基于矢量量化的说话人识别系统有两个步骤:一是利用每个说话人的训练语音,建立参考模型码本。二是对待识别话者语音的每一帧和码本码字之间进行匹配。将每个待识别的说话人看作是一个信源,用一个码本来表征,码本是从该说话人的训练序列中提取的特征矢量聚类而生成,只要训练的数据量足够,就可以认为这个码本有效的包含了说话人的个人特征,而与说话的内容无关。识别时,首先对待识别的语音段提取特征矢量序列,然后用系统已有的每个码本依次进行矢量量化,计算各自的平均量化失真。选择平均量化失真最小的那个码本所对应的说话人作为系统识别的结果。
2)隐马尔科夫模型[4]
HMM模型的优点在于它既能用短时模型状态解决声学特性中相对稳定段的描述,又能用状态转移规律刻画平衡之间的时变过程,所以能统计地吸收发音的声学特性和时间上的变动。但是,HMM模型的分类能力比较弱,而且对噪声的鲁棒性较低,所以很多在实验室里具有很好识别性能的基于HMM的说话人识别系统,在实际环境下识别性能会显著降低。另外不同干线的话音质量差异,以及通话环境的噪音等等,都严重影响说话人识别系统性能。
3)高斯混合模型[5]
由于每一个说话人的语音特征在特征空间中都形成了特定的分布,所以可以用这一分布来描述说话人的个性。高斯混合模型使用多个高斯分布的线性组合近似说话人的特征分布,将最能够产生测试语音特征的说话人分布模型所对应的说话人作为识别结果。对于高斯混合模型,训练时,为每一个人的语音建立一个模型,训练的目的本质上是估计这个模型参数的过程,当所有人训练结束后,保留每个人对应的参数;识别时,将未知语音与每个人的参数相结合,求出与每个人相对应的似然函数,其中对应最大似然函数的说话人被认为是识别结果。
4)神经网络模型[6]
人工神经网络可在一定程度上模仿人脑的功能,它为说话人识别提供了一个新的途径,说话人识别使用过的神经网络类型较多。说话人识别使用的前向神经网络多为BP网络和RBF网络,而基于逐级判决思想,将单个神经网络进行组合而成的级联神经网络也已应用于说话人识别。目前,使用神经网络进行说话人识别所面临的问题是,如果使用一个网络作为分类器,当待识别的人群(N)改变时,网络的结构(至少输出神经元个数)将随之改变,需要重新对网络进行训练。
5)支持向量机[7]
支持向量机是机器学习方法的一种新方法。它被广泛的应用到手写体识别、文本分类、人脸检测等领域,并取得较好的效果。支持向量机是在统计学习理论的基础上发展起来的一种新的通用学习方法。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。支持向量机能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择、局部极小点和过学习等问题)。SVM已初步表现出很多优于已有方法的性能,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的性能。SVM正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技术的发展。
4结论
目前还没有很好的方法把说话人的特征从说话人的语音特征中分离出来,说话人是别的信息来源是说话人说的话,其语音信号既包含了说话人语音内容的信息,也包含了说话人的个性信息,是语音特征和说话人个性特征的混合体。
再下一步的研究中,可以根据语音信号处理知识提取更能描述语音个性的特征参数,并将几种说话人分类的方法结合起来,提高识别率。
|
|
|
|
【对“探讨说话人识别研究的难点:特征提取的方法”发布评论】 |
版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
|
|
|
|