一、基于并行PNN模型的说话人辨认研究(论文文献综述)
赵玮玮[1](2021)在《基于深度学习框架的与文本无关的说话人识别研究》文中研究指明说话人识别是指利用语音信号来判别说话人身份。说话人识别技术可以广泛用于国防安全、公安刑侦、金融、社保、智能终端等领域,因此具有重要的研究意义。本文重点对说话人识别领域中的文本无关说话人辨认展开研究,提出了两种文本无关说话人辨认算法:一种是结合说话人音色特征和性别、口音辅助特征的文本无关说话人辨认算法,另一种是基于多任务学习的文本无关说话人辨认算法。本文主要的贡献和创新点包括:(1)提出了一种结合说话人音色特征和性别、口音辅助特征的文本无关说话人辨认算法。目前的说话人辨认算法通常只采用音色特征进行分类,但是有研究指出,这类特征对音频退化的鲁棒性较差,单纯地采用这类语音特征将会限制模型的识别性能。此外,人类在说话人辨认存在困难时,除了音色特征,通常会挖掘说话人的一些其它信息作为辅助来进行识别分类。基于此,本文在音色特征的基础上,引入说话人的性别和口音信息作为辅助特征,结合音色特征和性别、口音辅助特征进行分类。算法基于注意力机制,设计了注意力网络,通过注意力网络将性别和口音信息嵌入到音色特征中以生成辅助特征。本文提出的结合音色特征和性别、口音辅助特征的说话人辨认算法是一种在说话人识别领域首次同时挖掘说话人的性别和口音信息,并将其和音色特征相结合进行分类的说话人辨认算法。实验结果证实了本文想法的正确性,即,除了常用的音色特征外,引入说话人的其它信息作为辅助特征将会有助于提高识别性能。(2)提出了一种基于多任务学习的文本无关说话人辨认算法。说话人辨认技术中的一个关键问题是如何提取说话人特有的语音特征进行识别,如果能提取得到反映不同说话人所特有的特点的语音特征,则这些特征将会有助于提高后续的识别分类性能,得到较好的辨认效果。有研究提出通过说话人确认的方法提取语音特征,该方法提取的语音特征能很好地反映说话人特性。受此启发,本文提出了一种基于多任务学习的说话人辨认算法。该方法搭建网络模型同时实现说话人确认和说话人辨认,通过说话人确认网络来辅助说话人辨认网络提取得到反映说话人特性的语音特征,进而提高说话人辨认准确率。
莫建烨[2](2021)在《基于机器学习的声纹识别研究》文中提出生物特征识别技术由于其便捷和安全性已经被广泛地应用在当今社会中,而语音作为一种重要的生物特征,蕴含了非常丰富的信息,且由于智能设备的普及,说话人语音的采集成本也非常低廉。因此,对说话人的语音进行分析具有重大的实际应用价值。本文主要讨论了基于深度学习的说话人的声纹识别,并拓展讨论了语音的情绪识别。声纹识别部分又分为说话人辨认和说话人确认两个任务,而语音情绪识别将直接处理为一个多分类的问题。为了利用不同注意力机制的优势,本文提出了一种双路径的注意力机制,同时应用了自注意力和卷积模块注意力,在几乎不增加训练时间的条件下显着地提升了识别效果。前人基于三元损失提出了簇域损失,而本文针对说话人辨认任务又对该损失做出了进一步的改进,提出了加权簇域损失,该损失更加关注类间差异的增大,从而增加了临界样本被正确分类的几率;为了解决簇域损失在训练前期效率低下的问题,本文也提出了一种新颖的损失函数——临界增强损失,该损失额外关注了训练过程中每一步最容易且有必要优化的样本对,在结合了簇域损失之后,每一步中最难优化和最容易优化的样本都被同时考虑,也就加速了训练的进程,同时为簇域损失中的难损失赢得更多的训练时间,从而使得最终的优化效果得到进一步的提升。对于说话人辨认任务,本文在VoxCeleb1数据集上的Top-1准确率达到了92.0%,在CNCeleb数据集上的Top-1准确率达到了84.3%。对于说话人确认任务,当采用Voxceleb1数据集进行训练时,在验证集上的等错误率达到了5.1%,在扩大数据集VoxCeleb2上训练时,同一验证集上的等错误率降低到了3.52%。相比于基线模型,本文的改进方法均显示出了明显的优势。针对说话人情绪识别任务,本文提出了一种将Res Net与GRU结合的轻量神经网络,相比其他较新文献中的方法,本文用更少的参数和特征在IEMOCAP数据集上实现了相当的情绪分类结果,其中UA达到了67.9%,F1分数达到了0.675,参数量相对减少了16.2%。
卞腾跃[3](2020)在《基于深度学习的声纹识别算法研究》文中研究表明随着各种智能终端设备的应用与普及,生物特征识别技术以其便捷性逐渐在各类身份验证场景下扮演越来越重要的角色。声纹识别属于生物特征识别的一种,基于人的语音信号进行身份识别,被广泛应用于刑侦、金融风控、语音终端的人机交互等各类场景。根据应用场景不同,可以分为说话人确认和说话人辨认两个任务。根据是否对语音的文本内容进行限定,声纹识别又分为文本相关型和文本无关型两个类别。本文主要针对难度较大的文本无关型声纹识别,并对说话人确认任务和说话人辨认任务分别进行了相关测试。本文提出了一种端到端的声纹识别算法,包括基于注意力机制的神经网络模型和基于度量学习的模型训练方式。本文所提出的网络模型结合了残差卷积神经网络和注意力机制,不仅将注意力机制应用到了高层特征提取,同时提出了一种基于注意力机制的时域池化方法,以学习对于不同语音片段的特征进行自适应的权重分配。基于三元损失函数,本文提出了一种新颖的在线难样本挖掘方式以统一同类样本对的约束条件,并在此基础上针对三元损失难以训练的问题提出了一种稳定训练的方案。基于Voxceleb1数据集进行模型训练,该方案在说话人确认任务上达到了5.3%的等错误率,优于目前最流行的i-vector模型和x-vector模型。此外,本方案是一种端到端的实现,不需要多余的后端作为打分模型,而i-vector模型和x-vector模型都依赖于单独训练的PLDA模型进行打分。在基于Voxceleb2数据集进行训练的情况下,该方案进一步将Voxceleb1验证集上的等错误率降低到了4.05%,优于原文中采用对比损失训练的Res Net-34模型以及Res Net-50模型,且本文提出的网络模型的复杂度远低于Res Net-34。针对一般的多分类任务,本文提出了一种度量学习损失函数与softmax交叉熵联合训练的模型训练方法,即先采用本文阐明的CRL损失函数训练网络的瓶颈特征,然后通过softmax交叉熵训练最终的全连接分类层。通过采用切断瓶颈特征与分类层之间的梯度传播的方式可以将这两个步骤同时进行,在Voxceleb1数据集上,该方法将Top-1准确率进一步提升了3.6%。
雷磊[4](2019)在《基于小波分析的声纹识别关键技术研究》文中研究指明声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对倒谱特征的影响,提高了倒谱特征的抗噪能力。实验结果表明:WSCC的抗噪能力比主流倒谱特征的抗噪能力更强。为了提高基于倒谱特征的声纹识别模型在噪音环境中的识别准确率,本论文将WSCC算法和概率神经网络(Probabilistic Neural Network,PNN)相结合,进一步提出了WSCC-PNN声纹识别模型。该模型采用WSCC算法将语音样本转化成语音特征,并采用PNN对语音特征中蕴含的说话人信息进行建模。实验结果表明:WSCC-PNN在噪音环境中的识别准确率比基于倒谱特征的声纹识别模型提高了5%左右。(2)针对小波包变换(Wavelet Packet Transform,WPT)对语音分析能力不足的问题,提出了感知小波包变换(Perceptual Wavelet Packet Transform,PWPT)。本论文首先通过Greenwood函数生成耳蜗听觉滤波器组,然后根据该滤波器组对7层WPT进行“修枝”操作,修枝后的WPT即为PWPT。由于耳蜗滤波过程能够突显语音中有价值的信息并抑制声学噪音,所以PWPT非常适合用于分析语音信号。实验结果表明:PWPT分析语音的能力比WPT分析语音的能力更强,并且它的计算量仅为WPT的25%左右。为了提高小波包熵特征(Wavelet packet entropy,WPE)的抗噪能力,本论文进一步提出了感知小波包熵(Perceptual Wavelet Packet Entropy,PWPE)特征提取算法。该提取算法首先采用PWPT将语音信号分解成一组子信号,然后采用阈值降噪技术抑制这些子信号中的噪音,最后计算每个子信号的熵。实验表明:基于PWPE的声纹识别模型在噪音中的识别准确率比基于WPE的声纹识别模型高了6%左右。(3)针对I-vector说话人模型(本论文称之为MIv)抗噪能力较差的问题,提出了基于PWPE特征的I-vector模型(PWPE-bassed I-vector,PIv)和基于WSCC的I-vector模型(WSCC-based I-vector,WIv)。它们的生成算法分别从语音样本的PWPE和WSCC特征空间中生成I-vector模型。PWPE和WSCC的提取算法均利用小波分析技术在多个尺度上抑制噪音,从而提高了PIv和WIv的抗噪能力。实验表明:PIv和WIv的抗噪能力比MIv模型的抗噪能力更强。为了提高基于MIv的声纹识别模型在噪音中的识别准确率,本论文进一步提出了PIv-CDS和WIv-CDS声纹识别模型。PIv-CDS采用PIv表示语音中蕴含的说话人信息,并采用余弦距离(Cosine Distance SCoring,CDS)比较不同PIv之间的相似度,以识别出说话人的身份。WIv-CDS和PIv-CDS非常相似,只是它采用WIv表示语音中的说话人信息。实验表明:PIv-CDS和WIv-CDS在噪音环境中的识别准确率比基于MIv的声纹识别模型高了8%左右。(4)针对DNN-UBM计算量过大的问题,提出了卷积神经网络背景模型(Convolutional Neural Network-based Universal Background Model,CNN-UBM)。CNN-UBM利用卷积神经网络(Convolutional Neural Network,CNN)结构实现背景模型功能。由于CNN具有强大的数据建模能力,因此CNN-UBM能够从背景语音中估计出高可靠性的说话人后验概率。另外,由于CNN结构包含的权重较少,并且CNN将ReLU函数作为激励函数,所以CNN-UBM易于训练且运行速度较快。实验结果表明:CNN-UBM和DNN-UBM的性能相似,但是它的计算量仅为DNN-UBM的12%左右。为了提高DNN/I-vector说话人模型的抗噪性能,本论文进一步提出了CNN/I-vector说话人模型。该模型的生成算法采用CNN-UBM从背景语音中估计出说话人后验概率,并基于该后验概率从语音的PWPE特征空间中生成I-vector。实验表明:基于CNN/I-vector的声纹识别模型在噪音中的识别准确率比基于DNN/I-vector的声纹识别模型高了9%左右。
李嘉伟[5](2018)在《基于Android的声纹识别系统的研究与实现》文中认为随着智能手机和移动互联网的飞速发展,传统密码难以满足用户对信息安全可靠性与便捷性的需求,以声纹识别为代表的数字化生物认证技术成为当前人工智能领域的研究热点。随着Android的快速普及,基于移动终端的声纹识别系统在数字化安全认证方面有着广阔的应用前景。但声纹识别技术应用在系统资源有限的Android平台中面临实时性和鲁棒性较差的问题。本文重点针对上述问题集中在以下几个方面进行研究:研究了语音信号特征提取算法。针对传统MFCC(Mel Frequency Cepstrum Coefficients)特征提取算法在Android平台计算时间较长,在噪声环境下鲁棒性较差的问题,本文通过结合其一阶与二阶差分,得到一个改进结构的系数组合,并结合Android平台特点,提出了特征提取的多线程并发算法,将特征提取任务分解成n等分,对应启动n个子线程并发计算。将改进后的特征系数应用在Android平台,等错误率降低了7.24%,识别率提升了6.8%,噪声环境下的鲁棒性也得到了显着提升。在加入3个子线程后,特征提取计算时长缩短了约35%。研究了语音特征矢量模式匹配算法。针对传统建模与匹配算法不适用于说话人辨认系统在移动平台的本地实时应用问题,本文提出一种DTW(Dynamic Time Warping)结合GMM(Gaussian Mixture Model)的动态门限双层模式匹配算法。在第一层采用DTW算法对模型库进行快速初筛,缩小匹配范围,第二层采用GMM模型精确匹配做出最终的判决。该算法在没有过多损失识别精度的前提下,比传统GMM模型匹配法计算时间缩短了约41%-55%,比传统DTW匹配算法准确率提高了约12%-14%,并根据注册模型数目动态调整初筛门限,在最短的时间内获得最高的准确率,实现移动终端的实时应用。设计并实现了一种应用于工业自动化领域的Android声纹识别系统。针对当前产线中Android设备音频功能测试自动化程度较低的问题,本文提出一种基于声纹识别技术的Android设备音频故障诊断系统。采用MFCC及其一阶差分作为特征系数,通过DTW算法对麦克风录制语音和扬声器播放语音的特征模型进行比对,实现扬声器与麦克风同步对无声、失真、杂声、失衡等多种故障进行全面检测。不同类型故障识别率从100%到93.33%不等,相比人工测试效率提高6.25倍,初步预估为企业带来显性效益超90kUSD/年。通过与其他文献的横向对比,证明了本方案在故障诊断类型与低成本方面具有显着优势。
杨喜鹏[6](2018)在《基于信道补偿的说话人识别算法研究》文中研究表明说话人识别技术作为一种重要的生物识别技术,被广泛应用于身份认证、信息安全、法庭、医疗、公安等领域。目前使用高信噪比语音的说话人识别系统已经达到了很高的识别精度,但是信道失配的说话人语音在目前说话人识别系统中的识别精度并不理想。因此,说话人识别系统的信道失配问题是影响其识别性能的主要原因,所以本文针对说话人识别中的信道失配问题,在现有的理论基础上提出有效地信道补偿算法。针对文本无关的说话人识别系统在使用小数据集的情况下,提出一种基于噪声估计的本征音自适应(ENV)算法。ENV算法在离线阶段利用VTS估计出噪声特征,并结合干扰空间投影矩阵构建出纯净的本征音空间。在测试阶段采用最大似然估计算法计算出表征说话人无噪声特征的说话人因子,并利用离散余弦距离打分算法计算出系统得分。针对i-vector和DNN/i-vector算法在得分域中的辨识度差异问题,提出一种基于得分规整加权的信道补偿(DIV)算法,DIV算法有效的提高了i-vector和DNN/i-vector算法的信道补偿能力。在离线阶段,DIV算法根据i-vector和DNN/i-vector算法中得分数据计算出语音的辨识度,然后计算注册说话人语音在基准训练集中的加权系数。在测试阶段,利用该加权系数重新规整i-vector和DNN/i-vector算法的得分,计算出最终的系统得分。在本文实验验证中,使用MATLAB工具对ENV算法进行实验验证。实验结果表明,ENV算法相对于传统的本征音自适应算法,在两个数据集中的等错误率结果分别下降了4.4%和1.7%。使用KALDI语音框架中的声纹识别工具对DIV算法进行验证,实验结果表明针对文本相关和文本无关的不同属性语音数据集,相对于单独使用ivector和DNN/i-vector算法的系统性能分别提升了5%到30%。
李蓝天[7](2018)在《说话人识别中的特征学习方法研究》文中研究说明说话人识别是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。随着技术发展,说话人识别系统现已取得了不俗的性能表现。然而,受各种不确定性(如非限定文本、跨信道、环境噪音、说话方式等)的制约,当前说话人识别系统仍难言可靠。为此,本文聚焦在说话人识别中的特征学习方法研究,利用深度学习方法从语音信号中学习与说话人相关的特征、削弱与说话人无关的不确定性,以此提高说话人识别系统的性能。本文的主要贡献如下:一、提出了基于卷积-时延深度神经网络的说话人特征学习方法。从语音信号的基本特性出发,结合说话人信息在语音信号中的表征形式,针对语音信号的局部属性、动态属性和模型的可训练性,设计了一个由卷积、时延和组归一化所构成的卷积-时延深度神经网络(CT-DNN)模型,用于说话人特征学习。通过定性和定量分析,验证了所学到的说话人特征具有较强的说话人区分性。二、验证了说话人特征学习的推广性。考虑到说话人特征学习的训练目标是最大化区分不同说话人,而并不是直接针对说话人识别任务。为此,本文从多个角度设计了不同的推广性研究方案,验证了所学到的说话人特征在不同说话人识别任务中的通用性和普适性,证明了说话人特征学习的推广性。三、提出了基于全信息训练的说话人特征学习方法。考虑到说话人特征学习的训练目标只关注于最大化说话人的类间离散度,而忽略了对说话人的类内内聚性的限制,使学到的说话人特征存在类内发散的问题。为此,本文从模型自身出发,提出了一种基于类中心趋近准则的全信息训练方法。在保证最大化区分不同说话人的前提下,该方法在模型训练中加入了对说话人类内方差的限制,提升了所学说话人特征的类内内聚性。四、提出了基于音素相关训练的说话人特征学习方法。考虑到说话人特征在学习过程中完全依赖于复杂的模型结构和大量的语音数据,这种“盲目”的数据驱动使得模型在训练过程中极易受到发音内容等信息的干扰。为此,本文受条件学习的启发,提出了一种基于音素补偿准则的音素相关训练方法。该方法在模型训练中先验地引入音素条件,使说话人特征在学习过程中即时得到音素信息的补偿,削弱了因发音内容不同而导致的说话人特征发散问题,提升了所学特征的说话人区分性。
欧国振[8](2017)在《基于SVM的文本无关的说话人辨认技术研究》文中进行了进一步梳理语音是人类最有效的交流方式,因为其独特性使其成为说话人识别技术的基本依据。在说话人识别基本框架下,寻找一种区分性强的说话人个性特征以获得更高的系统性能是当前说话人识别领域的研究热点。模型选择和特征提取是说话人识别技术中重点考虑的问题,在确定了模型选择的条件下,说话人识别系统性能的好坏就主要决定于选取何种类型的特征参数。当今数字化时代,寻找一种优越的说话人个性特征具有很好的理论研究意义和现实意义。本文的研究目标是设计能够使说话人识别系统的识别性能提升或系统时间复杂度降低的语音特征。为此重点研究了GMM Supervector在说话人识别系统中的特性,并在此基础上提出了重组超矢量,结合支持向量机的特性分析重组超矢量的可行性;接着研究了近几年热门的深度学习,设计了一个深度神经网络来提取说话人语音的瓶颈特征。本文的主要工作和创新如下:(1)本文介绍了说话人识别的基本框架,主要包括语音预处理方法、特征提取方法和说话人识别模型。详细介绍了LPC、MFCC及它们的倒谱特征的提取过程,并分析它们的特性。除此之外,还介绍了模板匹配算法、隐马尔科夫模型法、矢量量化法、高斯混合模型法、支持向量机法以及深度神经网络法这几种经典的说话人识别方法。通过前期的研究发现,后三种方法在说话人识别系统中表现相对更佳,所以本文对说话人识别的研究也是基于这三种方法上的。(2)针对传统超矢量在说话人辨认系统中性能表现不够好的问题,本文提出了基于重组超矢量构建文本无关的GMM-SVM说话人辨认系统。重组超矢量充分利用各相邻高斯分量的均值矢量的高关联性,并且每个高斯分量的均值矢量携带足够的说话人个性信息。重组超矢量能充分反应说话人身份的内在细节,更使得系统可以充分利用SVM处理高维小数据性能优越的特点。实验结果表明,重组超矢量的GMM-SVM说话人辨认系统与传统的基于GMMSVM的说话人系统相比,有效的提高了说话人的辨别率,同时大幅度缩短了系统建模的时间。(3)针对传统特征参数不能挖掘语音信号深层次结构信息的问题,本文设计了一个深度神经网络来提取说话人语音的瓶颈特征,搭建基于DNN-SVM的说话人辨认系统。这种特征可以挖掘说话人的深度特性,具有不变性和高区分性的特点。实验结果表明,基于DNN-SVM的说话人辨认系统比基于SVM的说话人辨认系统的识别性能有了明显的提高。
康凤宁[9](2016)在《基于ANSYS的锚杆有限元模型及智能预测方法研究》文中提出随着锚杆支护技术的应用越来越广泛,锚杆锚固系统的质量检测问题随之而来,但由于其施工技术的高度隐蔽性,使得工程质量问题难以发现,事故处理过程会更加棘手,如若发生质量问题将会带来人身和财产的巨大损失。随着学者们不断对锚杆锚固系统质量检测方法的研究,利用无损检测技术对锚杆锚固系统质量进行检测成为了一个大的发展趋势。现如今信息技术的应用越来越普遍,锚杆锚固系统状态的智能预测对工程应用具有十分重要的意义。本文主要做了以下几个方面的研究:(1)利用有限元分析软件ANSYS/LS-DYNA建立了不同锚固状态的三维锚杆锚固系统模型,并对应力波在不同锚固状态系统中的传播和动力响应进行了分析计算,确定锚杆锚固系统的锚杆长度、锚固长度和缺陷位置,验证了所建模型的准确性。(2)对锚杆锚固系统进行质量无损检测实验及实验设备的介绍。本文中利用锚杆锚固系统质量无损检测仪对工程模型进行实验,对实验原理、实验仪器和实验步骤做了详细介绍,并对实验结果进行分析。(3)阐述了概率神经网络,通过经验值法和试凑的方法选择平滑参数建立网络,利用了小波包分解与重构和小波包能量谱的相关知识提取信号特征,作为概率神经网络的输入,对模拟模型和实验模型锚固状态进行预测,分析预测的准确率。(4)介绍改进的概率神经网络,本文利用差异演化算法对平滑参数进行优化,以快速准确的得到更佳的预测效果。利用改进的概率神经网络对实验模型和模拟模型的锚固状态进行预测,并将其预测效果与利用基本的概率神经网络的预测效果进行对比,验证了改进的概率神经网络的更优预测效果。预测结果表明对锚固状态、缺陷的位置同原本设计状态及缺陷位置符合程度较高,证明了智能预测方法的可靠性。
陈英[10](2015)在《基于含噪短语音的鲁棒说话人识别研究》文中认为说话人自动识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果。然而现实生活中,往往遇到语料缺失、环境噪声等问题,此时说话人识别系统性能严重下降,为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。本文针对含噪短语音的鲁棒说话人识别技术进行了研究和探索。为了提高含噪短语音的说话人识别率,本文涉及的补偿算法有多特征融合算法、噪声分离算法、语音帧质量判别算法、识别模型优化和改进。本文的主要工作和创新成果点集中在以下几个方面:(1)针对含噪短语音说话人辨认训练和测试语料不充分的特点,将声源信息与声道信息相结合,弥补在语料信息严重缺失的情况下,只提取单一特征不能充分表达说话人语音特征的缺陷。提取的多种特征的噪声鲁棒性和识别能力不同,可以起到互补的作用,并使用差分进化算法优化特征组合中单一特征的融合系数。实验证明,在相同条件下使用特征组合综合系统(MFCCDLPCC+ WOWOR4)+(MFCCDLPCC+ WOWOR6)+(MFCCDLPCC+ WOWOR8)的含噪短语音说话人识别率比使用单一特征MFCC平均提高13.34%,比使用特征组合MFCCDLPCC平均提高10.21%。在各种信噪比环境下,使用差分进化算法优化特征组合中单一特征的融合系数可以使系统的识别率平均提高1.62%。(2)为了降低噪声对说话人识别效果的影响,对噪声进行分离是重要的。提出了基于受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)的噪声分离算法用于分离环境噪声,该算法首先使用FastICA噪声分离算法对含噪短语音进行分离,将其结果作为NMF(Non-negative Matrix Factorization)的初始值,并在NMF中加入鉴别性限制,以便有效分离噪声。实验证明,相同条件下CNMF分离算法的识别率比随机初始化NMF分离算法的识别率平均提高3.75%。(3)使用CNMF算法对含噪短语音进行噪声分离之后,语音帧仍然不同程度地含有残留噪声,需要对其进一步处理:使用语音帧质量判别算法将语音帧分为高质量类和低质量类,高质量类语音帧直接用于说话人识别,低质量类语音帧进行处理后用于说话人识别,既可以显着降低噪声的影响,又可以充分地利用含噪短语音的有限语料用于说话人识别,有助于提高含噪短语音的说话人识别率。本文分别提出了三种语音帧质量判别算法,分别是改进的信噪比判别算法(Improved SNR Discrimination Algorithm,ISNRDA)、差异检测与判别算法(Differences Detection and Discrimination Dlgorithm,DDADA)、基于 NMF 的信噪比判别算法(NMF-SNR Discrimination Algorithm,NMF-SNRDA)。实验证明,相同条件下使用ISNRDA判别算法相比分离噪声后不进行语音帧质量判别与分类可以平均提高含噪短语音的说话人识别率3.26%,使用DDADA判别算法的识别率相比使用ISNRDA判别算法的识别率平均提高1.71%,使用NMF-SNRDA判别算法的识别率相比使用DDADA判别算法的识别率平均提高1.74%。(4)为了更加精确地对语音帧进行分类,本文提出了双重信息质量判别算法。若两种语音帧质量判别算法同时判定一个语音帧为高质量,则将该语音帧分类为高质量类;若一种语音帧质量判别算法判定一个语音帧为高质量,另一种语音帧质量判别算法判定该语音帧为低质量,则将该语音帧分类为中等质量类;若两种语音帧质量判别算法同时判定一个语音帧为低质量,则将该语音帧分类为低质量类。实验证明,在各种信噪比环境下,本文提出的双重信息质量判别算法与单一判别算法相比,含噪短语音的说话人识别率平均提高2.32%。(5)分类得到的三类语音帧分别与本文构建的GMM-UBM三阶段分类模型相结合,使短语音的有限语料得到更加充分地利用,有效的降低了噪声和语料缺失对含噪短语音说话人识别率的影响。实验数据证明,相同条件下双重信息质量判别算法的各种组合与GMM-UBM三阶段分类模型相结合的含噪短语音说话人识别率比与GMM-UBM两阶段分类模型结合的识别率平均提高2.4%。
二、基于并行PNN模型的说话人辨认研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于并行PNN模型的说话人辨认研究(论文提纲范文)
(1)基于深度学习框架的与文本无关的说话人识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 存在的问题与挑战 |
1.4 本文的创新点和结构安排 |
1.4.1 本文的创新点 |
1.4.2 本文的结构安排 |
第二章 说话人识别系统 |
2.1 引言 |
2.2 特征提取 |
2.3 分类模型 |
2.4 说话人识别系统性能评价 |
2.4.1 说话人确认系统性能评价指标 |
2.4.2 说话人辨认系统性能评价指标 |
2.5 本章小结 |
第三章 结合音色特征和辅助特征的文本无关说话人辨认 |
3.1 引言 |
3.2 注意力机制 |
3.3 算法原理 |
3.3.1 性别注意力网络 |
3.3.2 口音注意力网络 |
3.3.3 联合分类 |
3.4 实验与分析 |
3.4.1 数据库 |
3.4.2 实验设置 |
3.4.3 性别和口音信息提取 |
3.4.4 辅助特征的有效性 |
3.4.5 辅助特征的功能 |
3.4.6 注意力矩阵的可视化 |
3.5 本章小结 |
第四章 基于多任务学习的文本无关说话人辨认 |
4.1 引言 |
4.2 多任务学习 |
4.3 算法原理 |
4.3.1 生成语音对儿 |
4.3.2 说话人确认系统 |
4.3.3 说话人辨认系统 |
4.3.4 损失函数 |
4.4 实验 |
4.4.1 实验数据和实验设置 |
4.4.2 算法的有效性 |
4.4.3 参数α的影响 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读学位期间发表的学术成果 |
致谢 |
(2)基于机器学习的声纹识别研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及研究意义 |
1.2 国内外研究现状 |
1.3 研究内容及组织结构 |
2 系统原理及相关技术基础 |
2.1 说话人识别及语音分类基本原理 |
2.2 语音特征提取 |
2.3 评价指标 |
3 网络结构及注意力机制 |
3.1 残差网络 |
3.2 循环神经网络 |
3.3 注意力机制 |
4 三元损失在声纹识别的应用及其改进 |
4.1 三元损失 |
4.2 簇域损失 |
4.3 加权簇域损失 |
4.4 临界增强损失 |
5 实验与结果分析 |
5.1 数据集介绍 |
5.2 训练方案 |
5.3 网络结构 |
5.4 说话人识别实验结果 |
5.5 说话人情绪识别实验结果 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
硕士学位攻读期间发表论文 |
(3)基于深度学习的声纹识别算法研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及研究意义 |
1.2 国内外研究现状及分析 |
1.2.1 声纹识别相关的音频特征研究 |
1.2.2 基于传统方法的声纹识别 |
1.2.3 基于深度学习的声纹识别 |
1.3 研究内容及组织结构 |
2 声纹识别的相关基础 |
2.1 声纹识别的基本原理 |
2.2 声纹识别的评价指标 |
2.2.1 说话人确认 |
2.2.2 说话人辨认 |
2.3 声纹识别的特征提取 |
2.3.1 概述 |
2.3.2 音频预处理 |
2.3.3 频谱特征提取 |
3 基于深度学习的声纹识别 |
3.1 系统整体框架描述 |
3.2 残差卷积网络 |
3.2.1 卷积神经网络 |
3.2.2 激活函数 |
3.2.3 池化 |
3.2.4 批归一化 |
3.2.5 残差连接 |
3.3 注意力机制 |
3.3.1 注意力机制与高层特征提取 |
3.3.2 基于注意力机制的时域池化 |
3.4 网络模型整体结构 |
4 三元损失及其优化 |
4.1 基本定义 |
4.2 三元损失的变体 |
4.2.1 针对类内差异的优化 |
4.2.2 针对三元组采样的优化 |
4.3 基于三元损失的优化 |
5 声纹识别实验与结果分析 |
5.1 声纹识别数据集介绍 |
5.1.1 AISHELL--2 |
5.1.2 Voxceleb |
5.2 AISHELL-2 数据集上的声纹实验与分析 |
5.2.1 实验描述 |
5.2.2 验证结果对比与分析 |
5.2.3 音频长度的影响与融合方法的分析 |
5.3 Voxceleb数据集上的声纹实验与分析 |
5.3.1 实验描述 |
5.3.2 验证结果对比与分析 |
5.3.3 损失函数约束条件的探究 |
5.3.4 扩大数据集的进一步实验 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
(4)基于小波分析的声纹识别关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 声纹识别技术的发展历史 |
1.3 声纹识别的研究方法与研究现状 |
1.3.1 语音特征提取算法研究 |
1.3.2 说话人模型研究 |
1.4 声纹识别的基线模型 |
1.4.1 梅尔倒谱系数特征提取 |
1.4.2 高斯混合模型建模 |
1.5 声纹识别的性能评价指标 |
1.6 论文主要内容与章节安排 |
第二章 基于小波变换的倒谱特征 |
2.1 引言 |
2.2 语音信号的倒谱分析技术 |
2.3 WSCC特征 |
2.4 WSCC-PNN识别模型 |
2.5 实验分析 |
2.5.1 实验数据集 |
2.5.2 测试WSCC特征的性能 |
2.5.3 测试倒谱特征的性能 |
2.5.4 测试声纹识别模型的性能 |
2.6 本章小结 |
第三章 基于感知小波包的熵特征 |
3.1 引言 |
3.2 听觉感知的基本知识 |
3.2.1 耳蜗感知过程 |
3.2.2 听觉模型 |
3.3 感知小波包变换 |
3.4 感知小波包熵 |
3.5 实验分析与讨论 |
3.5.1 实验数据集 |
3.5.2 测试感知小波包变换算法 |
3.5.3 测试PWPE的性能 |
3.6 本章小结 |
第四章 基于小波语音特征的I-vector模型 |
4.1 引言 |
4.2 I-vector模型的定义 |
4.3 基于小波语音特征的I-vector模型的生成过程 |
4.3.1 估计GMM-UBM |
4.3.2 估计全局变量矩阵 |
4.3.3 I-vector的估计过程 |
4.4 基于小波I-vector的声纹识别模型 |
4.5 实验与结论 |
4.5.1 实验数据与平台 |
4.5.2 测试向量说话人模型 |
4.5.3 测试声纹识别模型 |
4.6 本章小结 |
第五章 基于卷积神经网络的I-vector模型 |
5.1 引言 |
5.2 基于CNN的背景模型 |
5.3 CNN/I-vector建模过程 |
5.4 基于CNN/I-vector的声纹识别模型 |
5.5 实验与结论 |
5.5.1 实验数据集和平台 |
5.5.2 测试背景模型 |
5.5.3 测试I-vector模型 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(5)基于Android的声纹识别系统的研究与实现(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 课题背景及研究意义 |
1.2 研究现状 |
1.3 本文的研究内容与组织结构 |
1.3.1 研究内容 |
1.3.2 组织结构 |
第二章 基于Android平台的声纹识别系统技术基础 |
2.1 声纹识别技术基本理论 |
2.1.1 声纹识别技术原理 |
2.1.2 声纹识别技术的分类 |
2.1.3 声纹识别技术的性能评价指标 |
2.2 语音预处理技术 |
2.2.1 预加重 |
2.2.2 分帧加窗 |
2.2.3 端点检测 |
2.3 Android平台开发技术概述 |
2.3.1 Android基本概念 |
2.3.2 Android平台的特点 |
2.3.3 Android开发环境的搭建 |
2.4 本章小结 |
第三章 语音声纹特征提取算法研究 |
3.1 传统语音特征提取算法 |
3.1.1 LPCC特征系数 |
3.1.2 MFCC特征系数 |
3.2 基于Android平台的特征提取多线程并发算法 |
3.2.1 MFCC系数结构的改进优化 |
3.2.2 特征提取任务分解与多线程设计 |
3.3 实验结果与分析 |
3.4 本章小结 |
第四章 语音声纹特征模式匹配算法研究 |
4.1 传统模式匹配算法 |
4.1.1 动态时间规整(DTW) |
4.1.2 矢量量化(VQ) |
4.1.3 隐马尔科夫模型(HMM) |
4.1.4 高斯混合模型(GMM) |
4.2 DTW结合GMM的动态门限双层模式匹配算法 |
4.2.1 动态门限双层模式匹配算法设计 |
4.2.2 DTW算法的改进优化 |
4.2.3 GMM模型参数估计与初始化 |
4.2.4 识别判决 |
4.3 实验结果与分析 |
4.4 本章小结 |
第五章 Android声纹识别系统在自动化领域的应用 |
5.1 自动化领域音频故障诊断研究背景 |
5.2 Android设备音频故障诊断系统设计 |
5.2.1 系统需求分析 |
5.2.2 系统设计 |
5.3 Android设备音频故障诊断系统实现 |
5.3.1 开发环境与工具 |
5.3.2 系统工程实现 |
5.4 实验结果与分析 |
5.5 本章小结 |
总结与展望 |
参考文献 |
致谢 |
个人简历 |
在学期间的研究成果及发表的学术论文 |
(6)基于信道补偿的说话人识别算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 说话人识别的发展及研究现状 |
1.2.1 说话人识别算法的发展 |
1.2.2 说话人识别算法的研究现状 |
1.2.3 说话人识别算法的信道补偿 |
1.3 论文主要研究内容和组织架构 |
1.3.1 论文的主要研究内容 |
1.3.2 论文的组织架构 |
第二章 说话人识别和信道补偿相关技术简介 |
2.1 特征提取和补偿算法 |
2.1.1 梅尔倒谱系数 |
2.1.2 特征域信道补偿算法 |
2.2 模型构建算法的原理 |
2.2.1 高斯混合模型及通用背景模型 |
2.2.2 i-vector算法和DNN/i-vector算法 |
2.3 得分规整和评价标准 |
2.3.1 模型得分算法 |
2.3.2 得分规整算法 |
2.3.3 性能评价标准 |
2.4 本章小结 |
第三章 基于噪声估计的本征音自适应算法设计 |
3.1 语音数据特征的预处理 |
3.2 基于矢量泰勒级数求解噪声模型 |
3.2.1 构建语音和噪声的模型关系 |
3.2.2 求解噪声的均值和方差 |
3.3 本征音自适应模型 |
3.3.1 构建本征音模型 |
3.3.2 构建干扰投影空间 |
3.3.3 本征音模型自适应 |
3.4 ENV算法步骤 |
3.5 本章小结 |
第四章 基于得分规整加权的信道补偿算法设计 |
4.1 算法的可行性分析 |
4.1.1 算法的理论可行性分析 |
4.1.2 算法的数据可行性分析 |
4.2 得分规整加权算法的原理 |
4.2.1 DIV算法流程 |
4.2.2 计算说话人的辨识度 |
4.2.3 计算规整加权得分 |
4.3 本章小结 |
第五章 实验验证与分析 |
5.1 基于噪声估计的本征音自适应算法的实验验证 |
5.1.1 实验数据集选择和算法参数配置 |
5.1.2 实验验证与分析 |
5.2 得分规整加权的信道补偿算法的实验验证 |
5.2.1 实验数据集选择和算法参数配置 |
5.2.2 实验验证与分析 |
5.3 本章小结 |
总结与展望 |
1.主要工作 |
2.主要创新点 |
3.下一步工作 |
参考文献 |
攻读硕士学位期间取得的学术成果 |
致谢 |
(7)说话人识别中的特征学习方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 说话人识别概述 |
1.1.1 基本概念 |
1.1.2 应用和挑战 |
1.2 选题背景 |
1.2.1 研究现状 |
1.2.2 基于深度神经网络的特征学习 |
1.3 研究工作概述 |
1.3.1 研究难点 |
1.3.2 研究思路 |
1.3.3 研究内容 |
1.3.4 相关研究工作 |
1.4 论文组织结构 |
第2章 基于卷积-时延深度神经网络的说话人特征学习 |
2.1 本章引论 |
2.2 语音信号特性分析 |
2.2.1 语音信号的基本特性 |
2.2.2 说话人信息在语音信号中的表征形式 |
2.3 特征学习模型设计 |
2.3.1 卷积神经网络 |
2.3.2 时延神经网络 |
2.3.3 基于 p-范数的组归一化 |
2.3.4 CT-DNN 模型结构 |
2.4实验 |
2.4.1 实验数据 |
2.4.2 系统配置 |
2.4.3 定性分析 |
2.4.4 定量分析 |
2.4.5 模型分析 |
2.5 小结 |
第3章 说话人特征学习的推广性研究 |
3.1 本章引论 |
3.2 特征学习与“端到端”学习 |
3.2.1 特征学习模型 |
3.2.2 “端到端”模型 |
3.2.3 讨论分析 |
3.2.4 实验 |
3.3 特征学习在跨语言说话人识别中的推广性研究 |
3.3.1 跨语言说话人识别 |
3.3.2 讨论分析 |
3.3.3 实验 |
3.4 特征学习在短语音说话人识别中的推广性研究 |
3.4.1 基于平凡发音的短语音场景 |
3.4.2 讨论分析 |
3.4.3 实验 |
3.5 小结 |
第4章 基于全信息训练的说话人特征学习 |
4.1 本章引论 |
4.2 问题分析 |
4.3 全信息训练 |
4.3.1 类中心趋近准则 |
4.3.2 迭代训练机制 |
4.3.3 讨论分析 |
4.4 实验 |
4.4.1 实验数据 |
4.4.2 系统配置 |
4.4.3 实验结果 |
4.4.4 实验分析 |
4.5 小结 |
第5章 基于音素相关训练的说话人特征学习 |
5.1 本章引论 |
5.2 问题分析 |
5.3 音素相关训练 |
5.3.1 条件学习 |
5.3.2 模型设计 |
5.3.3 讨论分析 |
5.4 实验 |
5.4.1 实验数据 |
5.4.2 系统配置 |
5.4.3 实验结果 |
5.4.4 实验分析 |
5.5 扩展性研究 |
5.5.1 协同学习 |
5.5.2 信号分解 |
5.6 小结 |
第6章 总结与展望 |
6.1 研究工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(8)基于SVM的文本无关的说话人辨认技术研究(论文提纲范文)
摘要 |
Abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景 |
1.2 说话人识别技术的发展历史 |
1.3 本文研究内容和安排 |
第二章 说话人辨认系统概述 |
2.1 说话人识别基本系统结构 |
2.2 语音预处理 |
2.2.1 预加重 |
2.2.2 分帧加窗 |
2.2.3 端点检测 |
2.3 特征参数 |
2.3.1 线性预测系数LPC和线性预测倒谱系数LPCC |
2.3.2 梅尔频率倒谱系数MFCC |
2.3.3 特征评价方法 |
2.4 说话人识别的主要方法 |
2.4.1 模板匹配算法 |
2.4.2 隐马尔科夫模型 |
2.4.3 矢量量化法 |
2.4.4 高斯混合模型法 |
2.4.5 支持向量机法 |
2.4.6 深度神经网络法 |
第三章 基于重组超矢量的GMM-SVM说话人辨认系统 |
3.1 引言 |
3.2 基于GMM-SVM的说话人辨认系统 |
3.2.1 高斯混合模型 |
3.2.2 超矢量 |
3.2.3 支持向量机 |
3.4 基于重组超矢量的GMM-SVM说话人辨认 |
3.5 实验结果与分析 |
第四章 基于DNN-SVM的说话人辨认系统 |
4.1 引言 |
4.2 深度学习的发展历史 |
4.3 提取说话人语音特征的深度神经网络 |
4.3.1 训练深度神经网络 |
4.3.2 训练深度神经网络的技巧 |
4.3.3 深度神经网络的特征学习 |
4.4 基于DNN-SVM的说话人辨认系统构建 |
4.5 实验结果与分析 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(9)基于ANSYS的锚杆有限元模型及智能预测方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 锚杆锚固系统质量检测技术的国内外研究现状 |
1.2.2 ANSYS/LS-DYNA的国内外研究现状 |
1.2.3 概率神经网络的国内外研究现状 |
1.3 研究的主要内容及技术路线 |
1.3.1 研究的主要内容 |
1.3.2 技术路线 |
第二章 锚杆锚固系统有限元模型建立及其数值分析 |
2.1 有限元分析软件ANSYS/LS-DYNA概述 |
2.1.1 有限元分析法 |
2.1.2 ANSYS/LS-DYNA的分析能力和分析过程 |
2.1.3 基本显示算法 |
2.2 锚杆锚固系统有限元模型的建立 |
2.2.1 有限元模型建立的基本原则 |
2.2.2 有限元模型的建立 |
2.3 不同锚固状态锚杆受荷响应数值模拟分析 |
2.3.1 完整锚杆锚固系统受荷响应曲线分析 |
2.3.2 过长锚杆锚固系统受荷响应曲线分析 |
2.3.3 欠长锚杆锚固系统受荷响应曲线分析 |
2.3.4 缺陷锚杆锚固系统受荷响应曲线分析 |
2.3.5 模拟效果评价 |
2.4 本章小结 |
第三章 基于差异演化算法的概率神经网络的智能预测 |
3.1 传统的概率神经网络 |
3.1.1 Bayes决策分类 |
3.1.2 Parzen窗方法 |
3.1.3 PNN网络模型 |
3.2 差异演化算法 |
3.2.1 演化算法 |
3.2.2 差异演化算法 |
3.2.3 差异演化算法框架 |
3.3 锚杆锚固系统状态的智能识别 |
3.3.1 小波变换理论 |
3.3.2 小波包分解的理论知识 |
3.3.3 小波包能量谱 |
3.3.4 智能识别 |
3.4 本章小结 |
第四章 锚杆锚固系统质量无损检测实验与分析 |
4.1 实验设计 |
4.1.1 实验原理 |
4.1.2 实验仪器 |
4.1.3 实验步骤 |
4.2 实验结果与分析 |
4.2.1 实验结果 |
4.2.2 对实验锚杆锚固系统的预测识别 |
4.3 本章小结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间的研究成果及发表的学术论文 |
(10)基于含噪短语音的鲁棒说话人识别研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 说话人识别概述 |
1.1.1 说话人识别的研究意义与典型应用 |
1.1.2 说话人识别的发展与现状 |
1.2 说话人识别的分类 |
1.3 说话人识别系统结构 |
1.3.1 说话人识别系统结构 |
1.3.2 说话人辨认系统结构 |
1.4 说话人识别系统性能评价 |
1.4.1 说话人识别系统的性能评价 |
1.4.2 说话人辨认系统的性能评价 |
1.5 说话人识别的特征提取 |
1.5.1 说话人识别理想特征提取 |
1.5.2 说话人识别特征分类 |
1.6 说话人识别的主要模型 |
1.6.1 模板模型 |
1.6.2 统计模型 |
1.6.3 人工神经网络 |
1.6.4 支持向量机 |
1.7 本文研究工作概述 |
1.8 本文的结构安排 |
2 含噪短语音说话人识别解决方案 |
2.1 引言 |
2.2 噪声的类型以及噪声的影响 |
2.3 短语音说话人识别研究 |
2.4 短语音说话人识别研究面临的困难 |
2.5 含噪短语音说话人识别综合性解决方案 |
2.5.1 语音的预处理 |
2.5.2 噪声的去除 |
2.5.3 语音帧的分类 |
2.5.4 多种特征的提取 |
2.5.5 识别模型的改进 |
2.6 本章小结 |
3 基于多特征融合的含噪短语音说话人识别研究 |
3.1 引言 |
3.2 语音净化算法 |
3.2.1 噪声分离算法 |
3.2.2 差异检测与剔除算法 |
3.3 实验结果与分析--语音净化算法研究 |
3.3.1 实验语音库 |
3.3.2 语音预处理 |
3.3.3 初步噪声分离算法有效性研究 |
3.3.4 差异检测与剔除算法有效性研究 |
3.4 MFCC特征、ICAf特征、IMFCC特征及其组合的研究 |
3.4.1 提取MFCC特征、ICAf特征和IMFCC特征 |
3.4.2 特征组合模型训练 |
3.4.3 特征组合模型决策 |
3.5 实验结果与分析--MFCC特征、ICAf特征、IMFCC特征及其组合研究 |
3.6 提取WOCOR特征和特征组合MFCC_D_LPCC |
3.6.1 WOCOR特征 |
3.6.2 特征组合MFCC_D_LPCC |
3.6.3 实验结果与分析--单一特征参数研究 |
3.6.4 实验结果与分析--特征参数组合研究 |
3.6.5 WOCOR特征和特征组合MFCC_DLPCC相结合的说话人识别系统 |
3.7 特征组合中单一特征的融合系数优化 |
3.7.1 种群初始化 |
3.7.2 变异操作 |
3.7.3 交叉操作 |
3.7.4 选择操作 |
3.8 GMM模型和GMM-UBM模型 |
3.9 综合实验结果与分析 |
3.9.1 语音净化算法与单一特征及其组合的研究 |
3.9.2 识别模型与单一特征及其组合的研究 |
3.9.3 特征组合中单一特征的融合系数优化研究 |
3.9.4 测试人数对含噪短语音说话人识别率影响的研究 |
3.10 本章小结 |
4 含噪短语音噪声分离算法和语音帧质量判别算法 |
4.1 引言 |
4.2 基于受限NMF的噪声分离算法CNMF |
4.3 语音帧质量判别算法-ISNRDA |
4.3.1 混合语音谱特征提取 |
4.3.2 改进信噪比判别算法 |
4.4 语音帧质量判别算法--差异检测与判别算法(DDADA) |
4.5 基于受限NMF的信噪比判别算法(NMF-SNRDA) |
4.6 基于GMM-UBM两阶段分类模型 |
4.7 实验结果与分析 |
4.7.1 实验语音库 |
4.7.2 噪声分离方法对识别率的影响 |
4.7.3 语音帧质量判别算法ISNRDA对识别率的影响 |
4.7.4 语音帧质量判别算法DDADA对识别率的影响 |
4.7.5 语音帧质量判别算法NMF-SNRDA对识别率的影响 |
4.7.6 四种语音帧质量判别算法的比较 |
4.8 本章小结 |
5 双重信息质量判别算法和三阶段分类模型 |
5.1 双重信息质量判别算法 |
5.2 双重判别算法实验结果与分析 |
5.3 GMM-UBM三阶段分类模型 |
5.4 GMM-UBM三阶段分类模型实验结果与分析 |
5.5 局部模糊PCA降维 |
5.5.1 模糊K均值聚类算法 |
5.5.2 初始化聚类中心及其改进 |
5.5.3 PCA降维 |
5.6 基于模糊PCA的GMM |
5.7 判决策略 |
5.8 实验结果与分析 |
5.8.1 模糊PCA降维实验 |
5.8.2 不同GMM参数初始化方法对识别率的影响 |
5.9 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 研究展望 |
致谢 |
参考文献 |
附录 |
四、基于并行PNN模型的说话人辨认研究(论文参考文献)
- [1]基于深度学习框架的与文本无关的说话人识别研究[D]. 赵玮玮. 山东师范大学, 2021(12)
- [2]基于机器学习的声纹识别研究[D]. 莫建烨. 浙江大学, 2021(08)
- [3]基于深度学习的声纹识别算法研究[D]. 卞腾跃. 浙江大学, 2020(11)
- [4]基于小波分析的声纹识别关键技术研究[D]. 雷磊. 电子科技大学, 2019(04)
- [5]基于Android的声纹识别系统的研究与实现[D]. 李嘉伟. 福州大学, 2018(03)
- [6]基于信道补偿的说话人识别算法研究[D]. 杨喜鹏. 中国石油大学(华东), 2018(07)
- [7]说话人识别中的特征学习方法研究[D]. 李蓝天. 清华大学, 2018(04)
- [8]基于SVM的文本无关的说话人辨认技术研究[D]. 欧国振. 南京邮电大学, 2017(02)
- [9]基于ANSYS的锚杆有限元模型及智能预测方法研究[D]. 康凤宁. 石家庄铁道大学, 2016(02)
- [10]基于含噪短语音的鲁棒说话人识别研究[D]. 陈英. 南京理工大学, 2015(06)