一、一种简单、快速的码书训练算法(论文文献综述)
项扬[1](2019)在《基于监督学习构建维纳滤波器的语音增强方法研究》文中研究说明如今,语音增强在我们的日常生活中已经取得了广泛的应用。因此,在过去的几十年间,许多不同的语音增强方法已被提出。尽管如今已经有了大量基于监督式学习的语音增强方法,但其仍然存在两个问题。首先,由于许多有用的语音信息都存在于谐波间,因此语音的谐波恢复对语音增强至关重要。然而,目前基于监督式学习的语音增强方法对于谐波恢复和去除谐波间噪声的能力有限。其次,这些方法通常没有较好的泛化能力。解决该问题或许可以在训练阶段增加噪声、带噪语音和纯净语音的数量,从而使其包含更多的噪声环境。但是,这样就需要获取大量的平行数据集,而大量平行数据集的获取确是十分困难的。为解决以上两个问题,本文提出了三种基于监督学习构建维纳滤波器的语音增强方法。首先,本文利用码书和语音的谐波结构来进行语音增强。该方法能有效地去除存在于语音谐波间的噪声。在该方法中,本文首先利用语音的谐波结构去估计了先验语音存在概率,然后利用该概率估计噪声的自回归(Autoregressive,AR)谱形状。此外,该先验语音存在概率也被用于修正维纳滤波器。最后,本文通过结合纯净语音的AR谱形状码书构造修正后的维纳滤波器,从而实现语音增强。其次,本文尝试利用语音倒谱和深度神经网络(Deep Neural Networks,DNN)实现语音增强。该方法能有效地恢复出语音的谐波结构,进而获得更加高质量的语音。在该研究中,本文将带噪语音倒谱作为DNN的输入,直接预测纯净语音的倒谱和理想维纳滤波器,从而实现语音增强。此外,本文还提出一种结合倒谱特征和维纳滤波器的混合框架,进一步提高增强语音的质量。最后,本文提出了一种基于长短时记忆神经网络和条件生成对抗网络的语音增强方法。该方法包含一个生成器和一个区分器。由于生成器和区分器都具有长短时记忆神经网络的结构,因此其更适合于语音增强任务,并能比之前方法更好地恢复出语音的谐波结构。该方法将带噪语音倒谱作为DNN的输入,直接预测纯净语音的倒谱和理想维纳滤波器,达到实现语音增强的目的。另外,基于生成对抗网络的特性,本文还提出了一种新的不依赖于平行数据集的语音增强方法。该方法利用了循坏一致对抗神经网络,有效地降低了训练DNN所需数据的要求,有效提高了DNN的泛化能力。
吴绿[2](2018)在《基于局部特征和弱标注信息的图像分类和识别》文中研究说明为了实现图像内容类似文本化的表达,建立图像内容与文本之间不确定性的关联关系是机器视觉研究的难点问题。概率理论为解决这种不确定性推理问题提供了坚实的数学基础。近年来,随着各种推理计算复杂度快速下降算法的涌现,概率理论得到了迅速发展,由此也带动了基于概率图模型的理论方法在视觉信息处理中的广泛应用,进而使得基于概率图模型的图像分割、立体视觉、运动检测与跟踪、目标识别,以及需要对各种因素进行综合考虑的场景理解成为可能。本文在已有的图像分类和对象识别方法的基础上,深入研究如何在小样本数据条件下,提取有效的图像特征以实现图像的精准分类;针对像素级图像标注信息的缺乏,考虑加入一定的约束信息,联合概率主题模型建模,解决同类别条件下相似对象的发现和识别问题;针对复杂场景进行主题建模,引入对象的上下文语义信息,为多区域多对象的场景分割与对象识别问题提供一种解决方案。主要研究内容有:(1)针对支持向量机(Support Vector Machine,SVM)对数据缺失的不敏感性和对非线性问题无通用的解决方案,从“化繁为简”的思路出发,拆分已知图像类别信息的图像集为多个子集进行计算,引入线性直方图核函数取代传统高斯核方法,以避免核函数选择的不确定性和计算过程中非线性数据易陷入局部极小值问题,利用线性核函数较好的可扩展性和泛化性能,建立特征空间到线性空间映射的线性分类器,实现小样本数据快速准确的分类。(2)针对局部特征组合中金字塔硬划分方式造成的边界特征语义模糊性问题,提出一种区块特征软分配方法---sSPM(soft Spatial Pyramid Matching),通过在金字塔不同层级上建立硬划分边界特征的候选区域,构建候选区域与邻近图像块特征之间的距离函数关系,分析边界特征与区块特征的相似性,规范特征向量的空间表示,生成鲁棒的多尺度局部特征描述,利用拉格朗日乘子法和强对偶原理,设计优化的SVM多核分类器,面向sSPM描述的不同组合系数表示的局部特征设计分类实验,证明”sSPM+MKL”方法在削弱边界特征语义模糊性的同时还能提高图像的分类性能。(3)针对图像类内相似性大和类间相似性小导致的特征区分不明显问题,提出弱标注信息下共享部位特征的目标定位方法,利用主题模型聚类相似特征的思想,引入图像的标签语义,构建联合概率分布的“特征-部位-目标”的层次化结构模型,分析“特征-目标”之间的部位表示关系,建立“目标-特征”的部位共享池,学习不同比例共享部位特征构成的目标,实现弱监督学习方式下同类目标的智能检测;为消除噪声图片的干扰,利用信息熵衡量图像的相似性,定义无共享部位特征调用的为噪声图片,从不同角度验证提出方法的有效性,为实现同类图像下相似目标的准确发现和定位提供理论指导。(4)针对图像样本像素级标注缺乏造成的场景内容语义表达不清的问题,提出语义化的“Context+Focus”场景语义分割模型,利用广泛存在且容易获取的大量弱标注图像信息,建立“特征-部位-对象-场景”的层次结构模型,分析“自顶向下”的场景到对象的语义先验信息表达以及“由下至上”的特征到对象的概率描述关系,关联语义对象和特征对象之间的对应关系,根据语义标签权重的不同,形成语义化“focus”对象聚焦下的关联语义上下文“context”的多区域多对象的分布态势,结合Blocked-gibbs算法和后验概率的表达,推理场景各区域的语义信息,从而实现场景多区域语义联动分割和区域对象识别。
任福龙[3](2018)在《糖尿病视网膜病变自动分类方法研究》文中指出糖尿病视网膜病变(糖网)是糖尿病最为严重并发症之一,也是导致视力损伤或失明的主要病因之一。临床上,利用眼底图像进行定期的分类筛查和尽早的诊疗是控制病情发生、发展最有效的手段。当前糖网筛查主要依靠眼科医师人工地检查和分析眼底图像上的异常病变(如微动脉瘤、出血斑和硬性渗出),从而对其进行诊断与分类,这颇为费时费力,也制约了糖网筛查的大规模实施。此外,庞大的筛查人群和稀缺的眼科医师也成为了大规模糖网筛查开展的瓶颈。因此,利用眼底图像基于计算机技术的糖网自动分类方法能够快速有效地识别眼底图像中的糖网病变并对其进行分类,不仅可以将医生从繁重的人工阅片工作中解脱出来,更能有效地提高糖网筛查的准确性、客观性和快速性,对减少患者的视力损伤,促进我国大规模糖网筛查的实施,具有重要的临床价值和社会效益。目前许多的学者和专家已对糖网自动分类方法展开了大量的研究,由于依赖病灶检测的糖网分类方法具有良好的临床解释性,所以现阶段的研究多集中在基于相关病灶检测的糖网分类方法上,但这些方法的研究中很少关注不均衡数据分类、数据集标注信息不完备及其引发的多源数据分布不一致等问题对分类性能的影响,这使得传统的监督性分类方法很难获得高的准确率。为此,本文从这些问题出发,围绕基于眼底图像的糖网自动分类方法的实现,从微动脉瘤的检测、糖网的二类诊断、糖网的多分类以及糖尿病黄斑水肿的多分类等四个方面展开研究。本文的主要工作包括:(1)针对微动脉瘤检测中的不均衡数据分类问题,提出一种基于自适应升采样集成学习的微动脉瘤检测方法。该方法首先利用数学形态学及区域生长方法检测疑似微动脉瘤,而在疑似病灶的分类上,为了减少由不平衡数据引入的分类偏差,本文提出了自适应升采样算法,它能够自适应地决定每个少数类样本需要合成样本的数量,并将其分别与提升、装袋和随机子空间等集成框架结合,构建了三种基于自适应升采样的集成分类模型,进而实现疑似病灶的分类。通过对国际公开的E-ophtha数据集进行验证,并将提出的算法与当前主流一些方法进行性能对比与分析,实验结果显示了提出的方法在解决不均衡数据分类问题上的优势和有效性。(2)针对糖网诊断中数据集病灶标注信息缺失的问题,提出一种基于多核多示例学习的糖网诊断方法。该方法将多示例学习算法引入到糖网诊断中,将检测的红色病灶视为多示例学习模型中的示例,而将整幅眼底图像视为示例包,进而采用基于核图结构进行多示例学习建模,并将其融入多核学习的架构中,建立基于多核图的多示例分类模型对健康图像和糖网病变图像进行分类。通过国际公开的MESSIDOR数据集的实验验证表明,提出的方法在无需提供病灶标注的情况下,能够高效自动地对糖网病变进行诊断,从而既能避免医学图像中标注病灶的费时费力,又可以免除分类算法中假阳性去除的问题,获得较好的效果。(3)针对糖网分类中的不均衡数据分类和多源数据分布不一致问题,提出一种基于代价敏感的半监督集成的糖网分类方法。该方法首先将包含微动脉瘤与出血斑的疑似红色病灶区域检测出来;其次,在疑似病灶的分类上,为了解决目标数据集无病灶标记的问题,本文采用半监督学习技术,根据K近邻样本的一致性和高置信度采样的策略预测无病灶标记样本的类别,并将其与基于代价敏感的支持向量机进行结合,以Bagging的方式构建基于代价敏感的半监督Bagging分类模型,进而实现疑似微动脉瘤与出血斑的分类;最后,依据各病灶的数量将糖网划分为四个级别。通过对国际公共数据集MESSIDOR进行糖网分类评估,并与领域内其他算法进行了性能对比,全面系统地证明算法的有效性。(4)针对糖尿病黄斑水肿分类中的视盘、黄斑和硬性渗出的检测难点,提出一种基于黄斑与硬性渗出检测的糖尿病黄斑水肿分类方法。该方法首先利用融合多特征的视盘定位算法进行视盘的定位,并采用一种基于区域信息的活动轮廓模型获得精细的视盘轮廓;然后,设计一种基于模板匹配的黄斑检测算法以检测黄斑的中心;其次,结合局部区域分割的策略和矢量量化的技术进行疑似硬性渗出的分割,继而利用基于自适应升采样的半监督Bagging分类算法实现疑似硬性渗出的分类;最后,基于硬性渗出与黄斑中心的空间距离将糖尿病黄斑水肿分为三个级别。通过对国际公共数据集MESSIDOR进行糖尿病黄斑水肿分类评估,并与一些领域内的方法进行了性能比较,实验结果证明了提出方法具有较高的准确率和鲁棒性。
何奇[4](2016)在《自回归模型驱动的语音增强算法研究》文中提出语音增强旨在抑制含噪语音中的噪声并保证增强语音的质量。传统语音增强算法如谱减法、维纳滤波法等,不适合处理非平稳噪声,是因为没有考虑信号的先验信息。为解决这一问题,一类基于信号先验信息的语音增强算法应运而生,其中最具代表性的当属基于隐马尔科夫模型(Hidden Markov Model,HMM)的语音增强算法和基于码书的语音增强算法。这类算法线下利用HMM或码书存储语音和噪声的自回归(Auto-regressive,AR)谱形状先验信息,线上结合某些参数估计器估计语音和噪声的AR模型参数,包括AR谱形状和谱增益,并利用获得的AR模型参数构建维纳滤波器增强含噪语音。因为估计的AR谱增益能够快速追踪线上噪声能量,所以可以较好地处理非平稳噪声,但该类算法仍然存在一些问题。例如,传统并行HMM(Parallel HMM,PHMM)语音增强算法忽略了训练集与测试集能量不匹配问题,传统码书驱动语音增强算法AR模型参数估计精度不高、无法抑制谐波噪声和噪声需要分类等问题。为此本文提出了相应解决方法。本文的研究工作主要包含以下三部分内容:第一,基于传统的PHMM语音增强算法原理,本文提出了一种增益自适应的PHMM语音增强算法。该算法将自回归(Auto-Regressive,AR)谱系数和梅尔频率谱(Mel-Frequency Spectral,MFS)系数作为并行特征,用于训练PHMM,所得PHMM由AR-HMM和MFS-HMM构成,其中AR-HMM用于估计维纳滤波器,而MFS-HMM用于获得维纳滤波器的加权值。同时,所提算法引入了两个能量增益因子用于自适应调整线上语音和噪声能量,解决了训练集与测试集之间能量不匹配问题,提高了算法的鲁棒性。第二,基于传统的码书驱动语音增强算法原理,本文提出了一种利用马尔科夫过程和语音存在概率的码书驱动语音增强算法。该算法利用马尔科夫过程对相邻帧间码字的相关性建模并用于优化贝叶斯参数估计器,提高了AR模型参数估计精度。同时,该算法将语音存在概率与码书驱动维纳滤波器相结合,解决了传统码书方法无法抑制含噪语音谐波间噪声的问题,保证了增强语音的感知质量。最后,针对传统码书驱动语音增强算法中AR谱增益估计精度不高以及噪声分类问题,本文提出了一种基于AR谱增益乘法迭代估计的码书驱动语音增强算法。该算法利用线上噪声估计模块获得的噪声AR谱形状取代线下训练噪声谱形状码书,并采用乘法迭代估计方法估计AR谱增益,这不仅解决了噪声分类问题,而且提高了谱增益的估计精度,所获得的增强语音能量保留更高,残余噪声更少。
夏丙寅[5](2014)在《面向移动通信的单通道语音增强方法研究》文中进行了进一步梳理近年来,单通道语音增强技术在移动语音通信系统中获得了广泛的应用,但在复杂噪声场景中其性能往往不能达到实际应用的需求。本文从噪声估计方法的改进、现有语音增强技术的融合、人工神经网络在语音增强中的应用,以及应用于移动通信系统网络设备中的压缩域语音增强方法等方面进行研究,提出了几种适用于移动通信系统的单通道语音增强方法。本文的研究成果可以总结为以下几个方面:1.为提高噪声估计方法对噪声强度突变的跟踪能力,本文在最小值控制递归平均方法基础上,提出了一种噪声估计加速方法。首先检测含噪语音功率谱的突变情况,检测到突变后设定具有自适应长度的拖尾段,并在拖尾段中利用多参数话音激活检测方法判断语音的存在性,而后结合噪声估计与最小值比例参数,判定是否对噪声估计进行强制更新。ITU-T G.160标准下的性能测试结果表明,噪声估计加速方法不会对噪声强度平稳时的性能产生影响,但噪声强度突变时的收敛时间得到了显着的降低,同时有效消除了收敛过程中的音乐噪声现象。2.为结合不同语音增强算法的优势,本文提出了一种基于小波融合的语音增强方法。该方法首先利用双正交小波包变换将含噪语音分解为若干个子带;而后分别使用加权欧氏失真测度幅度谱估计器和过减型小波阈值方法在各子带中进行增强;进一步,利用基于互相关和先验信噪比的融合准则,将两种方法所得输出小波系数结合起来;最后利用逆小波包变换得到增强语音。利用ITU-T G.160标准进行性能测试,结果表明,与参考方法相比,所提方法可以获得更好的客观语音质量。3.通过在传统的去噪自动编码器(Denoising Auto-encoder,DA)中引入加权重建损失函数,本文提出了一种加权去噪自动编码器(Weighted DenoisingAuto-encoder,WDA)模型,并用于描述纯净语音和含噪语音功率谱的关系。在此基础上,提出一种基于WDA和噪声分类的维纳滤波语音增强方法。所提方法首先利用WDA模型估计纯净语音的功率谱,而后利用后验信噪比控制的递归平均方法估计先验信噪比,最终使用频域维纳滤波方法获得增强语音。另外,引入一种基于高斯混合模型的在线噪声分类方法,改善所提方法在不同噪声环境中的适用性。基于ITU-T G.160的性能测试结果表明,与传统的频域维纳滤波方法相比,所提方法在训练集内和集外噪声环境中都可以获得更好的客观语音质量。4.基于ITU-T G.722.2编码器的比特流,通过调整码书增益参数,本文提出了一种兼容非连续传输模式和帧擦除情况的压缩域语音增强方法。在非DTX模式,首先在压缩域进行话音活动性检测和背景噪声分类;而后利用代数码书能量估计噪声强度,并根据噪声类型估计信噪比;进而对自适应码书和代数码书增益进行联合调整,并重新量化编码。在非连续传输模式的非语音帧中,对对数帧能量进行衰减以消除噪声的影响,同时保持谱包络参数不变。在帧擦除发生时,对恢复得到的代数码书增益进行指数衰减,重建代数码书矢量,并对所有编码参数进行重新编码。基于ITU-T G.160标准的性能测试结果表明,所提方法可以在低复杂度前提下,获得优于现有压缩域语音增强方法的噪声衰减、信噪比提高和主客观语音质量。
郭艳菊[6](2014)在《基于仿生智能优化的图像处理算法研究》文中研究表明随着数字图像处理技术的迅速发展,数字图像处理在军事、医学、工业生产、遥测遥控等领域的应用也越来越广泛。图像信息特征的复杂性和多样性越来越明显,对图像信息的处理也变得越来越困难。图像信息的不确定性以及建模困难等问题,使传统的优化方法在解决复杂的图像处理问题时变得无能为力。仿生智能优化算法是模拟生物体生存发展行为方式的目标优化算法,可以有效地求解复杂的优化问题。将仿生智能优化算法应用于解决复杂的图像处理问题具有很好的发展前景。本文围绕细菌优化算法、人工蜂群优化算法和搜寻者优化算法三种仿生智能优化算法分别应用于图像处理的理论和方法展开研究,提出了一些图像处理的新方法和新思路,所做的主要工作如下:1.提出了一种基于人工蜂群优化的矢量量化图像压缩算法。将均方误差作为衡量码书质量的目标函数,采用人工蜂群优化算法对矢量量化图像压缩中的码书进行优化设计。为了进一步提高算法的性能,采用基于混沌映射和反向学习的群体初始化方法生成初始码书,减小了初始码书对优化结果的影响;将差分进化中的变异操作引入到基本人工蜂群算法的搜索策略中,加快了算法的收敛速度;并且在适应度函数的计算过程中引入了基于和值的快速码字搜索算法的思想,大大减少了算法的计算量。实验结果表明,算法收敛精度高,计算时间短,生成的码书不仅质量高,而且通用性好。2.提出了一种基于细菌趋药性的盲图像分离算法。算法将规范四阶累积量的绝对值作为盲图像分离的目标函数,采用细菌趋药性算法对这一目标函数进行优化求解,对原图像的分离过程采用逐次提取的分离模型,每次提取后从混合图像中消去已分离出的源图像成分,最终实现对所有源图像的盲分离。实验结果表明,本方法能够有效实现对多幅混合自然图像的盲分离,并由分离图像与源图像之间的PSNR值和相关系数值可知,该方法具有较好的分离效果。3.提出了一种基于搜索者优化的运动目标检测算法。算法将运动目标检测问题转化为盲图像分离问题,采用独立成分分析的方法进行解决。将负熵作为盲图像分离的目标函数,利用搜索者优化算法优良的优化求解能力对目标函数进行求解,从而得到某一独立成分的分离图像,再通过重复分离与去相关计算实现多幅图像的成功分离,最终得到运动目标清晰的运动轨迹。
唐晔[7](2013)在《基于词袋模型的图像分类关键技术研究》文中研究指明图像分类是当今计算机视觉领域持续热点研究问题,而机器学习作为解决图像分类问题的理论支撑和模型方法,也因实际问题的复杂性,得到进一步发展。虽然让计算机完全理解图像丰富的语义困难重重,但近年来词袋模型被成功引入处理图像分类,并快速衍生出一系列高效的图像分类算法,使得图像分类研究向前迈出了一大步。本文围绕词袋模型基础框架的关键步骤:码书学习和特征空间汇合进行初步研究。首先,提出增量神经网络学习改进传统聚类手段构建码书,此方法能在线、高效学习合适的视觉单词集合,同时以网络的形式表示码书,为后续特征编码提供了更丰富的信息。进而设计了基于子图的编码方法,有效利用码书网络中单词之间的联系为特征编码。实验表明,结合这两种方法能有效的提升了图像分类准确度及计算效率。然后,在分析现有基于稀疏表示的码书模型的迭代学习算法缺点的基础上,将自调式学习机制引入基于稀疏表示的码书学习算法,设计了一套从简单到复杂的学习框架学习基于稀疏表示的码书模型,通过实验分析验证了这种有序学习机制能改善原有迭代算法的结果,并提升分类效果。最后,详细分析二阶特征空间汇合方法,然后针对其造成的高维图像特征表示问题,提出一种融合黎曼流形上图嵌入判别分析的图像低维二阶统计信息特征表示。实验表明,该方法既可以有效降低图像特征表示维度,又能保持高的分类准确度。
李群[8](2013)在《场景图像不变特征提取及分类方法的研究》文中研究指明图像分类是计算机视觉领域的一个基本问题,近年来已吸引了大量的关注。目前的研究往往以结合空间金字塔匹配(Spatial Pyramid Matching,SPM)的词袋(Bag-of-Words, BoW)模型为基础展开。此方案为场景图像分类提供了一个有效的捕捉图像统计信息的方式。词袋模型最初应用于自然语言处理和信息检索,是一个简化的假设。在这个模型中,不考虑语法甚至语序,把文本(如一个句子或者一个文档)表示为一个无序的词的集合。计算机视觉的研究者们从此受到启发,把该理论扩展应用到图像表示中。假定图像是一个文本,从图像提取的局部关键点特征对应于文本中的“词”。BoW表示是进一步图像处理的基础,如目标识别。此方法首先学习一个视觉词汇表(vocabulary),然后量化每一个图像的关键点特征使其成为视觉词汇表中的的某个视觉词(visual word),最后用视觉词的频率直方图表示图像。视觉词汇表也称为码书或者码本(codebook),视觉词汇相对应的称为码字(codeword)。在此过程中,往往用聚类算法(k-means)生成码书。大量的研究和学习表明,BoW模型在目标识别领域取得了令人鼓舞的成果。因此,本文以BoW模型为研究背景,主要探讨和研究图像不变特征的表示方法和场景图像分类算法。目前,码书通常是用训练集图像通过聚类方法得到。此外还有基于有监督的码书学习、核码书学习、稀疏编码等码书生成方法。利用这些方法生成的码书存在冗余的缺点。本文中,应用新近提出的激活力(Word Activation Forces, WAFs)来减少BoW模型中码书的冗余性。实验结果表明,基于WAFs的码书优化算法是有效的。通过码书的优化,图像特征表示得到改善。此外,本文提出使用软阈值-倒排文档频率(soft-Inverse DocumentFrequency,soft-IDF)优化BoW特征。给定码书和数据集,每个视觉词(码字)在特定的图像中出现的次数不同,而且出现在不同数量的图像中。一些视觉词出现频率很高,相反一些视觉词罕见的出现在几幅图像中。基于Soft-IDF的BoW特征优化方法平衡了这种不均衡性。实验表明,所提出的方法在场景图像分类中取得了令人鼓舞的效果。本文还提出基于参考比较(reference-based)的场景图像分类方法。该方法用一个参考集(reference-set)对图像进行表示,并利用该reference-set进行码书学习。联合reference-set的码书学习过程为:首先加权联合该reference-set到目标函数中,形成一个归一化的目标函数,然后用K-SVD算法优化求解,学习码书。码书生成以后,提取图像的局部限制的线性编码特征(Locality-constrained Linear Coding, LLC)表示图像。接下来,计算图像和reference-set的相似度矢量,以此矢量作为图像的最终特征。通过此过程,图像的特征空间维数显着降低。更重要的是,实验结果表明,reference-based算法实现了卓越的分类性能。Reference-based场景图像分类算法成功引入一个reference-set到码书学习和图像特征表示过程,其reference-set是每类图像中随机选取若干图像组建而成,相似度度量方法也是应用简单的距离测量。本文中,作者对该算法主要从两方面进行了改进。首先,给定更有代表性的reference-set。为此,本文改进了k-means聚类方法,在特征空间选择了一个更有代表性的reference-set。另一方面,在图像分类过程中,把reference-set的每一类看作一个社会网络,用社会网络中的中介度中心性(betweenness centrality)度量图像和reference-set的相似性。因为考虑了查询图和reference-set的整体关联性,因此该度量方法更加准确。而且不同于以往只考虑图像与图像的相似度测量,betweenness centrality引入了图像到图像类的相似度测量。通过大量的实验证实,改进算法获得了更好的性能,改进算法也成功的将社会网络的理论应用到场景图像分类领域。
陈辉[9](2013)在《线谱频率高效编码算法研究》文中指出近二十年来,语音编码已经成为了现代数字通信领域中关于语音通信的最重要的关键技术之一。线性预测模型和它的系数线谱频率(LSF)的编码广泛应用于多种语音处理中,用于表征语音信号中的谱包络信息。常用的高效线谱频率矢量量化方法常用的有多级矢量量化和分裂矢量量化。而在相同的计算复杂度下,多级矢量量化被证明要优于分裂矢量量化。在多级矢量量化中,存在一种联合调整码书设计的算法要优于顺序多级矢量量化设计的码书,因为在多级矢量量化方法中实现了瞬时联合调整码书设计算法。论文首先实现了基于LBG算法的线谱频率矢量量化的算法框架。第二,是以实现的LBG码书设计算法为基础,实现了一个LSF矢量量化的顺序多级码书设计算法。后来由于考虑到相连的LSF值之间有相似性,这种帧间帧内相关性可以用来预测下一个和相邻的LSF系数,用以去除这种相关性。通过这个方法,LSF系数的矢量量化性能可以得到提高。第三,设计和实现了一个多级联合矢量量化码书设计算法及其相关的编码算法。另外,也设计和实现了两个带一阶自回归预测和一步差值预测的多级联合码书设计算法。测试结果表明,本文实现的LSF矢量量化码书设计算法和相应的编解码器的性能都好于经典的语音编码算法中的LSF量化部分,如窄带AMR和MELP系统。因此本文实现的码书设计和编解码算法可以在不同的语言编码中得到应用。
梁彦霞[10](2011)在《低速率多带激励线性预测语音编码技术的研究》文中研究表明近年来,随着无线通信产业的发展,用户需求快速增长,导致可供使用的频谱资源越来越少,提高频谱利用率成为解决频谱资源短缺的重要手段。语音通信是无线通信的基本业务应用,低速率、高质量一直是其追求的目标。多带激励(Multi-Band Excitation, MBE)模型是语音编码算法中低速高质的一种典型代表。该模型采用了参数编码,相对于波形编码降低了编码速率;同时,此模型将频段进行了更细小的划分,提高了清/浊音判决的精确度,从而提高了语音的质量。本文工作包括语音通信中多模多带线性预测语音编码算法的研究以及矢量量化方法的改进,主要创新性成果如下:1.提出了一种多模多带激励线性预测(Multimode MBE with Linear Predibtive Coding, MMBE-LPC)语音编解码器模型。这种编解码器与现有的MBE编解码器相比在两个方面有所改进。一、解决了频谱幅度变维量化的难题。结合线性预测的方法,将维数变化的频谱幅度转换为维数固定的线性预测系数;并将线性预.测系数用线谱频率(Line Spectral Frequency, LSF)参数表示并进一步量化,保证了量化的精确度。二、提出了一种子带划分方法和清/浊音判决阈值。先确定每帧中子带的个数,再对各子带进行清/浊音判决,进而对判决结果进行模式划分。由于在不同的清/浊音判决模式下,LSF参数的统计特性不同,因此采用不同的码书对LSF参数矢量进行量化,提高了量化的质量。另外,该模型采用了一种与能量相关的、自适应的清/浊音判决阈值,比MBE的阈值设计更加简化。仿真结果显示,时域合成语音的清音区和浊音区划分清晰,且与原始语音一致,语谱图也拟合得很好。2.提出了一种量化LSF矢量参数的滑动平均多级分裂矢量量化方法(Moving Average Multi-Stage Split Vector Quantization, MA-MS-SVQ)。采用该方法生成码书,更充分地利用了线谱频率参数帧内和帧间的相关性,减小了码书的存储空间,降低了码书的搜索复杂度。这种矢量量化器将线谱频率参数去除平均值后进行一阶滑动平均预测,将残差进行三级矢量量化。在第二级量化时,将高维线谱频率参数矢量分裂成两个低维的部分,分别用不同的码书进行量化。仿真结果表明,在低速率编码下,合成语音的平均谱失真达到0.91dB,2dB~4dB的谱泄露为0.13%,无4dB以上谱泄露。码书的存储空间和搜索复杂度均降低了31%以上。3.提出了一种贪婪树初始码书间距最大化算法(Most Dispersed Greedy TreeGrowing Algorithm, MD-GTGA),用来设计Linde-Buzo-Gray (LBG)算法初始码书,解决了LBG算法容易陷入局部最优的问题。MD-GTGA首先采用贪婪树生长算法(Greedy Tree Growing Algorithm, GTGA)生成基础码书,然后再采用码书间距最大化算法(Most Dispersed Codewords in Initialization, MDCI)从基础码书中生成初始码书。在仿真中对随机法、分裂法、GTGA和MDCI算法进行了比较,结果表明,采用GTGA生成LBG算法初始码书,合成语音的平均谱失真最小。与GTGA和MDCI算法相比,MD-GTGA降低了量化的平均失真度与平均谱失真。4.提出了一种改进的成对最近邻(Improved Pariwise Nearest Neighbors, IPNN)算法,用来生成LBG算法初始码书。该算法首先采用随机法或者分裂法选定预备码书,然后采用PNN的合并方法,以最相邻原则将训练矢量依次合并到预备码书的码字中。仿真结果显示,与PNN (Pariwise Nearest Neighbors, PNN)算法相比,IPNN算法生成LBG初始码书的训练时间短;与随机法相比,用分裂法生成的预备码书性能更稳定。仿真测试结果表明,用该算法生成LBG初始码书,合成语音的平均谱失真在1dB左右,2dB-4dB的谱泄露小于2%,无4dB及以上的谱泄露。
二、一种简单、快速的码书训练算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种简单、快速的码书训练算法(论文提纲范文)
(1)基于监督学习构建维纳滤波器的语音增强方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景 |
1.2 国内外研究现状 |
1.2.1 基于无监督学习的语音增强方法 |
1.2.2 基有监督学习的语音增强方法 |
1.3 研究目标 |
1.4 研究内容 |
1.5 论文结构 |
第2章 利用语音谐波结构码书驱动维纳滤波器的语音增强算法 |
2.1 传统码书驱动维纳滤波器的语音增强算法 |
2.1.1 传统码书驱动算法的结构框架 |
2.1.2 传统码书驱动算法原理 |
2.2 MBE谱的估计算法 |
2.3 利用语音谐波结构的码书驱动语音增强算法 |
2.3.1 语音存在概率的估计 |
2.3.2 AR谱的估计 |
2.3.3 维纳滤波器的构造 |
2.4 性能测试及结果分析 |
2.4.1 实验设置 |
2.4.2 实验结果及分析 |
2.5 本章小结 |
第3章 基于语音倒谱和深度神经网络的语音增强方法 |
3.1 深度神经网络在语音增强上应用的基本原理 |
3.1.1 深度神经网络在语音增强上的应用概述 |
3.1.2 MLP的基本原理 |
3.2 利用深度神经网络和倒谱匹配的语音增强方法 |
3.2.1 利用MLP直接匹配语音倒谱的语音增强方法 |
3.2.2 预测理想维纳滤波器的MLP框架 |
3.2.3 基于MLP实现语音增强的混合模型 |
3.3 实验及结果分析 |
3.3.1 实验数据集设置 |
3.3.2 实验所用MLP的设置 |
3.3.3 实验结果及其分析 |
3.4 本章小结 |
第4章 基于生成对抗网络的语音增强方法 |
4.1 LSTM原理简介 |
4.1.1 RNN的简要概述 |
4.1.2 LSTM的原理 |
4.2 GAN原理简介 |
4.3 基于GAN和 LSTM的语音增强方法 |
4.3.1 学习训练目标 |
4.3.2 LSTM-GAN的网络结构及训练目标函数 |
4.3.3 实验及结果分析 |
4.3.4 总结 |
4.4 基于Cycle GAN的语音增强方法 |
4.4.1 生成器的结构 |
4.4.2 基于Cycle GAN的语音增强方法 |
4.4.3 用于实现语音增强 Cycle GAN 的训练目标函数 |
4.4.4 实验及结果分析 |
4.4.5 总结 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间所发表和递交的学术论文 |
攻读硕士学位期间参加的科研项目 |
致谢 |
(2)基于局部特征和弱标注信息的图像分类和识别(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题来源 |
1.2 课题研究的背景、目的与意义 |
1.3 相关领域国内外研究现状分析 |
1.3.1 基于局部特征的图像分类研究现状 |
1.3.2 基于弱监督学习的图像目标检测研究现状 |
1.3.3 基于上下文信息的场景语义分割与对象识别研究现状 |
1.4 本文主要研究内容和组织结构 |
1.4.1 主要研究内容 |
1.4.2 组织结构 |
第2章 词袋表示和概率图模型研究 |
2.1 词袋表示 |
2.1.1 图像特征 |
2.1.2 码书的构建 |
2.1.3 图像的特征编码 |
2.1.4 特征组合 |
2.1.5 实验设计与分析 |
2.2 概率图模型 |
2.2.1 典型的概率图模型 |
2.2.2 概率图模型的学习和推理 |
2.3 主题模型 |
2.3.1 LDA主题模型 |
2.3.2 MCMC采样和Gibbs采样 |
2.3.3 参数估计 |
2.3.4 主题模型中对称与非对称的先验信息 |
2.3.5 实验分析与讨论 |
2.4 本章小结 |
第3章 基于局部特征描述图像的多核优化分类 |
3.1 局部特征的多尺度表示方法 |
3.1.1 图像特征的金字塔模型表示 |
3.1.2 特征候选区域的提出 |
3.2 分类器的设计与多核函数的优化 |
3.2.1 分类器的选取和设计 |
3.2.2 核函数的选择 |
3.2.3 多核优化组合下的图像分类 |
3.3 实验分析与讨论 |
3.3.1 合成数据实验分析与讨论 |
3.3.2 Caltech101目标图像实验分析与讨论 |
3.3.3 15 Scenes场景图像实验分析与讨论 |
3.4 本章小结 |
第4章 基于主题建模的弱标注图像目标定位 |
4.1 图像特征的分布态势 |
4.1.1 先验知识的学习 |
4.1.2 多项式分布下的狄利克雷函数分析 |
4.1.3 高斯分布下的Normal-Inverse-Wishart函数分析 |
4.2 弱标注图像目标的层次结构建模 |
4.2.1 相关生成模型描述 |
4.2.2 “目标-部位-特征”层次结构模型描述 |
4.2.3 模型中变量的联合概率分布 |
4.3 目标发现与定位的机制学习 |
4.3.1 参数推理 |
4.3.2 部位特征共享池的建立 |
4.3.3 图像目标的发现与定位 |
4.4 实验分析与讨论 |
4.4.1 PASCAL VOC20076×2 实验分析与讨论 |
4.4.2 Object Discovery图像集实验分析与讨论 |
4.5 本章小结 |
第5章 基于上下文弱标注信息的场景语义分割和对象识别 |
5.1 基于上下文弱标注信息的场景层次结构建模 |
5.1.1 “特征-部位-对象-场景”的层次结构模型描述 |
5.1.2 对象和部位联合的Gibbs取样 |
5.2 模型参数的学习 |
5.2.1 对象出现可能性的推理 |
5.2.2 分割区域语义的推理描述 |
5.2.3 场景的全局语义表述和对象识别 |
5.3 实验分析与讨论 |
5.3.1 合成数据实验分析与讨论 |
5.3.2 PASCAL VOC2012 ACTION实验分析与讨论 |
5.3.3 LabelMe实验分析与讨论 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 本文的工作总结和创新点 |
6.2 下一步工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的研究成果 |
(3)糖尿病视网膜病变自动分类方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 相关医学基础 |
1.2.1 眼底结构 |
1.2.2 糖尿病视网膜病变 |
1.3 国内外研究现状 |
1.4 研究目标和内容 |
1.5 章节安排与研究路线 |
第2章 基于自适应升采样集成学习的微动脉瘤检测方法 |
2.1 存在的问题及方法创新点 |
2.2 相关工作与基础方法 |
2.2.1 不均衡数据分类 |
2.2.2 SMOTE采样算法 |
2.2.3 高斯混合模型 |
2.2.4 极限学习机 |
2.3 基于自适应升采样集成学习微动脉瘤检测方法的设计与实现 |
2.3.1 方法概述 |
2.3.2 疑似微动脉瘤的识别与特征提取 |
2.3.3 疑似微动脉瘤的分类 |
2.4 实验结果与分析 |
2.4.1 实验设置 |
2.4.2 验证不同优化目标对ELM分类性能的影响 |
2.4.3 验证不同采样方法和采样率对分类性能的影响 |
2.4.4 验证基于ASMOTE的不同集成学习方法的性能 |
2.4.5 验证不同分类方法的性能 |
2.4.6 与其他微动脉瘤检测方法的性能比较 |
2.5 本章小节 |
第3章 基于多核多示例学习的糖尿病视网膜病变诊断方法 |
3.1 存在的问题及方法创新点 |
3.2 相关工作与基础方法 |
3.2.1 多示例学习 |
3.2.2 多核学习 |
3.3 基于多核多示例学习的糖网诊断方法的设计与实现 |
3.3.1 方法概述 |
3.3.2 疑似HMA病灶检测和特征提取 |
3.3.3 不相关示例过滤 |
3.3.4 基于多核图的多示例学习算法(mkmi-Graph) |
3.4 实验结果与分析 |
3.4.1 实验设置 |
3.4.2 有效性验证 |
3.4.3 多示例方法的比较 |
3.4.4 与其他糖网诊断方法的比较 |
3.5 本章小结 |
第4章 基于代价敏感半监督集成学习的糖尿病视网膜病变分类方法 |
4.1 存在的问题及方法创新点 |
4.2 相关工作与基础方法 |
4.2.1 代价敏感学习 |
4.2.2 半监督学习 |
4.3 基于代价敏感半监督集成学习的糖网分类方法的设计与实现 |
4.3.1 方法概述 |
4.3.2 疑似病灶检测及特征提取 |
4.3.3 疑似病灶的分类 |
4.3.4 糖网分类 |
4.4 实验结果与分析 |
4.4.1 实验设置 |
4.4.2 模型参数有效性验证 |
4.4.3 分类结果与方法比较 |
4.5 本章小结 |
第5章 基于黄斑与硬性渗出检测的糖尿病黄斑水肿分类方法 |
5.1 存在的问题及方法创新点 |
5.2 相关工作与基础方法 |
5.2.1 RSF模型 |
5.2.2 矢量量化 |
5.2.3 基于图的半监督学习 |
5.3 基于黄斑与硬性渗出检测的DME分类方法的设计与实现 |
5.3.1 方法概述 |
5.3.2 视盘的定位与分割 |
5.3.3 黄斑中心的定位 |
5.3.4 疑似硬性渗出的检测与分类 |
5.3.5 糖尿病黄斑水肿分类 |
5.4 实验结果与分析 |
5.4.1 实验设置 |
5.4.2 模型参数有效性验证 |
5.4.3 实验结果与方法比较 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 本文的主要研究成果 |
6.2 未来的展望 |
参考文献 |
致谢 |
攻读学位期间发表的论文及项目工作 |
(4)自回归模型驱动的语音增强算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景 |
1.2 国内外研究现状 |
1.2.1 无先验信息语音增强算法研究现状 |
1.2.2 有先验信息语音增强算法研究现状 |
1.3 研究目标 |
1.4 研究内容 |
1.5 论文结构 |
第2章 自回归模型基础理论 |
2.1 信号AR模型 |
2.2 AR模型参数的自相关求解方法 |
2.3 AR模型参数与AR谱包络 |
2.4 本章小结 |
第3章 基于增益自适应的PHMM语音增强算法 |
3.1 隐马尔可夫模型理论 |
3.1.1 HMM的基本参数 |
3.1.2 HMM的基本算法 |
3.2 传统的基于HMM的语音增强算法 |
3.2.1 基于AR-HMM的语音增强算法 |
3.2.2 基于梅尔频率谱参数HMM语音增强算法 |
3.3 基于增益自适应的PHMM语音增强算法 |
3.3.1 PHMM的线下训练 |
3.3.2 含噪语音模型 |
3.3.3 MFS域中的增益调整因子估计 |
3.3.4 AR域中的谱增益因子估计 |
3.3.5 在线语音增强 |
3.4 性能测试及实验结果分析 |
3.4.1 测试数据说明 |
3.4.2 测试方法说明 |
3.4.3 测试结果与分析 |
3.5 本章小结 |
第4章 基于马尔科夫过程和语音存在概率的码书驱动语音增强算法 |
4.1 传统的码书驱动语音增强算法 |
4.1.1 基于极大似然估计的码书驱动语音增强算法 |
4.1.2 基于贝叶斯参数估计的码书驱动语音增强算法 |
4.2 基于马尔科夫过程和语音存在概率的码书驱动语音增强算法 |
4.2.1 线下AR系数码字的帧间相关性建模方法 |
4.2.2 线下AR谱增益的帧间相关性建模方法 |
4.2.3 线上AR谱参数的贝叶斯估计 |
4.2.4 改进的码书驱动维纳滤波器 |
4.3 性能测试及实验结果分析 |
4.3.1 测试数据说明 |
4.3.2 测试方法说明 |
4.3.3 测试结果与分析 |
4.4 本章小结 |
第5章 基于AR谱增益乘法迭代估计的码书驱动语音增强算法 |
5.1 噪声AR谱形状的在线估计 |
5.2 AR谱增益的乘法迭代估计 |
5.3 在线语音增强 |
5.3.1 AR谱参数的贝叶斯估计 |
5.3.2 码书驱动维纳滤波器 |
5.4 性能测试集实验结果分析 |
5.4.1 测试数据说明 |
5.4.2 测试方法说明 |
5.4.3 测试结果与分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
攻读硕士学位期间参加的科研项目 |
致谢 |
(5)面向移动通信的单通道语音增强方法研究(论文提纲范文)
摘要 |
Abstract |
图例 |
表例 |
第1章 绪论 |
1.1 课题背景 |
1.2 语音增强技术研究现状 |
1.2.1 线性域语音增强 |
1.2.2 压缩域语音增强 |
1.2.3 语音增强方法的性能评价 |
1.3 主要研究内容 |
1.4 论文组织结构 |
第2章 适应噪声强度突变的噪声估计加速方法 |
2.1 概述 |
2.2 噪声估计加速方法 |
2.2.1 功率谱突变检测 |
2.2.2 多参数VAD算法 |
2.2.3 噪声更新判决 |
2.3 性能测试 |
2.3.1 ITU-T G.160 测试方法 |
2.3.2 噪声强度平稳情况 |
2.3.3 噪声强度突变情况 |
2.4 小结 |
第3章 基于小波融合的语音增强方法 |
3.1 概述 |
3.2 小波包变换 |
3.3 WEDM 幅度谱估计器 |
3.4 小波阈值方法 |
3.4.1 阈值估计方法 |
3.4.2 小波阈值函数 |
3.5 小波融合准则 |
3.6 性能测试 |
3.6.1 白噪声衰减测试 |
3.6.2 有色噪声衰减测试 |
3.6.3 收敛时间测试 |
3.6.4 客观语音质量测试 |
3.7 小结 |
第4章 基于加权去噪自动编码器的维纳滤波语音增强方法 |
4.1 概述 |
4.2 基本原理 |
4.2.1 基于 GMM 的噪声分类方法 |
4.2.2 加权去噪自动编码器 |
4.2.3 信噪比估计 |
4.2.4 频域维纳滤波 |
4.3 权重函数对 WDA 模型性能的影响分析 |
4.4 模型结构对 WDA 模型性能的影响分析 |
4.4.1 隐层节点数目 |
4.4.2 隐层数目 |
4.5 性能测试 |
4.5.1 实验设定 |
4.5.2 噪声分类测试 |
4.5.3 噪声衰减测试 |
4.5.4 客观语音质量测试 |
4.6 小结 |
第5章 基于 ITU-T G.722.2 的压缩域语音增强方法 |
5.1 概述 |
5.2 ITU-T G.722.2 编码标准 |
5.3 噪声对编码参数的影响分析 |
5.3.1 ISF 参数 |
5.3.2 码书增益参数 |
5.4 非 DTX 模式的压缩域语音增强方法 |
5.4.1 压缩域 VAD 算法 |
5.4.2 噪声分类算法 |
5.4.3 码书增益联合调整算法 |
5.4.4 激励信号后处理算法 |
5.4.5 码书增益重新量化方法 |
5.5 DTX 模式下的压缩域语音增强方法 |
5.6 帧擦除情况的压缩域语音增强方法 |
5.7 性能测试 |
5.7.1 G.160 测试 |
5.7.2 主观语音质量测试 |
5.7.3 计算复杂度测试 |
5.7.4 DTX 模式下的性能测试 |
5.7.5 帧擦除情况下的性能测试 |
5.8 小结 |
第6章 全文总结与展望 |
6.1 论文工作总结 |
6.2 论文的主要创新点 |
6.3 工作展望 |
参考文献 |
攻读博士学位期间发表的学术论文 |
攻读博士学位期间参加的科研项目和获奖情况 |
致谢 |
(6)基于仿生智能优化的图像处理算法研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第一章 绪论 |
1.1 图像处理技术研究概况 |
1.1.1 图像压缩研究现状 |
1.1.2 图像分离研究现状 |
1.1.3 图像运动目标检测研究现状 |
1.2 仿生智能优化算法研究概况 |
1.2.1 细菌优化算法研究现状 |
1.2.2 人工蜂群优化算法研究现状 |
1.2.3 搜索者优化算法研究现状 |
1.3 课题研究的意义及方法 |
1.3.1 课题研究的意义 |
1.3.2 课题研究的方法 |
1.4 论文的研究内容及结构安排 |
第二章 仿生智能优化算法 |
2.1 细菌优化算法 |
2.1.1 细菌趋药性算法原理 |
2.1.2 细菌趋药性算法流程 |
2.1.3 引诱剂环境下细菌群体信息交互模式 |
2.1.4 细菌群体趋药性算法流程 |
2.2 人工蜂群优化算法 |
2.2.1 蜜蜂的群体行为 |
2.2.2 人工蜂群优化算法的原理 |
2.2.3 人工蜂群优化算法的特点 |
2.3 搜索者优化算法 |
2.3.1 人类的搜索行为 |
2.3.2 搜索者优化算法的原理 |
2.3.3 搜索者优化算法的实现 |
2.3.4 搜索者优化算法的特点 |
2.4 本章小结 |
第三章 基于人工蜂群优化的图像压缩算法 |
3.1 基于矢量量化的图像压缩的原理 |
3.1.1 矢量量化原理 |
3.1.2 矢量量化图像压缩的基本方法 |
3.1.3 矢量量化图像压缩的关键技术 |
3.1.4 矢量量化图像压缩的目标函数 |
3.2 基于 LBG 的图像压缩算法 |
3.2.1 基于 LBG 的图像压缩算法原理 |
3.2.2 仿真实验及结果分析 |
3.2.3 LBG 算法的局限性 |
3.3 基于基本人工蜂群的图像压缩算法 |
3.3.1 算法参数的编码 |
3.3.2 目标函数的选取与初始群体的确定 |
3.3.3 算法流程 |
3.3.4 仿真实验及结果分析 |
3.4 基于改进人工蜂群的图像压缩算法 |
3.4.1 初始码书设计及搜索策略 |
3.4.2 适应度函数计算过程 |
3.4.3 算法流程 |
3.4.4 仿真实验及结果分析 |
3.5 本章小结 |
第四章 基于细菌优化的图像分离算法 |
4.1 盲图像分离的基本原理 |
4.1.1 盲图像分离的的基本概念和数学模型 |
4.1.2 盲图像分离的求解过程 |
4.1.3 盲图像分离性能的主要评价指标 |
4.2 基于细菌趋药性算法的盲图像分离方法 |
4.2.1 目标函数以及分离方法的选取 |
4.2.2 细菌参数编码 |
4.2.3 算法流程 |
4.2.4 仿真实验及结果分析 |
4.3 本章小结 |
第五章 基于搜索者优化的图像运动目标检测算法 |
5.1 图像运动目标检测理论基础 |
5.1.1 图像运动目标检测需要解决的技术问题 |
5.1.2 图像运动目标检测方法分类 |
5.2 基于混合高斯模型的图像运动目标检测算法 |
5.2.1 算法思想 |
5.2.2 背景模型建立及目标检测 |
5.2.3 背景模型的更新 |
5.3 基于搜索者优化的图像运动目标检测算法 |
5.3.1 研究思路 |
5.3.2 目标函数的确定 |
5.3.3 参数编码及消源过程 |
5.3.4 算法流程 |
5.3.5 仿真实验及结果分析 |
5.4 本章小结 |
第六章 结论 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读博士学位期间所取得的相关科研成果 |
(7)基于词袋模型的图像分类关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 研究内容的现状 |
1.3 论文的内容和贡献 |
1.4 论文组织 |
第二章 基于词袋模型的图像分类 |
2.1 图像局部特征抽取 |
2.2 码书学习 |
2.3 基于码书的特征编码表示 |
2.4 特征空间汇合 |
2.5 图像分类模型设计 |
2.6 总结 |
第三章 基于增量码书学习和子图编码的图像分类 |
3.1 引言 |
3.2 增量码书网络学习 |
3.2.1 相关工作 |
3.2.2 快速增量码书网络学习算法 |
3.3 基于子图的编码 |
3.4 结合增量码书学习与子图编码的图像分类实验与分析 |
3.4.1 实验设置 |
3.4.2 码书学习时间 |
3.4.3 分类准确度 |
3.4.4 不同参数的影响 |
3.5 总结 |
第四章 基于自调式码书学习的图像分类 |
4.1 引言 |
4.2 基于稀疏表示的码书学习 |
4.3 自调式学习相关研究 |
4.4 自调式码书学习 |
4.4.1 自适应阈值计算 |
4.4.2 选取当前简单样本 |
4.4.3 利用简单样本学习码书 |
4.4.4 自调式码书学习算法分析 |
4.5 实验与分析 |
4.5.1 实验环境及实验设置 |
4.5.2 Caltech-101数据集实验分析 |
4.5.3 15-Scene数据集实验分析 |
4.5.4 UIUC 8-Event数据集实验分析 |
4.6 总结 |
第五章 基于二阶特征空间汇合判别分析的图像分类 |
5.1 引言 |
5.2 研究现状 |
5.3 二阶特征空间汇合技术 |
5.4 二阶特征空间汇合技术的判别分析 |
5.4.1 图嵌入判别分析 |
5.4.2 黎曼流形的距离度量 |
5.4.3 判别的低维二阶信息图像表示 |
5.5 实验与分析 |
5.5.1 实验环境及实验设置 |
5.5.2 基于二阶特征空间汇合判别分析的图像分类 |
5.5.3 Caltech-101实验结果及分析 |
5.5.4 15-Scene实验结果及分析 |
5.6 总结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间完成的学术成果 |
攻读硕士学位期间参与的科研课题 |
致谢 |
(8)场景图像不变特征提取及分类方法的研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.1.1 课题研究的背景 |
1.1.2 课题研究的意义 |
1.2 国内外研究现状 |
1.2.1 图像特征提取研究现状 |
1.2.2 图像分类方法研究现状 |
1.3 论文的主要工作和研究成果 |
1.4 论文结构安排 |
第二章 场景图像分类关键技术综述 |
2.1 基于BoW模型的场景图像分类方法流程 |
2.2 尺度不变特征变换描述算子 |
2.2.1 SIFT特征描述符的优势 |
2.2.2 SIFT描述子提取过程 |
2.3 BoW模型概述 |
2.3.1 BoW模型研究现状 |
2.3.2 BoW模型在图像分类中的应用方法 |
2.3.3 SPM词包模型及编码方式 |
2.4 图像分类的评测标准 |
2.4.1 数据测试集 |
2.4.2 性能评价方法 |
2.5 本章小结 |
第三章 基于WAFs的码书优化方法 |
3.1 k-means聚类方法 |
3.2 WAFs定义 |
3.3 基于WAFs的码书优化算法 |
3.4 实验 |
3.4.1 数据集和参数选择 |
3.4.2 Caltech-101 |
3.4.3 Scene15 |
3.4.4 PASCAL VOC2007 |
3.5 本章小结 |
第四章 基于soft-IDF的BoW模型的改进算法 |
4.1 IDF简介 |
4.2 基于Soft-IDF的词包模型优化 |
4.3 码书学习方法 |
4.4 实验 |
4.4.1 数据集和参数设定 |
4.4.2 Scene15 |
4.4.3 Caltech-101 |
4.5 本章小结 |
第五章 结合K-SVD的reference-based场景图像分类算法 |
5.1 Reference-combined字典学习过程 |
5.1.1 重建和稀疏编码的字典学习 |
5.1.2 Reference-combined字典学习 |
5.1.3 应用K-SVD优化求解 |
5.2 Reference-based分类方案介绍 |
5.2.1 方案1 |
5.2.2 方案2 |
5.3 实验 |
5.3.1 数据集和参数选择 |
5.3.2 Caltech-101 |
5.3.3 Scene 15 |
5.3.4 Pascal VOC2007 |
5.3.5 Caltech-256 |
5.3.6 实验结果分析 |
5.4 本章小结 |
第六章 Reference-based场景图像分类算法的改进方法 |
6.1 改进的reference-based图像分类算法概述 |
6.2 基于adapted k-means的reference-set选择方法 |
6.3 中介度中心性测度计算方法 |
6.3.1 中介度中心性测度应用背景 |
6.3.2 中介度中心性测度在reference-based模型中的应用方法 |
6.4 实验 |
6.4.1 数据集和参数选择 |
6.4.2 Caltech-101 |
6.4.3 Scene15 |
6.4.4 PASCAL VOC2007 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 论文工作总结 |
7.2 研究展望 |
附录 缩略语表 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
(9)线谱频率高效编码算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 工作内容 |
1.4 论文结构 |
第二章 线性预测分析与线谱频率 |
2.1 线性预测分析基本原理 |
2.2 线谱频率参数的定义与性质 |
2.3 LSF 系数与 LPC 系数之间的相互转换 |
2.4 本章小结 |
第三章 常用的线谱频率编码方法 |
3.1 矢量量化 |
3.1.1 矢量量化定义 |
3.1.2 矢量量化特点 |
3.1.3 矢量量化相关概念 |
3.1.4 矢量量化关键技术 |
3.1.5 矢量量化与标量量化优缺点 |
3.2 常用线谱频率矢量量化算法 |
3.2.1 LBG 矢量量化算法 |
3.2.2 多级矢量量化算法 |
3.2.3 分裂矢量量化算法 |
3.2.4 预测矢量量化算法 |
3.3 国际标准中的 LSF 编码算法 |
3.3.1 G.729 中 LSF 编码算法 |
3.3.2 AMR 中 LSF 编码算法 |
3.3.3 MELP 中 LSF 编码算法 |
3.4 本章小结 |
第四章 线谱频率编码方法的实现与改进 |
4.1 实现的线谱频率编码方法简介 |
4.2 码书设计算法 |
4.2.1 LBG 算法的实现 |
4.2.2 多级矢量量化设计和实现 |
4.2.3 m进制树搜索和瞬时联合调整 |
4.2.4 预测模型 |
4.3 编解码算法 |
4.3.1 编码器 |
4.3.2 解码器 |
4.4 本章小结 |
第五章 性能测试与分析 |
5.1 性能指标 |
5.1.1 谱失真 |
5.1.2 主观语音质量评估 |
5.2 结果分析与对比 |
5.3 算法实现遇到问题和解决方法 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 论文工作总结 |
6.2 进一步研究方向 |
致谢 |
参考文献 |
(10)低速率多带激励线性预测语音编码技术的研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
图表目录 |
缩略词 |
第一章 绪论 |
§1.1 研究背景和意义 |
§1.2 语音编码概述 |
1.2.1 语音编码技术的分类 |
1.2.2 无线蜂窝系统采用的语音编码技术 |
1.2.3 语音编码技术标准 |
1.2.4 语音信号的数字模型 |
§1.3 语音编码的常用技术 |
1.3.1 语音信号的数字化 |
1.3.2 预处理技术 |
1.3.3 线性预测技术 |
1.3.4 矢量量化技术 |
§1.4 语音编码的性能评价方法 |
1.4.1 编码速率 |
1.4.2 合成语音质量 |
1.4.3 编解码时延 |
1.4.4 算法复杂度 |
1.4.5 其它性能 |
§1.5 低速率语音编码 |
1.5.1 混合激励线性预测编码(MELP) |
1.5.2 正弦变换编码(STC) |
1.5.3 波形内插编码 |
1.5.4 多带激励编码(MBE) |
§1.6 本文研究的主要内容 |
第二章 多带激励声码器 |
§2.1 基于MBE的语音分析 |
§2.2 基音周期的估计 |
2.2.1 基音周期的谱似然估计 |
2.2.2 基音周期的时域自相关函数估计 |
2.2.3 基音周期估计中的偏差校正 |
2.2.4 基音周期估计步骤 |
§2.3 清/浊音判决 |
§2.4 谱包络参数确定 |
§2.5 语音合成 |
2.5.1 频域法合成语音 |
2.5.2 时域法合成语音 |
§2.6 本章小结 |
第三章 多模多带激励线性预测编码 |
§3.1 研究背景 |
§3.2 MMBE-LPC语音编解码器模型 |
§3.3 基音周期估计 |
3.3.1 初始基音估计 |
3.3.2 基音精细估计 |
§3.4 子带划分方法及清/浊音判决阈值 |
3.4.1 IMARSAT-M IMBE清/浊音判决方法 |
3.4.2 新的子带划分方法及清/浊音判决阈值 |
§3.5 谱包络估计 |
§3.6 量化方法与性能评价 |
3.6.1 多模量化方法及比特分配 |
3.6.2 性能评价 |
§3.7 本章小结 |
第四章 线性预测系数的滑动平均多级分裂矢量量化 |
§4.1 矢量量化原理 |
4.1.1 矢量量化的定义 |
4.1.2 失真测度 |
§4.2 矢量量化系统 |
4.2.1 多级矢量量化 |
4.2.2 分裂矢量量化 |
4.2.3 滑动平均 |
§4.3 滑动平均多级分裂矢量量化 |
4.3.1 多级分裂矢量量化原理 |
4.3.2 滑动平均多级分裂矢量量化 |
§4.4 失真测度与客观评价 |
4.4.1 失真测度 |
4.4.2 客观评价指标 |
§4.5 实验结果与性能评价 |
4.5.1 分裂维数的选择 |
4.5.2 三种量化方案比较 |
§4.6 本章小结 |
第五章 LBG算法初始码书生成方法的研究 |
§5.1 几种LBG初始码书设计方法的比较 |
5.1.1 初始码书生成算法的基本原理 |
5.1.2 实验结果与分析 |
5.1.3 本节小结 |
§5.2 贪婪树码书间距最大化算法 |
5.2.1 贪婪树码书间距最大化算法的原理 |
5.2.2 实验结果与分析 |
5.2.3 本节小结 |
§5.3 设计LBG初始码书的改进的PNN算法 |
5.3.1 PNN算法 |
5.3.2 PCC算法 |
5.3.3 改进的PNN算法 |
5.3.4 实验结果与分析 |
5.3.5 本节小结 |
§5.4 本章小结 |
第六章 总结和展望 |
§6.1 全文内容总结 |
§6.2 后续研究工作展望 |
参考文献 |
致谢 |
攻读博士学位期间研究成果 |
四、一种简单、快速的码书训练算法(论文参考文献)
- [1]基于监督学习构建维纳滤波器的语音增强方法研究[D]. 项扬. 北京工业大学, 2019
- [2]基于局部特征和弱标注信息的图像分类和识别[D]. 吴绿. 武汉理工大学, 2018(07)
- [3]糖尿病视网膜病变自动分类方法研究[D]. 任福龙. 东北大学, 2018(01)
- [4]自回归模型驱动的语音增强算法研究[D]. 何奇. 北京工业大学, 2016(03)
- [5]面向移动通信的单通道语音增强方法研究[D]. 夏丙寅. 北京工业大学, 2014(03)
- [6]基于仿生智能优化的图像处理算法研究[D]. 郭艳菊. 河北工业大学, 2014(03)
- [7]基于词袋模型的图像分类关键技术研究[D]. 唐晔. 南京大学, 2013(08)
- [8]场景图像不变特征提取及分类方法的研究[D]. 李群. 北京邮电大学, 2013(01)
- [9]线谱频率高效编码算法研究[D]. 陈辉. 西安电子科技大学, 2013(S2)
- [10]低速率多带激励线性预测语音编码技术的研究[D]. 梁彦霞. 西安电子科技大学, 2011(04)