一、SSE指令系统研究及应用(论文文献综述)
许凯[1](2020)在《基于哈希的高通量生物基因测序数据处理算法优化》文中研究指明近年来,随着生命科学技术不断发展,特别是在高通量测序技术(通常称为下一代测序,Next Generation Sequencing,NGS)的飞速发展推动下,生命科学中生成的数据量大大增加,基因组测序项目的数量和测序数据的数量急剧增加。高通量测序数据在飞速增加,但处理器的性能提升速度却逐年放缓,甚至接近停滞,单个处理器的性能已经难以进一步扩展。在2015年,由于提升芯片频率等方法会进一步加大芯片的散热问题,同时,指令级的流水和并行也出现了巨大的局限性和低效性,各种微体系结构的改进已经达到瓶颈,处理器性能的提升现在每年只有3.5%,平均20年提升一倍,摩尔定律在芯片领域几乎已经失效。因此学者们开启了多核和异构体系结构的研究,不需要改变程序的算法和实现仅仅依靠芯片性能提升从而使程序性能获得大幅度改善已经变得越来越困难,“免费午餐”的时代已经过去。因此,一方面生命科学高通量测序数据一直在急剧增加,另一方面近年来计算性能的提升主要集中在新兴体系结构的发展,因此在新的体系结构上如何处理高通量测序数据是急切需要解决的问题。基因纠错和基因比对是高通量测序数据处理中前期的两个步骤,纠错和比对在同构CPU上的研究已经有很多,但是针对异构架构处理器的研究和针对大规模数据集的处理研究相对较少。如何在基础的算法上进行改进使得计算量减少,如何针对新兴的异构体系架构进行针对性的设计以适应不同架构处理器的特点,如何进行分布式的实现以针对大规模的数据集,都是需要解决的问题。本文的工作主要针对以上问题,围绕DNA测序数据处理过程中的基因纠错和序列比对在Intel多核和众核架构以及国产自主设计的处理器SW26010等体系结构上的算法设计和针对性实现进行研究。本文的主要研究成果如下所述:1)本文提出了一种可扩展的并行纠错算法SPECTR,旨在提高各种Intel并行平台上Illumina DNA短序列进行纠错时的吞吐量。SPECTR的实现基于k-谱方法,针对Intel多核和众核架构以及异构计算集群采用了许多针对性的优化。本文针对SPECTR中的一个关键操作Bloom过滤器的查询进行了优化,对数据重新布局,加快了查询速度,对查询工作中的共同操作,抽象出查询中向量化需要的一般操作,实现了 Bloom过滤器查询操作的异构计算框架。在纠错过程中,本文设计了一个基于堆栈迭代的方法来取代在异构架构上性能较低的递归操作。在单个设备内,本文使用OpenMP的动态任务划分实现了负载均衡。针对单个节点的多个设备,本文设计了数据的分发框架,实现了不同设备间的负载均衡。针对多个节点,本文设计了分布式实现。实验表明,与在CPU上的多线程原始实现相比,优化后的实现在不同设备中加速了 2.8到9.3倍。与其他基因纠错工具相比,在相同的硬件上执行时,SPECTR的速度可提高1.7到6.4倍。在天河二号超级计算机的32个节点上执行时,实现了约86%的并行效率。2)针对基因比对,本文在神威·太湖之光及其申威体系架构SW26010上设计实现了一种高度可扩展的序列比对算法S-Aligner。为解决序列比对算法中的内存瓶颈和计算瓶颈,S-Aligner设计采用了三层并行级别:(1)使用MPI基于任务网格模式进行节点间并行计算;(2)使用多线程和异步数据传输来实现节点内并行处理,将需要计算的数据进行分块实现了不同计算核心之间的负载均衡,充分利用了 SW26010多核处理器的所有260核,以及(3)向量化了基因比对中计算编辑距离的Myers算法,充分利用了可用的256位SIMD向量寄存器。在文件I/O期间,本文采用异步访问模式和数据共享策略以克服网络文件系统的带宽限制。性能评估表明,S-Aligner几乎可以线性扩展,在太湖之光上的13,312个节点上实现了 95%的并行效率。S-Aligner在具有很高准确度的同时,在单个节点上的性能优于在Intel CPU平台上运行的序列比对工具RazerS3。3)在对S-Aligner进行分析之后,本文设计了一个新的可扩展且高效的基因比对算法SWMapper。为了减少内存的使用和加速索引的构建,SWMap-per使用了一个精简哈希索引,设计并实现了一个分布式索引构建方法。在进行比对时,提出了一种新的过滤算法,将基因序列分解为长种子和短种子,使用短种子查找到候选匹配位置后,利用长种子进行过滤减少需要计算的候选位置数。为了去除候选匹配位置中的重复,设计使用了一个最小堆数据结构进行排序删除重复位置。在对基因序列和参考基因子序列进行编辑距离的计算时,设计实现了带状Myers(Baned Myers)算法的向量化,使用SW26010的一条三元逻辑指令替换多条逻辑指令,减少了计算指令数。本文针对多个计算核心设计了动态调度策略来实现负载均衡,针对多个节点,本文设计了分布式实现。性能评估表明,在单个SW26010上,SWMapper的性能优于在相同硬件上的S-Aligner 6.2倍。与运行在Intel CPU上的其他比对算法相比,SWMapper实现了 2.6到26.5倍的加速。在128个计算核组上运行时,SWMappcr实现了 74%的强扩展效率。
朱杨[2](2020)在《基于Labview的光纤时间传递上位机控制系统》文中研究表明随着由多地子系统所组成的集成系统在雷达、通信和国防等重要领域的逐步发展,为了完成异地系统的精确同步作业,异地系统对时间信号传递和同步技术提出了更高的要求,时间传递技术逐渐成为了国内外研究小组关注的重要技术。以往国内外基于光纤的时间传递系统中,上位机控制系统现了对时间间隔、光纤时延、光纤温度等参数进行实时数据采集、数据处理和数据传输,并提供可视化的数据分析面板的功能。但由于功能上未能做进一步的拓展,存在着人工调节手段较多、参数固定难以实时修正的问题。同时,在时间传递系统中,温度是影响光纤链路传输时延和系统性能的重要参数,采用温度计的温度监测系统难以对实地光纤温度进行测量。本论文针对实地光纤时间信号传输中,人工调节过程繁琐、内部参数固定难以进行实时调节、异地测量时难以直接测量温度等问题,分别设计了相应的功能模块。论文主要工作如下:1、对人工神经网络模型和算法进行了研究,对温度测量系统的功能进行了拓展,对神经网络预测值和实际温度测量值进行了比较。通过对神经网络输入数据段的选取,在有监督学习体系下进一步优化了预测性能,在Labview平台与Matlab软件进行联动,设计完成了温度预测模块。2、本文针对控制系统内部参数固定,无法进行实时修正,从而导致系统性能波动的问题,设计了参数修正模块。这进一步减少了人工手调环节,实时修正固定在程序中的内部参数,将系统抖动减小了8ps以上。3、本文对系统各模块进行单元测试和功能测试,并和预期性能指标进行比对。在实验中,本文利用搭建的30km实验室光纤链路,使用上位机控制系统记录不同状态下的测试数据,从而验证系统的创新性和有效性。
邓引引[3](2019)在《基于卷积神经网络的中文声学模型的识别效率优化与实现》文中进行了进一步梳理近年来,人工智能(Artificial Intelligence,AI)技术飞速发展,自动语音识别作为一种AI关键技术一直备受关注。如今,随着神经网络研究热潮的兴起,研究人员使用卷积神经网络(Convolution Neural Network,CNN)参与声学模型建模,并解码各个隐马尔科夫模型(Hidden Markov Model)状态的后验概率,形成CNN-HMM声学模型(下文简称CNN声学模型)。相比于传统声学模型,CNN声学模型拥有更好的识别效果,但是当中文CNN声学模型部署在语音识别系统中并连续识别海量音频数据时,基于CPU(中央处理单元)处理器的中文CNN声学模型面临着识别效率低的问题,因此如何提高中文CNN声学模型的识别效率是目前语音识别领域亟需解决的问题之一。本课题基于科大讯飞股份有限公司“基于卷积神经网络的声学模型效率优化”项目。经过分析研究,本文将从以下三个方面优化中文CNN声学模型在CPU处理器上识别解码效率:利用AVX2指令集系统加速声学模型解码速度、给出一种8bit定点优化方案来解决浮点语音数据运算缓慢的问题、优化卷积运算方法提高CNN声学模型卷积运算效率,最后对中文CNN声学模型进行上述三种优化来共同提高识别效率。针对上述优化方案,本文进行了模块测试和系统测试,并分别对比了优化前后的测试结果以验证优化方案的有效性和可行性。模块测试的结果表明,优化后的中文CNN声学模型可明显提升识别效率。同时,本文将优化前后的中文CNN声学模型分别部署到相同的语音识别系统中进行系统识别率和识别效率测试,系统测试的结果表明,使用优化后中文CNN声学模型的语音识别系统的平均识别效率相对提升77.58%,并且优化后语音识别系统平均字识别精确率的下降范围维持在1%以内,符合项目预期指标要求。最后,本文对优化后的语音识别系统进行了连续10多个小时的系统稳定性测试,测试结果表明,部署优化后中文CNN声学模型的语音识别系统能够长时间稳定工作,并且内存占用正常。综上所有测试结果表明,在基本不影响识别率和保证语音识别系统可以稳定运行的前提下,本文针对中文CNN声学模型给出的效率优化方案有效可行。目前,上述优化方案已应用于科大讯飞车载语音识别系统中。
陈亦欢,严伟超[4](2012)在《应用SIMD并行技术的SHA-1加密算法的批量实现》文中进行了进一步梳理介绍了当今最为流行的加密算法———SHA-1算法,并对其原理及实现过程进行了分析,探讨了基于SHA-1算法使用SIMD技术提高CPU计算的并行能力的方法,为大量数据的散列运算以及如何在C程序中加入SHA-1算法的批量实现提供参考。
范建军[5](2011)在《SSE4指令系统研究及应用》文中研究说明单指令多数据流作为一项增强应用程序性能的技术已被工业界广泛接受.在高级2-D和3-D图形、DVD播放、语音识别、活动视频、影像处理、音频合成和视频会议等方面,SSE能动态改善应用程序的软件性能.文章研究了SSE4的新特性并给出了SSE4指令的应用.
向校萱[6](2011)在《H.264中变换和量化算法的研究与优化》文中进行了进一步梳理H.264视频编码国际标准是由ITU-T的视频专家组和ISO/IEC的运动图像专家组共同组成的联合视频小组JVT (Joint Video Team)制定的。为了实现更高的编码效率,H.264标准采用了许多新技术,例如4×4块的整数变换、空域内的帧内预测、1/4像素精度的运动估计、多参考帧与可变尺寸编码块模式的帧间预测、基于内容的熵编码以及新的环路滤波技术等。与以往的标准(诸如MPEG-4和H.263)相比,H.264在编码效率方面有着更优越的性能,但其编码复杂度极高。因此,研究如何降低巨大的编码复杂度,对标准的发展至关重要。对于H.264编码器而言,整数离散余弦变换DCT (Discrete Cosine Transform)和量化是两个重要的环节。由于中、低码率视频都具有运动缓慢和运动补偿的残差值小的特点,编码器用于变换和量化的计算量比例增大。因此,降低这部分的计算量是很有必要的。本文主要是从实时视频应用的角度,对H.264编码过程中整数变换和量化模块的加速问题以及H.264编码器优化两个方面进行了研究。文中首先分析H.264标准中整数DCT变换和量化的基本原理,然后采用高斯分布来考察H.264中的残差系数和4×4整数DCT变换系数,并根据DCT变换系数的能量分布特点以及“Zigzag扫描”的特性划分亮度、色度分量DCT简化块模型,将Hadamard变换和量化前确定的变换绝对差值总和(SATD)作为预测全零系数块的依据,提出了一种快速有效的全零块预测算法。实验结果表明,该方法在保持图像质量的情况下,能够减少H.264编码过程中的DCT变换、量化、反DCT变换和反量化的运算量,提高了H.264的编码效率。最后,针对一些耗时较多的关键模块,如整数像素运动估计中计算SAD、整数变换、量化、Hadamard变换以及亚像素运动估计中计算SATD等,利用Pentium4CPU支持的SSE2指令集的并行运算能力对其进行指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高。
曲贺[7](2009)在《动态指令集计算机处理器的自重构系统设计》文中认为动态重构技术为实现高效能的通用处理器系统提供了强大的技术支持,在解决应用多样性问题的同时,提高了片上资源利用率,降低了设计复杂性、成本和功耗。本文阐述了处理器的发展和动态重构的处理器体系的技术优势,将动态重构技术与通用处理器技术相结合,在单片FPGA上实现支持多个SSE(Streaming SIMD Extensions,单指令多数据流扩展)指令集的动态指令集计算机处理器(DISC CPU)自重构体系结构。本文设计了可实现Intel SSE指令集中部分整数运算的精简指令集处理器(RISCCPU)。首先,根据不同的SSE指令集处理的对象不同,设计了不同的RISCCPU;其次,根据动态重构技术可时分复用片上资源的优势,设计了可动态自重构的DISCCPU;最后,在Virtex-ⅡPro开发平台上验证了不同指令集间的动态自重构过程,验证了设计方法的可行性,为实现动态指令集计算机的设计奠定了基础。通过对DISCCPU自重构体系结构的设计结果分析,得出了以下结论:(1)多个RISCCPU时分复用同一块可重构区域,提高了片上资源利用率;(2)每个RISCCPU可单独设计,相互之间没有交叉,降低了设计复杂性;(3)在系统运行时,没有用到的RISCCPU不占用器件资源,降低了系统运行的静态功耗;(4)用于系统配置的重构文件存储在CF卡中,当系统功能增加时,可通过增加配置文件达到系统升级的目的,这样可以缩短设计周期,降低设计成本;(5)基于自重构技术的DISCCPU可满足现代处理器设计周期缩短、变化更新快、实现高效能通用处理芯片的设计要求。
肖敏雷[8](2008)在《H.264编码算法研究与汇编优化》文中进行了进一步梳理H.264是由ITU-T VCEG和ISO/IEC MPEG联合推出的新一代国际视频编码标准,它采用的依然是基于块的运动补偿和变换的混合编码方案,但和其它视频编码标准相比,它采用了一种全新的近似DCT变换技术——整数变换技术以避免以前标准中使用DCT变换所带来的反变换匹配误差,采用帧内预测编码以提高帧内及帧间编码效率,帧间采用灵活多变的不同块大小来准确描述物体的实际运动情况,且使用了高精度的分数像素运动估计与补偿以及多参考帧选择技术来增加预测的准确度,采用自适应滤波器以去除图像的边界效应,采用基于上下文的二进制编码技术以缩减编码所需的位数等等,这些新技术的综合运用使得H.264编码器和以前的视频编码标准相比在同等重建图像质量下能够节约大约50%的码率,但H.264编码器所使用的新技术也直接导致了其实现的高复杂性,作者通过对各种视频编码标准的仿真比较发现,H.264虽然获得比其它标准更高的编解码质量,但编解码速度比其它视频标准慢,从而限制了其在实时领域里的应用,因此,如何以较低的实现复杂度获得较高的编码效率就成了H.264视频编码技术走向实时应用的一个重要研究课题。为了达到实时的编码效果,必须寻找相应的快速实现算法来替代H.264中那些复杂度极高的算法;同时为了进一步提高H.264的编码速度,除了对算法进行优化以外,可以对编码器中反复使用的一些功能模块根据平台的特点进行指令级的优化,此外,还可以根据实际需要对整个H.264编码器的程序结构和数据结构进行适当的优化,本文依据这一思路对H.264编码器中所使用的部分关键算法进行了比较。把上述有关算法综合运用到H.264编码器中,在参考软件JM8.6框架下对程序与数据结构进行了适当优化,并对一些关键模块如整像素运动估计中求残差的绝对误差和SAD,分数像素运动估计中求残差的Hadamard变换及对变换后的残差矩阵求取绝对值和SATD,整数变换及其逆变换,亚像素内插等模块利用PC机的多媒体指令系统进行指令级优化,取得了比较满意的加速效果。
虫虫[9](2008)在《小里见大——CPU技术面面观》文中研究表明经过前面对计算机各大硬件的介绍,很多读者朋友来信咨询CPU相关问题,如CPU中运用的指令技术,防毒技术,还有超线程技术等;还有自己用的计算机都是以前买的,是不是需要升级CPU。为了让读者更详细的了解CPU,这期我们将详细介绍下CPU相关技术。
李全鑫[10](2008)在《实时视频流压缩传输系统的软件设计与实现》文中进行了进一步梳理随着互联网和多媒体技术的飞速发展,基于网络的多媒体交互技术得到了广泛的应用。由于网络带宽的限制,研究高质量低码率的视频压缩方法成为热点,于是出现了H.264标准。作为新一代的视频编码标准,H.264具有高效的压缩性能和良好的网络适应性,但H.264获得优越性能的代价是计算复杂度的增加,这也是H.264大规模应用的主要障碍。本文在深入研究了H.264标准后,针对低码率视频会议、可视电话、视频聊天等低复杂度和实时性要求较高的场景,从帧内预测模式快速选择、帧间预测模式快速选择、快速运动估计、代价计算方式、多参考帧的处理、Hadamard变换的处理、搜索范围的处理、多媒体指令集优化等方面,在H.264的官方参考模型JM的基础上进行了优化。实验结果表明,优化后的H.264编码器在基本不影响图像质量及码率的前提下,大幅降低了运算复杂度,在P4 2.66G CPU,512M内存PC机上能够实现CIF(352x288)分辨率视频的实时编码。最后在此基础设计了一个局域网内点对点的视频通信程序,进一步验证了优化后的编码器的实用性。
二、SSE指令系统研究及应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、SSE指令系统研究及应用(论文提纲范文)
(1)基于哈希的高通量生物基因测序数据处理算法优化(论文提纲范文)
中文摘要 |
英文摘要 |
文中使用的缩略词和符号 |
第一章 绪论 |
1.1 研究的背景和意义 |
1.2 研究的现状和挑战 |
1.2.1 数据量的增加 |
1.2.2 基因序列纠错的方法 |
1.2.3 基因序列比对的方法 |
1.2.4 异构处理器的发展 |
1.2.5 生物信息学在异构架构上的实现 |
1.2.6 面临的挑战 |
1.3 本文研究内容和创新点 |
1.4 本文的组织结构和章节安排 |
第二章 背景 |
2.1 哈希算法 |
2.1.1 哈希简介 |
2.1.2 布隆过滤器 |
2.2 FASTQ格式 |
2.3 基因纠错算法 |
2.4 基于哈希的基因比对算法 |
2.4.1 SAM格式 |
2.4.2 种子-延伸策略 |
2.4.3 精确比对和最优比对 |
2.4.4 Smith-Waterman算法 |
2.5 高性能计算机的体系结构 |
2.5.1 Intel CPU和向量处理器 |
2.5.2 Xeon Phi |
2.5.3 SW26010 |
2.6 编程模型 |
2.6.1 MPI模型 |
2.6.2 OpcnMP模型 |
2.6.3 Athread编程模型 |
2.7 本章小结 |
第三章 SPECTR: 多核和众核架构上的可扩展短读序列纠错 |
3.1 引言 |
3.2 串行纠错算法介绍 |
3.3 并行算法设计 |
3.3.1 数据内存对齐 |
3.3.2 向量化Bloom过滤器查询 |
3.3.3 消除递归代码 |
3.3.4 优化细节 |
3.4 分布式实现 |
3.5 实验结果 |
3.5.1 实验设置 |
3.5.2 准确度 |
3.5.3 单设备性能 |
3.5.4 与其他工具的比较 |
3.5.5 天河二号上的性能 |
3.6 本章小结 |
第四章 S-Aligner: 基于神威·太湖之光超级计算机的基因比对 |
4.1 引言 |
4.2 Myers算法 |
4.3 S-Aligner的设计 |
4.3.1 计算核组间的大规模并行 |
4.3.2 计算核组内的多线程并行 |
4.3.3 SIMD向量化 |
4.3.4 局部设备内存的使用 |
4.4 实验结果 |
4.4.1 单节点的性能分析 |
4.4.2 与RazerS3的比较 |
4.4.3 扩展性分析 |
4.5 本章小结 |
第五章 SWMapper: 基于精简哈希的可扩展基因比对 |
5.1 引言 |
5.2 带状Myers算法 |
5.3 SWMapper的设计 |
5.3.1 MPE上的工作流程 |
5.3.2 精简哈希索引的建立 |
5.3.3 CPE上的工作流程 |
5.3.4 移除重复位置 |
5.3.5 种子过滤 |
5.3.6 带状Myers算法的向量化 |
5.3.7 数据传输优化 |
5.3.8 分布式版本 |
5.4 实验结果 |
5.4.1 准确度 |
5.4.2 建立哈希索引的时间 |
5.4.3 比对时间 |
5.4.4 优化的性能分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
博士期间发表的论文 |
博士期间参加的科研工作 |
相关的开源项目 |
学位论文评阅及答辩情况表 |
(2)基于Labview的光纤时间传递上位机控制系统(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和目的 |
1.2 国内外研究现状 |
1.2.1 概述 |
1.2.2 研究现状 |
1.2.3 现存问题 |
1.3 主要工作和结构安排 |
1.3.1 论文研究目标 |
1.3.2 本论文的主要工作 |
第二章 相关理论与技术 |
2.1 双向比对 |
2.1.1 双向比对的基本原理 |
2.1.2 双向比对系统的硬件搭建架构 |
2.1.3 双向时间比对的关键参数 |
2.2 软件开发平台 |
2.2.1 虚拟仪器概述 |
2.2.2 Labview简介 |
2.2.3 Matlab简介 |
2.3 神经网络理论 |
2.3.1 神经网络的意义 |
2.3.2 神经网络的数学模型 |
2.4 本章小结 |
第三章 时间传递上位机控制系统的设计 |
3.1 系统的总体设计 |
3.1.1 系统设计需求 |
3.1.2 系统的设计思路 |
3.2 系统的软件设计 |
3.2.1 系统的软件架构 |
3.2.2 仪器指令系统 |
3.3 系统各模块的设计与实现 |
3.3.1 数据通信模块 |
3.3.2 初始化模块 |
3.3.3 数据传输模块 |
3.3.4 数据处理存储模块 |
3.3.5 参数修正模块 |
3.3.6 温度预测模块 |
3.4 本章小结 |
第四章 神经网络预测方法的研究 |
4.1 神经网络预测温度的意义 |
4.1.1 温度对于光纤色散与时延的影响 |
4.1.2 输入特征设计 |
4.2 基于Elman神经网络的温度预测 |
4.2.1 数据预处理 |
4.2.2 Elman神经网络 |
4.2.3 数学模型 |
4.2.4 学习算法 |
4.2.5 Elman神经网络的训练流程 |
4.3 除Elman网络以外的神经网络 |
4.3.1 BP神经网络简介 |
4.3.2 BP神经网络构建 |
4.3.3 RBF神经网络简介 |
4.3.4 RBF神经网络构建 |
4.4 神经网络预测方法的比较 |
4.5 本章小结 |
第五章 系统的验证 |
5.1 系统的性能指标 |
5.1.1 时间信号的抖动 |
5.1.2 温度预测的残差抖动 |
5.2 系统的自动测试与参数修正 |
5.3 本章小结 |
第六章 结论与展望 |
6.1 主要结论 |
6.2 未来展望 |
参考文献 |
缩略词对照表 |
致谢 |
攻读学位期间取得的研究成果 |
(3)基于卷积神经网络的中文声学模型的识别效率优化与实现(论文提纲范文)
摘要 |
abstract |
注释表 |
第1章 引言 |
1.1 课题的研究背景 |
1.2 课题的研究现状和意义 |
1.3 课题研究目的和内容 |
1.4 论文的结构安排 |
第2章 基于卷积神经网络的语音识别系统分析 |
2.1 语音识别技术原理 |
2.2 声学前端信号预处理技术 |
2.2.1 语音增强技术 |
2.2.2 端点检测技术 |
2.3 语音识别系统框架 |
2.3.1 声学特征提取 |
2.3.2 声学模型 |
2.3.3 语言模型 |
2.3.4 解码器 |
2.4 基于卷积神经网络的声学模型 |
2.4.1 神经网络定义 |
2.4.2 卷积神经网络的结构组成及工作原理 |
2.4.3 基于卷积神经网络的声学模型训练算法 |
2.4.4 基于卷积神经网络的声学模型面临的挑战 |
2.5 本章小结 |
第3章 基于卷积神经网络的声学模型效率优化与实现 |
3.1 指令集系统优化 |
3.1.1 SIMD指令集 |
3.1.2 SSE4 指令集系统 |
3.1.3 利用AVX2 指令集对CNN声学模型进行改良 |
3.2 数据运算的优化 |
3.2.1 浮点运算存在的问题 |
3.2.2 浮点数据的定点化表示 |
3.2.3 传统定点化方案 |
3.2.4 一种8bit定点优化方案与实现 |
3.3 卷积神经网络中运算方法的优化 |
3.3.1 传统的卷积运算方法 |
3.3.2 卷积运算方法的优化与实现 |
3.4 本章小结 |
第4章 测试及结果分析 |
4.1 模块测试及结果分析 |
4.1.1 测试原理和数据准备 |
4.1.2 测试环境及配置信息 |
4.1.3 模块测试结果及分析 |
4.2 系统测试及结果分析 |
4.2.1 测试原理和评判标准 |
4.2.2 测试流程 |
4.2.3 系统测试结果及分析 |
4.3 系统稳定性测试 |
4.3.1 测试原理 |
4.3.2 稳定性测试结果及分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录 A8bit定点优化方案的部分实现代码 |
附录 B卷积运算优化方案的部分实现代码 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(5)SSE4指令系统研究及应用(论文提纲范文)
1 SSE4指令简介[1-3] |
2 SSE4指令执行环境 |
3 SSE4指令系统的研究[4-6] |
3.1 SSE4.1指令系统 |
(1) 双字乘法指令 (2条) |
1) PMULLD xmm1, xmm2/m128 |
2) PMULDQ xmm1, xmm2/m128说明:把两组有符号的双字整数Packed相乘. |
(2) 浮点数点乘指令 (2条) |
1) DPPD xmm1, xmm2/m128, imm8说明:把两组双精度浮点数Packed点乘. |
2) DPPS xmm1, xmm2/m128, imm8说明:把两组单精度浮点数Packed点乘. |
(3) 流加载线索指令 (1条) |
(4) 打包的混合指令 (6条) |
1) BLENDPS xmm1, xmm2/m128, imm8 |
2) BLENDPD xmm1, xmm2/m128, imm8 |
3) BLENDVPS xmm1, xmm2/m128, XMM0 |
4) BLENDVPD xmm1, xmm2/m128, XMM0 |
5) PBLENDVB xmm1, xmm2/m128, XMM0 |
6) PBLENDW xmm1, xmm2/m128, imm8 |
(5) 打包的整数最小/最大指令 (8条) |
1) PMINUW xmm1, xmm2/m128reg-reg/reg-mem) 说明:比较目标和源中的打包的无符号字整数, 并在目标中存储这些打包的最小值. |
2) PMINUD xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的无符号双字整数, 并在目标中存储这些打包的最小值. |
3) PMINSB xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的有符号字节整数, 并在目标中存储这些打包的最小值. |
4) PMINSD xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的有符号双字整数, 并在目标中存储这些打包的最小值. |
5) PMAXUW xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的无符号字整数, 并在目标中存储这些打包的最大值. |
6) PMAXUD xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的无符号双字整数, 并在目标中存储这些打包的最大值. |
7) PMAXSB xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的有符号字节整数, 并在目标中存储这些打包的最大值. |
8) PMAXSD xmm1, xmm2/m128 (reg-reg/reg-mem) 说明:比较目标和源中的打包的有符号双字整数, 并在目标中存储这些打包的最大值. |
(6) 带可选择舍入模式的浮点舍入取整指令 (4条) |
1) ROUNDPS xmm1, xmm2/m128, imm8 |
2) ROUNDPD xmm1, xmm2/m128, imm8 |
3) ROUNDSS xmm1, xmm2/m32, imm8 |
4) ROUNDSD xmm1, xmm2/m64, imm8 |
(7) 从XMM寄存器中插入和提取指令 (7条) |
1) EXTRACTPS r/m32, xmm2, imm8 |
2) INSERTPS xmm1, xmm2/m32, imm8 |
3) PINSRB xmm1, r32/m8, imm8 |
4) PINSRD xmm1, r/m32, imm8 |
5) PEXTRB reg/m8, xmm2, imm8 |
6) PEXTRD r/m32, xmm2, imm8 |
7) PEXTRW r32/m16, xmm2, imm8 |
(8) 打包的整数格式转换指令 (12条) |
1) PMOVSXBW xmm1, xmm2/m64 |
2) PMOVZXBW xmm1, xmm2/m64 |
3) PMOVSXBD xmm1, xmm2/m32 |
4) PMOVZXBD xmm1, xmm2/m32 |
5) PMOVSXWD xmm1, xmm2/m64 |
6) PMOVZXWD xmm1, xmm2/m64 |
7) PMOVSXBQ xmm1, xmm2/m16 |
8) PMOVZXBQ xmm1, xmm2/m16 |
9) PMOVSXWQ xmm1, xmm2/m32 |
10) PMOVZXWQ xmm1, xmm2/m32 |
11) PMOVSXDQ xmm1, xmm2/m64 |
12) PMOVZXDQ xmm1, xmm2/m64 |
(9) 4字节块绝对差分和 (SAD) 指令 (1条) |
(10) 水平搜索指令 (1条) |
(11) 打包的测试指令 (1条) |
(12) 打包的四字相等比较指令 (1条) |
(13) 使用无符号的饱和运算进行双字打包指令 (1条) |
3.2 SSE4.2指令系统 |
(1) 字符串和文本处理指令 (4条) |
1) PCMPESTRI xmm1, xmm2/m128, imm8 |
2) PCMPESTRM xmm1, xmm2/m128, imm8 |
3) PCMPISTRI xmm1, xmm2/m128, imm8 |
4) PCMPISTRM xmm1, xmm2/m128, imm8 |
(2) 打包的比较SIMD整数指令 (1条) |
(3) 目标应用加速器指令 (2条) |
1) CRC32 r32, r/m8 |
2) POPCNT r16, r/m16 |
4 应用举例[7] |
(6)H.264中变换和量化算法的研究与优化(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 视频编码标准的发展现状 |
1.2.2 视频编码的优化方法 |
1.3 本文研究内容 |
1.4 本文的组织结构 |
第2章 H.264视频编码技术 |
2.1 H.264的特点、优势及应用 |
2.2 H.264编码原理 |
2.3 H.264的结构 |
2.3.1 H.264的分层结构 |
2.3.2 H.264的档次与级别 |
2.4 H.264视频编码标准的核心技术 |
2.4.1 帧内预测 |
2.4.2 帧间预测 |
2.4.3 4×4整数DCT变换及量化 |
2.4.4 熵编码 |
2.4.5 去方块(de-blocking)效应滤波器 |
2.4.6 SP/SI帧技术 |
2.5 本章小结 |
第3章 整数DCT变换及量化的研究与分析 |
3.1 引言 |
3.2 整数DCT变换与量化原理 |
3.2.1 4×4残差块整数变换及量化 |
3.2.2 帧内16×16预测模式4×4亮度DC系数的变换和量化 |
3.2.3 2×2色度DC系数的变换和量化 |
3.2.4 整数变换的特点及比较 |
3.3 H.264中全零块预测的快速DCT算法 |
3.3.1 理论分析 |
3.3.2 变换系数的分布特性 |
3.3.3 建立精简块模型 |
3.3.4 基于SATD的全零块预测方法 |
3.4 实验结果分析 |
3.5 本章小结 |
第4章 H.264编码器的指令优化 |
4.1 多媒体指令集 |
4.1.1 MMX指令集 |
4.1.2 SSE指令集 |
4.1.3 SSE2指令集 |
4.1.4 SSE3指令集 |
4.2 H.264编码器中关键模块的SSE2指令优化设计 |
4.2.1 H.264中优化对象的分析与选择 |
4.2.2 整数像素运动估计中SAD运算模块的实现 |
4.2.3 整数DCT变换及量化模块的实现 |
4.2.4 亚像素运动估计的SATD运算模块的实现 |
4.3 实验结果分析 |
4.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文和取得的科研成果 |
致谢 |
(7)动态指令集计算机处理器的自重构系统设计(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题的研究背景 |
1.2 动态重构处理器系统的研究意义 |
1.3 本文的主要工作 |
1.4 本文开展的工作环境 |
2 动态重构的技术基础 |
2.1 动态重构的配置结构 |
2.2 可编程 FPGA的硬件结构 |
2.3 动态重构系统的结构 |
2.4 动态重构的设计方法 |
2.4.1 基于差异的重构设计 |
2.4.2 基于模块的重构设计 |
2.4.3 基于 EAPR的重构设计 |
2.5 自重构系统概述 |
2.5.1 自重构系统的关键技术 |
2.5.2 自重构系统 |
3 SSE指令集的64位 RISC_CPU设计 |
3.1 精简指令集计算机处理器的设计 |
3.1.1 RISC_CPU各组成部件的设计 |
3.1.2 RISC_CPU寻址方式和指令系统 |
3.2 SSE1指令集 |
3.2.1 实现的 SSE1指令 |
3.2.2 SSE1指令的RISC_CPU的仿真与测试 |
3.3 SSE2指令集 |
3.3.1 实现的SSE2指令 |
3.3.2 SSE2指令的RISC_CPU的仿真与测试 |
3.4 SSE4指令集 |
3.4.1 实现64位运算的 SSE4指令 |
3.4.2 SSE4指令的RISC_CPU的仿真与测试 |
3.4.3 实现128位运算的 SSE4指令 |
4 DISC_CPU的自重构设计与实现 |
4.1 DISC_CPU自重构系统的基本结构及设计流程 |
4.2 DISC_CPU自重构系统设计 |
4.2.1 系统硬件设计 |
4.2.2 系统软件设计 |
4.2.3 系统模块文件的设计 |
4.2.4 系统的重构实现 |
4.3 设计结果分析 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(8)H.264编码算法研究与汇编优化(论文提纲范文)
中文摘要 |
英文摘要 |
1.绪论 |
1.1 视频编码技术的发展 |
1.2 视频质量评价体系 |
1.3 视频编码标准简介 |
1.4 H.264编码算法研究现状 |
1.5 课题主要工作 |
2.H.264视频编码标准 |
2.1 H.264视频编码标准 |
2.2 H.264视频编码主要技术 |
3.视频编码标准仿真实验 |
3.1 实验条件 |
3.2 实验结果 |
3.3 结果分析 |
4.H.264编码器在通用微处理器上的指令优化 |
4.1 通用处理器中的多媒体支持功能 |
4.2 H.264编码器中关键模块的多媒体指令优化 |
结束语 |
参考文献 |
附录 |
后记 |
(9)小里见大——CPU技术面面观(论文提纲范文)
一、多媒体指令集 |
1、精简指令集的运用 |
2、CPU的扩展指令集 |
MMX指令集 |
SSE指令集 |
SSE2指令集 |
SSE3指令集 |
3D Now!指令集 |
二、防病毒技术 |
三、超线程技术 |
(10)实时视频流压缩传输系统的软件设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 论文研究目的和意义 |
1.2 视频编码标准国内外研究现状 |
1.3 论文研究内容 |
第二章 视频编码基础理论 |
2.1 视频编码简介 |
2.2 H.264 标准简介 |
2.3 H.264 的优化方向 |
第三章 H.264 编码器的研究与优化 |
3.1 帧内预测模式快速选择算法研究与优化 |
3.2 快速运动估计算法研究与优化 |
3.3 帧间预测模式快速选择算法研究与优化 |
3.4 其它优化方式与综合测试 |
3.5 H.264 编码器的指令集优化 |
第四章 实时视频流压缩传输系统的实现 |
4.1 系统总体设计方案 |
4.2 系统主要模块设计与实现 |
第五章 结论 |
5.1 论文总结 |
5.2 展望 |
致谢 |
参考文献 |
四、SSE指令系统研究及应用(论文参考文献)
- [1]基于哈希的高通量生物基因测序数据处理算法优化[D]. 许凯. 山东大学, 2020(04)
- [2]基于Labview的光纤时间传递上位机控制系统[D]. 朱杨. 北京邮电大学, 2020(05)
- [3]基于卷积神经网络的中文声学模型的识别效率优化与实现[D]. 邓引引. 重庆邮电大学, 2019(02)
- [4]应用SIMD并行技术的SHA-1加密算法的批量实现[J]. 陈亦欢,严伟超. 重庆理工大学学报(自然科学), 2012(07)
- [5]SSE4指令系统研究及应用[J]. 范建军. 咸宁学院学报, 2011(06)
- [6]H.264中变换和量化算法的研究与优化[D]. 向校萱. 沈阳理工大学, 2011(04)
- [7]动态指令集计算机处理器的自重构系统设计[D]. 曲贺. 大连理工大学, 2009(07)
- [8]H.264编码算法研究与汇编优化[D]. 肖敏雷. 湖南师范大学, 2008(11)
- [9]小里见大——CPU技术面面观[J]. 虫虫. 电脑知识与技术(经验技巧), 2008(04)
- [10]实时视频流压缩传输系统的软件设计与实现[D]. 李全鑫. 长春理工大学, 2008(02)