基于倒带恢复的Linux线程容错研究

基于倒带恢复的Linux线程容错研究

一、基于回卷恢复的linux线程容错研究(论文文献综述)

朱文浩[1](2018)在《星载GPU四余度容错算法设计与实现》文中提出星载计算机之于卫星就像人类大脑之于人体,是卫星非常重要的组成部分,它控制着卫星的运转和星上任务的执行等。因此,星载计算机一旦出现故障就可能导致任务失败,从而造成十分严重的后果,甚至是灾难。然而,由于空间环境的情况恶劣以及当前软硬件条件的限制,星载计算机的安全需要得到有效的保障。另一方面,由于卫星的应用领域越来越广,要求星载计算机硬件具有高性能、低功耗、体积小、重量轻等特点。近些年来高速发展的GPU软硬件技术可以解决这一需求问题,GPU强大的计算能力不仅可以完成大规模密集型任务的计算,而且其功耗和成本相较于其他的宇航级芯片也大大降低。但是,由于芯片集成度的提升和工作电压的降低等因素会导致GPU更容易发生瞬时故障。所以,将GPU应用于航空航天这类对可靠性要求极高的领域时,需要采用合适的容错技术对其进行容错设计,以提高它的可靠性从而降低故障率。本文深入研究和对比了各种容错方法的适用情形和优缺点,着重研究了软硬件容错技术。为了兼顾系统高可靠性和低设计复杂度两个方面,采用四余度进行容错设计。本文选取以Linux为操作系统的NVIDIA Jetson TX2作为星载GPU,基于GPU的硬件特点和软件技术,从CUDA和冗余进程两个方面进行四余度容错设计。基于CUDA的四余度容错设计方案的核心思想是冗余计算,结合一定的软硬件容错设计思想,充分利用硬件中冗余的计算资源,在kernel级、block级或者算法设计等层面上进行四余度容错设计。基于冗余进程的四余度容错方案有故障检测和故障恢复两个部分,改进Shye等提出的PLR方法可以实现故障检测,通过检查点设置与卷回恢复技术可以实现故障恢复。通过NVIDIA公司推出的CUDA并行计算平台对部分容错方案进行实验测试和数据分析可以得知,GPU相较于CPU能通过并行计算大大降低计算部分消耗的时间,该部分的加速效果十分显着。GPU容错程序的性能主要受到计算量的大小、CPU-GPU之间的数据传输耗时、比较检错耗时等因素的影响。通过可靠性分析可以得知,本文设计的基于CUDA的四余度容错方案能大幅度提高系统的可靠性,满足星载GPU对可靠性的要求。

沈露[2](2017)在《基于Zynq-7000的星载软件抗软错误设计方法研究》文中研究说明近年来,商用现货(Commercial-Off-the-Shelf,COTS)FPGA器件因低成本、高性能、不受国外进口限制等特点被越来越多地应用于航天领域中。其中,Xilinx Zynq-7000系列SOC FPGA器件将双ARM Cortex-A9 MPCore处理器与可编程逻辑、硬IP外设紧密集成,其灵活性和可配置性的完美组合受到小卫星领域的广泛关注。但Zynq-7000作为COTS器件其抗辐射能力较低,在空间环境中极易受各种高能粒子和射线的辐射影响,出现单粒子翻转等瞬时故障引起的软错误。这种错误会通过Zynq-7000片内或片外对单粒子效应敏感的存储设备影响软件的正常运行,使软件的运行轨迹发生混乱或产生错误的计算结果,对系统带来不可预估的影响。为使软错误发生时星载软件具有故障检测和恢复能力,本文对基于Zynq-7000的星载软件抗软错误设计方法展开研究。本文从星载软件抗软错误的功能和需求出发,选用Xilinx ZC702开发板套件和Vivado2015.4集成开发环境作为软硬件开发平台,结合Zynq-7000片内的硬件容错资源,选取简单且高效的软件容错方法,给出基于Zynq-7000的星载软件两级容错设计方案。在上述总体容错设计方案的基础上,对两级容错机制中各个容错功能模块进行详细的设计和实现。针对软错误引发的星载软件数据流错误和控制流错误,结合Zynq-7000片内双核处理器的冗余结构,采用双核互检和回卷恢复技术作为第一级容错机制,采用针对数据流错误的软件EDAC和三模冗余技术,以及针对控制流错误的异常陷阱和看门狗技术作为第二级容错机制,从而实现软错误的检测和恢复。为了验证容错设计方法的有效性和可靠性,本文设计并实现星载软错误故障注入及验证软件,使其具备方便的人机交互能力,采用基于中断的软件故障注入技术,分别对容错功能模块和容错星载软件进行故障注入。实验结果表明,与无容错机制或单核容错机制相比,基于Zynq-7000片内双核处理器的两级容错机制,使星载软件在软错误发生时具有更好的故障检测和自主恢复能力,为SOC FPGA开展空间应用提供一种有效的抗软错误解决方案,也为So C FPGA在小卫星领域的推广和使用提供关键技术储备。

王天喜[3](2015)在《移动设备环境下功耗优化的容错策略设计与实现》文中认为随着计算机软硬件的不断发展,移动设备逐渐进入人们的生活,其应用越来越广泛,性能也越来越受到重视。由于移动设备不同于PC机直接接入220V用电线路,需要电池的支持,并且需要适应使用场景和环境变化。移动设备需要稳定和持久的使用,因此其容错能力和电池持久性成为衡量性能的重要指标。本文研究移动设备环境下功耗优化的容错策略设计,旨在提高移动设备容错能力,并优化功耗。实验中,选择BLCR检查点机制加载移动设备,通过对运行在移动设备上的应用程序进行状态检查,保存进程运行重要信息到检查点文件。通过开源项目OpenWrt编译出定制固件,下载进对应路由器并扩展器存储容量,使之成为一个微型服务器和存储器。既充分利用了路由器作为网路设备进行数据转发的能力,又挖掘了路由器的存储功能。路由器通过TCP/IP协议与移动设备进行通信以保存检查点文件,并在移动设备进程服务失败时发送最近一次接收的检查点。移动设备利用路由器发送回的检查点文件进行回卷,迅速恢复进程至最近一次对其进行状态检查的状态,在该状态下继续运行下去。提高了移动设备的容错能力,在应对服务失败时可以迅速做出响应,消除影响。检查点机制的加载本身会消耗电池能量,而回卷操作保存了状态检查之前的进程信息,节省了因进程失败空耗的能量。本文对运行程序的状态进行分析并建立模型,分析了对系统开销影响的因素,通过仿真试验得出几者之间的关系并给出了最佳检查点间隔。最后,对本文研究方法进行了优劣分析并给出了进一步研究方向。

廉晓洋[4](2014)在《基于国产多核处理器的容错冗余进程检测技术的研究》文中提出集成电路制造工艺的不断发展使得微处理器计算的可靠性面临着瞬时故障的严重威胁,尤其是在超深亚微米级别,瞬时故障发生的机率将大大增加。同时由于计算机体系结构的快速发展,当前的微处理器已经进入多核时代。因此,有必要针对多核计算平台下的容错技术展开深入研究。针对微处理器的瞬时故障容错技术的研究,目前已经深入到计算机体系结构中的处理器层、操作系统层、编译层和应用程序层。本文首先对故障进行了介绍,并从故障对应用程序执行正确性的角度对故障进行了分类。在对故障有了充分的认识之后,对目前在软硬件容错方面的容错技术进行了充分研究,其中对硬件容错技术进行了简单的介绍,对从软件体系结构的各个层次的角度对软件容错技术进行了详细的研究,包括操作系统层、编译层以及应用程序层。在充分研究了各种容错技术之后,针对目前的国产多核处理器平台,提出了一种在操作系统层面基于系统调用的进程冗余检测技术,并对该技术的设计原理进行了详细的介绍,包括其中的缓存模块、检测模块、同步模块等。最后,在国产龙芯多核处理器计算平台下,在linux内核级实现并验证了该检测技术方案。实验结果表明,本检测方案能够充分利用多核处理器的并行计算能力,检测到由于瞬时故障引发的系统错误,并满足一定的性能要求。

刘春雷[5](2014)在《基于国产处理器计算机系统回卷恢复机制的研究》文中认为国产处理器飞速发展,已在多个领域得到广泛的应用。但在航空、军工、金融等关键业务中,国产处理器计算机系统还无法达到高可靠性要求。对于国产处理器系统不同级别的容错技术研究,对于我国在多个关键领域完全自主化,打破国外垄断有重大意义。基于国产处理器计算机系统回卷恢复机制的研究,旨在从操作系统级提高国产处理器系统的容错性能,具有重要意义。本文通过对龙芯3A处理器和MIPS架构的研究,分析了龙芯系统平台的特点。在此基础上,对回卷恢复机制的主要对象Linux进程进行了研究,了解了内核调度和管理进程的机制,确定了设置检查点时需要保存的进程相关信息。通过内核对进程的管理与运行机制的研究,本文设计了一种基于内核级检查点的回卷恢复机制,在内核中对进程上下文信息进行保存,当故障发生时,进行回卷恢复。内核级相比用户级检查点具有对用户透明,无需修改用户代码的优点。利用添加内核模块的方法,为系统内核添加回卷恢复机制,具有灵活加载与卸载、无需改变原系统的优势。本文着重阐述了基于内核检查点的回卷恢复系统各个模块的实现方法,主要包括:故障守护进程、检查点信息保存模块、回卷恢复模块、文件处理模块等。最后对回卷恢复系统的基本应用进行了测试,并多次实验分析了影响该系统时间与空间开销的因素。通过对检查点设置策略的改变,减小检查点的时间开销。保存检查点信息时,改进打开文件的保存方法也降低了检查点的空间开销,使该系统在提高容错性能的同时,具有了更好的可用性。

袁功彪,杨金民,白树仁[6](2013)在《基于并发性发掘的低开销回卷恢复实现方法》文中研究表明现有的回卷恢复容错技术存在同步约束和阻塞问题,其时间开销随系统节点规模的增大而剧增。为此,提出一种基于并发性发掘的低开销回卷恢复实现方法。利用消息传递附带跟踪消息依赖的策略解除消息日志中的同步约束,解析进程负载以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,以降低故障恢复开销。3个NAS NPB2.3标准性能检测程序的实验结果表明,该方法可使检查点开销从0.63 s、3.19 s、1.21 s分别降低到0.18 s、0.67 s、0.19 s,日志开销率从13.4%、3.5%、18.3%分别降低到0.7%、0.1%、1.0%。

周阳[7](2012)在《一种集群监控容错系统的设计与实现》文中研究说明目前,集群技术是当今高性能计算系统的一个重要研究方向,集群系统以其高性价比、高扩展性、高可用性的特点,迅速发展成为高性能计算的一个重要解决方案,在石油物探行业得到广泛应用。本文所研究的是面向地震数据处理的应用集群系统,随着该集群中节点的数目和提交运行的作业数目越来越多,集群系统的监控和管理成了一个重大问题。伴随集群系统规模的不断扩大,系统发生故障的概率也随之增长,加上地震数据处理作业往往数据量都很大,作业执行时间也很长,如果发生故障造成作业运行失败,将会浪费大量的系统计算资源和时间资源。因此研究该应用集群系统的容错技术具有十分重要的意义。本文研究设计的集群监控容错系统是该地震数据处理应用集群系统的重要支持系统,是专门针对地震数据处理特点开发的特殊辅助系统。针对上文提出的相关问题,本论文的主要工作包括:第一,研究了现有的集群监控系统,设计并实现了面向地震数据处理平台集群系统的监控模块,完成了对整个应用集群系统的监控信息的采集、汇聚和显示等应用的具体实现。监控模块主要包括对集群节点信息和作业信息的监控,为系统管理员和用户进行集群管理和监控提供了方便。第二,设计并实现了利用心跳包技术进行节点故障检测的集群系统容错功能,并且针对该地震数据处理的具体应用完成了节点故障后续处理的相关工作。该集群节点故障检测和处理的功能为本文设计的利用应用级作业检查点实现作业故障容错功能提供了基础。第三,在研究现有检查点技术的基础上,并且针对地震数据处理作业的特点和地震数据处理流程的特殊性,设计并实现了基于地震数据单元的应用级作业检查点设置与回卷恢复功能,该功能结合节点容错功能,能够实现集群作业出现故障后的自动容错。通过实验测试验证了该应用级作业检查点的可行性,提高了集群系统的可用性,能够使作业在遇到故障时从检查点开始继续执行作业,减少了作业重复执行时间,避免了系统大量的计算资源和时间的浪费。

徐凌翔[8](2011)在《基于数据流异常检测的嵌入式软件容错研究》文中研究表明现代机电产品在功能越来越复杂的同时,对其安全性和可靠性的要求也越来越高。软件作为机电产品的重要组成部分,其可靠性直接决定了机电产品的质量。本文以提高机电产品软件的可靠性和安全性研究为主线,从软件数据流分析的角度出发,对基于数据流异常检测的软件容错纠错技术进行了较为深入系统的研究。针对可能出现的软件系统故障提出了一种新的基于数据流异常检测、软件看门狗技术和回卷恢复技术的软件容错纠错方法。该方法定期对目标程序进行备份,通过提取目标程序中的一组相关变量建立数据流分析模型,利用数据流的异常检测方法排查出其中的离群点即出错点。当发现目标程序运行出错时,看门狗强制使程序跳转到备份点,使目标程序回卷到上一个备份的正常状态,以实现对软件瞬时性故障的容错纠错。提出了上述软件容错纠错策略的实现框架、操作流程,研究了基于最小二乘支持向量机的二元回归模型和离群点检测算法。以二元函数为例,对文中提出的二元回归模型和离群点检测算法进行了仿真研究,仿真结果验证了回归模型的正确性和离群点检测算法的有效性。提出了偏向最近动态的基于距离的数据流异常检测算法,该算法是一种基于聚类思想的的异常检测方法,通过计算检测数据与聚类中心的距离来判断异常,并根据数据流的特性进行了改进,能够有效地实现数据流的异常检测。该算法实现简单并且计算速度快,对阈值的选择具有自适应性,提高了检测的精度,仿真实验验证了该算法的有效性。设计了基于数据流异常检测的软件容错纠错实验方案,以数据流异常检测算法为核心搭建了实验平台,进行了软件容错纠错实验研究。实验结果表明本文提出的容错策略能够很好地实现软件的容错纠错,以上研究工作为软件的容错纠错提供了新的解决方案。

陆阳,王强,张本宏,诸葛战斌[9](2010)在《计算机系统容错技术研究》文中提出针对计算机系统中软、硬件可靠性问题的不同特点,讨论容错技术的最新发展现状,分析计算机系统中的各种容错方法,包括传统的冗余设计、错误回卷恢复机制以及当前研究较多的一般化容错设计方法等,研究目前已有的一些容错方法在反应延迟、容错成本、精确量化、异构同步、可靠性建模等方面存在的缺陷以及待解决关键问题,并对如何进一步更好地完善和使用这些容错方法进行总结。

王亚楠[10](2010)在《分布式容错检查点算法研究与软件设计》文中研究表明计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确的服务,因此,分布式系统的容错问题是目前分布式系统研究的热点和难点,同时也是一个富有挑战性的课题。由于分布式系统在地理区域分布的广泛性,使得整个系统无法获得一个统一的时钟,而这又是直接影响分布式系统性能的关键因素,这就给分布式系统的容错问题带来了巨大的挑战。本文以2008年申请的山东省自然科学基金项目为背景,以分布式系统容错检查点算法作为出发点,针对丰富的检查点设置策略和提高资源利用率和系统效率为目的,对分布式系统容错问题和检查点算法进行了深入的探索和研究。本文研究了分布式系统容错检查点的设置和恢复算法,容错检查点间隔设置的理论,方法和技术,探索将所研究的分布式容错检查点算法与实际的分布式容错软件相结合,提高分布式系统的可用性和算法的实用性,本文主要完成了如下工作:1.构造分布容错系统的层次结构模型并列举了该模型的主要特点,容错的概念和相关的定理,分析了分布式系统性能特性,并结合该性能提出分布式系统进程模型。根据进程通信模型进一步指出,分布式容错系统由于时钟自适应特性而出现的检查点通信问题,如孤儿报文、中途消息等。提出了如何消除这些非全局一致的检查点状态的条件和定理,给出了评价检查点算法性能优劣的指标,即算法的时间开销和空间开销。2.根据分布式容错检查点算法的原理,分析了同步检查点算法的设置,异步检查点设置和消息日志检查点算法的各自特点,深入理解了影响检查点算法性能的瓶颈因素,即算法设计较复杂,实用性较差,时空开销较大,对分布式系统性能的影响大。在此基础上,参与研究了一种改进的分布式容错检查的算法,矩阵一致检查点算法,该算法从容错的基本要素即进程间通信出发,以进程间通信的数目作为设计算法的核心思想,降低了算法的时空开销,提高了系统的整体性能,经演绎推理证明和实验验证,该检查点算法简洁有效。3.通过研究检查点算法的性能瓶颈,我们发现检查点间隔的设置和选取对于检查点算法的性能同样产生着重要的影响。在检查点间隔的设置算法中,尽量减少检查点机制所产生的时空开销对提高计算效率具有重要意义。本文在已有的动态检查点间隔设置的基础上,提出了一种新的动态检查点间隔的设置方法一随机时间序列分析方法的Markov动态检查点间隔设置,该算法既可以减少回滚重复计算时间,又可以降低检查点保存进程状态所需的存储空间。经Spin仿真实验结果表明,该动态检查点间隔算法与固定检查点算法和一般的动态检查点算法相比,平均检查点间隔开销率R(t)比传统方法平均减少1.019%。4.分布式容错软件平台的设计技术。由于分布式系统的跨平台特性,本文分别设计了Windows和Linux操作系统平台下的容错软件模块的设计方式,前者主要采用了Detour Windows API技术,通过在系统的进程中插入具有容错功能的线程来实现在Windows系统下的容错功能,并能根据保存的文件进行容错的恢复。后者主要采用了Linux LKM模块技术,在Linux内核中插入一个具有容错功能的LKM模块,进行Linux系统下检查点设置和容错恢复,该容错软件为分布式系统的可用性提供了有效的支持,具有一定的实际应用价值。

二、基于回卷恢复的linux线程容错研究(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于回卷恢复的linux线程容错研究(论文提纲范文)

(1)星载GPU四余度容错算法设计与实现(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 课题研究内容背景及意义
        1.1.1 研究背景及意义
        1.1.2 研究内容及意义
    1.2 国内外研究现状与发展趋势
        1.2.1 国内外研究现状
        1.2.2 发展趋势
    1.3 本文的主要贡献与创新
    1.4 本论文的结构安排
第二章 余度容错技术研究
    2.1 计算机故障及分类
    2.2 余度定义及分类
        2.2.1 余度的定义
        2.2.2 余度的分类
    2.3 容错技术
        2.3.1 硬件冗余
        2.3.2 软件冗余
        2.3.3 时间冗余
        2.3.4 信息冗余
    2.4 本章小结
第三章 GPU&CUDA架构
    3.1 GPU及其架构
        3.1.1 计算机架构
        3.1.2 CPU与GPU
    3.2 CUDA并行技术
        3.2.1 引言
        3.2.2 CUDA编程模型
        3.2.3 CUDA执行模型
        3.2.4 CUDA存储器模型
    3.3 本章小结
第四章 星载GPU四余度容错算法设计
    4.1 余度选择
    4.2 表决机制
    4.3 基于CUDA的四余度容错方案设计
        4.3.1 基于简单复算的四余度容错模式
        4.3.2 基于并行检错的四余度容错模式
        4.3.3 基于任务并行的四余度容错模式
        4.3.4 基于结果比较算法的四余度容错模式
        4.3.5 基于任务并行和比较算法的四余度容错模式
        4.3.6 基于多版本kernel的四余度容错模式
        4.3.7 基于多版本kernel和比较算法的四余度容错模式
        4.3.8 基于任务并行和比较算法的多版本kernel四余度容错模式
        4.3.9 基于流计算模式的四余度容错模式
        4.3.10 基于多GPU的四余度容错模式
    4.4 基于冗余进程的软件容错方案
        4.4.1 PLR算法
        4.4.2 检查点与恢复技术
        4.4.3 四余度进程容错方案设计
    4.5 本章小结
第五章 实验测试和数据分析
    5.1 NVIDIAJetsonTX2简介
    5.2 实验测试与性能分析
    5.3 实验伪码
    5.4 可靠性分析
        5.4.1 可靠性描述
        5.4.2 可靠性建模
        5.4.3 可靠性计算
    5.5 本章小结
第六章 全文总结与展望
    6.1 全文总结
    6.2 后续工作展望
致谢
参考文献

(2)基于Zynq-7000的星载软件抗软错误设计方法研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 课题背景及研究的目的和意义
    1.2 国内外研究现状及分析
        1.2.1 星载软件软错误及其影响
        1.2.2 星载软件抗软错误容错技术研究现状
        1.2.3 可编程SoC研究现状
        1.2.4 研究现状总结与分析
    1.3 本文的研究内容与结构
        1.3.1 主要研究内容
        1.3.2 论文组织结构
第2章 星载软件抗软错误研究总体方案
    2.1 星载软件功能及抗软错误需求分析
    2.2 容错研究方案
        2.2.1 容错方法的选取
        2.2.2 容错设计方案
    2.3 研究平台
        2.3.1 硬件研究平台
        2.3.2 软件研究平台
        2.3.3 运行环境搭建
    2.4 本章小结
第3章 星载软件两级容错机制的设计与实现
    3.1 基于回卷恢复的双核互检容错方法
        3.1.1 回卷恢复的设计与实现
        3.1.2 双核互检的设计与实现
    3.2 针对数据流错误的抗软错误方法
        3.2.1 面向存储器的EDAC容错设计与实现
        3.2.2 面向寄存器的三模冗余容错设计与实现
    3.3 针对控制流错误的抗软错误方法
        3.3.1 基于ARM异常处理的陷阱技术
        3.3.2 基于Zynq-7000 的两级看门狗机制
    3.4 本章小结
第4章 星载软件抗软错误的验证与分析
    4.1 星载软件抗软错误验证平台的构建
        4.1.1 故障注入方法的选取
        4.1.2 星载软错误故障注入及验证软件
    4.2 容错设计方法验证及结果分析
        4.2.1 故障注入设计方案及实现
        4.2.2 故障注入结果及分析
    4.3 星载软件抗软错误容错验证及结果分析
        4.3.1 星载软件无故障注入结果及分析
        4.3.2 星载软件有故障注入结果及分析
    4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢

(3)移动设备环境下功耗优化的容错策略设计与实现(论文提纲范文)

摘要
ABSTRACT
1 绪论
    1.1 课题来源及研究背景
    1.2 关键技术及研究现状
        1.2.1 检查点机制
        1.2.2 路由缓存
    1.3 论文的研究目标和内容
    1.4 论文组织与结构安排
    1.5 本章小结
2 相关研究
    2.1 系统平台
        2.1.1 操作系统发展史
        2.1.2 Linux广泛应用
        2.1.3 主要内容
    2.2 OpenWrt简介
        2.2.1 软件栈结构
        2.2.2 文件夹结构
        2.2.3 扩展库及Package
        2.2.4 交叉编译工具链
    2.3 检查点机制
        2.3.1 简介
        2.3.2 状态检查/回卷恢复过程
        2.3.3 检查点保存的内容
        2.3.4 恢复方法
        2.3.5 进程状态转储
        2.3.6 检查点机制的关键问题
        2.3.7 检查点的优化技术
    2.4 本章小结
3 实验环境搭建
    3.1 搭建路由器OpenWrt环境
        3.1.1 编译安装组件
        3.1.2 修改配置参数
        3.1.3 编译固件
    3.2 加载检查点机制
        3.2.1 编译和加载
        3.2.2 测试
    3.3 本章小结
4 建模和算法
    4.1 方案对比
    4.2 状态分析
    4.3 算法研究
    4.4 仿真实验
    4.5 本章小结
5 结论
参考文献
附录
致谢

(4)基于国产多核处理器的容错冗余进程检测技术的研究(论文提纲范文)

摘要
Abstract
目录
第1章 绪论
    1.1 课题来源及研究的目的与意义
        1.1.1 课题来源
        1.1.2 课题研究的背景与意义
    1.2 国内外研究现状
        1.2.1 龙芯处理器
        1.2.2 软硬件容错技术现状
    1.3 论文的主要内容
第2章 容错技术及相关研究
    2.1 故障
        2.1.1 故障的概念
        2.1.2 故障的分类
    2.2 软硬件容错技术
        2.2.1 硬件容错技术
        2.2.2 软件容错技术
    2.3 本章小结
第3章 容错冗余进程检测方案
    3.1 各种软件容错技术分析比较
    3.2 冗余进程检测方案SoR划分
    3.3 冗余进程检测方案原理
        3.3.1 缓存模块
        3.3.2 同步模块
        3.3.3 Watchdog
        3.3.4 其他两个模块
    3.4 进程执行模型
    3.5 本章小结
第4章 冗余进程检测方案验证
    4.1 软硬件平台
    4.2 基于龙芯处理器的 linux 内核编译
    4.3 linux 内核中添加系统调用与数据结构
        4.3.1 内核中添加系统调用
        4.3.2 内核中添加数据结构
    4.4 检测方案实现
        4.4.1 缓存模块
        4.4.2 同步模块
        4.4.3 检测模块和故障恢复模块
        4.4.4 检测系统系统调用接口
    4.5 实验结果与分析
        4.5.1 正确性验证
        4.5.2 性能损耗分析
    4.6 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢

(5)基于国产处理器计算机系统回卷恢复机制的研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 课题的来源及研究的目的和意义
        1.1.1 课题来源
        1.1.2 课题研究的背景与意义
    1.2 国内外研究现状
        1.2.1 国产容错计算机系统研究现状
        1.2.2 检查点系统研究现状
    1.3 本文主要研究内容及组织结构
第2章 龙芯的 MIPS 架构及 Linux 进程
    2.1 龙芯处理器芯片
    2.2 MIPS 架构
        2.2.1 MIPS 架构概述
        2.2.2 指令集
        2.2.3 寄存器约定
        2.2.4 内存管理
        2.2.5 地址转换
    2.3 Linux 进程
        2.3.1 Linux 进程描述符
        2.3.2 Linux 进程内存布局
        2.3.3 Linux 进程上下文
    2.4 本章小结
第3章 基于检查点的回卷恢复机制的研究与设计
    3.1 系统设计目标
    3.2 系统总体结构设计
    3.3 系统实现方案
        3.3.1 内核模块编程
        3.3.2 设备驱动编程
    3.4 故障守护进程
    3.5 检查点信息保存模块
        3.5.1 检查点头信息
        3.5.2 进程内存映像
        3.5.3 CPU 寄存器
        3.5.4 进程信号相关信息
        3.5.5 进程文件相关信息
    3.6 回卷恢复模块
    3.7 文件处理模块
    3.8 本章小结
第4章 性能测试及结果分析
    4.1 测试环境
    4.2 基本功能测试
        4.2.1 内核级检查点的编译与安装
        4.2.2 回卷恢复功能
        4.2.3 查看日志记录
    4.3 检查点开销分析
        4.3.1 时间开销
        4.3.2 空间开销
    4.4 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢

(7)一种集群监控容错系统的设计与实现(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
        1.1.1 课题需求
        1.1.2 技术背景
    1.2 本文主要研究内容
    1.3 本文章节安排
第二章 集群监控容错系统总体设计
    2.1 系统主要功能需求
    2.2 总体框架设计
    2.3 软件体系架构设计
        2.3.1 客户端模块
        2.3.2 管理节点模块
        2.3.3 计算节点模块
        2.3.4 通信模块
    2.4 本章小结
第三章 集群监控
    3.1 集群监控系统的研究现状
    3.2 集群监控模块设计
        3.2.1 结构功能设计
        3.2.2 监控模块通信设计
        3.2.2.1 监控通信模式
        3.2.2.2 监控通信协议
    3.3 集群监控模块的实现
        3.3.1 NodeMonitor 模块
        3.3.1.1 常见的监控采集方法
        3.3.1.2 计算节点监控信息
        3.3.2 MonitorManage 模块
        3.3.3 UserMonitor 模块
    3.4 效果展示
        3.4.1 节点监控
        3.4.2 作业监控
    3.5 本章小结
第四章 集群系统容错
    4.1 集群系统容错技术研究
        4.1.1 系统容错概述
        4.1.2 容错技术研究
        4.1.3 检查点技术研究
        4.1.3.1 检查点技术的分类
        4.1.3.2 检查点技术的应用
        4.1.3.3 现有的检查点库技术
    4.2 集群容错模块总体设计
    4.3 计算节点容错设计
        4.3.1 计算节点故障检测
        4.3.2 计算节点故障处理
    4.4 面向应用的作业检查点设计
        4.4.1 地震数据处理作业的研究
        4.4.2 作业检查点的设计思路
        4.4.3 作业检查点的实现
        4.4.3.1 作业检查点数据结构
        4.4.3.2 作业检查点功能 API
        4.4.4 作业检查点设置与回卷恢复流程
        4.4.4.1 作业检查点设置详细流程设计
        4.4.4.2 作业检查点回卷恢复流程设计
    4.5 实验与分析
        4.5.1 实验平台
        4.5.2 实验方法
        4.5.3 实验结果与分析
        4.5.3.1 节点故障检测功能
        4.5.3.2 作业检查点功能
    4.6 本章小结
第五章 结束语
    5.1 工作总结
    5.2 工作展望
致谢
参考文献
攻硕期间取得的研究成果

(8)基于数据流异常检测的嵌入式软件容错研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 课题背景及软件容错技术介绍
    1.2 国内外软件容错技术研究现状和发展趋势
        1.2.1 国外软件容错技术的研究现状及发展趋势
        1.2.2 国内软件容错技术的研究现状及发展趋势
    1.3 软件容错研究的分类
    1.4 研究的目的和意义
    1.5 本文研究的主要内容
第二章 基于数据流异常监测的容错纠错方案
    2.1 整体容错纠错方案
    2.2 支持向量机理论
    2.3 聚类理论
    2.4 数据的备份与回卷
    2.5 硬件设计
    2.6 本章小结
第三章 基于支持向量机的数据流异常检测算法
    3.1 数据流的概念
        3.1.1 数据流模型的分类
        3.1.2 数据流的特点
    3.2 数据流处理技术
    3.3 数据流的趋势、异常和变化检测算法
    3.4 最小二乘法与最小二乘支持向量回归
        3.4.1 最小二乘法理论
        3.4.2 最小二乘支持向量回归LS-SVR
    3.5 基于支持向量机回归模型的数据流离群点检测算法
    3.6 仿真验证
    3.7 本章小结
第四章 一种偏向最近动态的数据流异常检测聚类算法
    4.1 研究背景
        4.1.1 聚类分析
        4.1.2 k-means 聚类算法
    4.2 基于距离的数据流异常检测
    4.3 偏向最近动态的加权算法
    4.4 仿真验证
    4.5 本章小结
第五章 实验与分析
    5.1 实验运行环境及数据集
    5.2 客户端的程序设计
    5.3 检测端的程序设计
        5.3.1 uboot 的移植
        5.3.2 Linux 内核的移植
        5.3.3 文件系统的移植
        5.3.4 应用程序的开发
    5.4 实验结果
    5.5 本章小结
第六章 结束语
致谢
参考文献

(9)计算机系统容错技术研究(论文提纲范文)

1 概述
2 硬件错误的容错方法
    2.1 硬件冗余
    2.2 信息冗余
    2.3 时间冗余
    2.4 硬件线程冗余
3 软件错误的容错方法
    3.1 N-version programming方法
    3.2 恢复块方法
    3.3 防卫式程序设计方法
4 错误回卷恢复机制
    4.1 基于检查点的错误回卷恢复
    4.2 基于日志的错误回卷恢复
5 一般化容错方法
6 有待进一步解决的问题
7 结束语

(10)分布式容错检查点算法研究与软件设计(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 论文的选题背景和研究意义
        1.1.1 容错检查点研究背景
        1.1.2 检查点容错存在的问题
    1.2 国内外研究与发展概况
    1.3 论文的主要工作
第2章 检查点容错研究的基本概念和研究现状概述
    2.1 容错检查点技术
    2.2 容错检查点系统模型和基本概念
        2.2.1 分布式系统模型
        2.2.2 检查点容错基本概念
    2.3 检查点系统发展现状
    2.4 小结
第3章 分布式容错检查点算法
    3.1 检查点算法
        3.1.1 同步检查点算法
        3.1.2 异步检查点算法
        3.1.3 准同步检查点算法
    3.2 消息日志算法
        3.2.1 乐观消息日志
        3.2.2 悲观消息日志
    3.3 矩阵同步检查点算法
        3.3.1 分布式系统扩展模型
        3.3.2 全局一致状态判别
        3.3.3 同步协调矩阵检查点算法
    3.4 小结
第4章 马尔可夫决策过程的动态容错检查点间隔算法
    4.1 马尔可夫决策过程概述
        4.1.1 马尔可夫模型定义
        4.1.2 隐马尔可夫模型
        4.1.3 HMM需解决的三个问题
    4.2 容错检查点间隔的设置策略
        4.2.1 静态检查点间隔
        4.2.2 动态检查点间隔
    4.3 MDCI算法的设计与实现
        4.3.1 MDCI算法存储空间建模
        4.3.2 隐马尔可夫过程模型的间隔算法
    4.4 算法性能评估与验证
        4.4.1 算法评估
        4.4.2 结果验证
    4.5 小结
第5章 分布式容错软件模型与设计
    5.1 分布式系统容错软件模型
    5.2 Windows环境下的检查点系统
        5.2.1 Detours Windows API拦截
        5.2.2 进程检查点设置与回卷恢复
    5.3 基于Linux内核的检查点系统
        5.3.1 Linux LKM容错机制
        5.3.2 检查点容错软件模式
    5.4 小结
第6章 总结与展望
    6.1 全文总结
    6.2 课题展望
参考文献
致谢
攻读学位期间发表的学术论文目录
攻读学位期间参与科研项目及获奖情况
学位论文评阅及答辩情况表

四、基于回卷恢复的linux线程容错研究(论文参考文献)

  • [1]星载GPU四余度容错算法设计与实现[D]. 朱文浩. 电子科技大学, 2018(11)
  • [2]基于Zynq-7000的星载软件抗软错误设计方法研究[D]. 沈露. 哈尔滨工业大学, 2017(02)
  • [3]移动设备环境下功耗优化的容错策略设计与实现[D]. 王天喜. 武汉纺织大学, 2015(03)
  • [4]基于国产多核处理器的容错冗余进程检测技术的研究[D]. 廉晓洋. 哈尔滨工业大学, 2014(02)
  • [5]基于国产处理器计算机系统回卷恢复机制的研究[D]. 刘春雷. 哈尔滨工业大学, 2014(03)
  • [6]基于并发性发掘的低开销回卷恢复实现方法[J]. 袁功彪,杨金民,白树仁. 计算机工程, 2013(11)
  • [7]一种集群监控容错系统的设计与实现[D]. 周阳. 电子科技大学, 2012(01)
  • [8]基于数据流异常检测的嵌入式软件容错研究[D]. 徐凌翔. 电子科技大学, 2011(06)
  • [9]计算机系统容错技术研究[J]. 陆阳,王强,张本宏,诸葛战斌. 计算机工程, 2010(13)
  • [10]分布式容错检查点算法研究与软件设计[D]. 王亚楠. 山东大学, 2010(09)

标签:;  ;  ;  ;  ;  

基于倒带恢复的Linux线程容错研究
下载Doc文档

猜你喜欢