一、OLAP数据的索引(论文文献综述)
裴威,李战怀,潘巍[1](2021)在《GPU数据库核心技术综述》文中指出GPU以其超高速计算能力和超大数据处理带宽受到数据库厂商及研究人员的青睐,以GPU计算为核心的数据库分支(GDBMS)蓬勃发展,以其吞吐量大、响应时间短、成本低廉、易于扩展的特点,与人工智能、时空数据分析、数据可视化、商务智能交互融合能力,彻底改变了数据分析领域的格局.将对GDBMS的四大核心组件——查询编译器、查询处理器、查询优化器和存储管理器进行综述,希望促进未来的GDBMS研究和商业应用.
田川[2](2021)在《大数据多维建模分析平台的研究与实现》文中研究表明大数据多维分析平台旨在从多个角度、多个侧面观察和挖掘海量数据,经过专业的整合与分析,最后输出可视化数据或图表,帮助分析师和企业用户深入了解包含在数据中的信息和内涵。面对数据量和分析需求的爆发式增长,本文采用MOLAP(Multidimensional OLAP)的预计算技术突破传统ROLAP(Relational OLAP)平台的性能瓶颈,但其应用却存在以下问题与挑战:1)在预计算技术的应用中,多维数据模型的构建和优化过度依赖数据专家,当数据规模不断增加、数据分析需求频繁变化时,这种手动建模的方式会耗费大量人力;2)传统的多维模型优化算法存在由于评价指标单一(仅评价物化时间,过度追求物化视图的查询命中率)导致的超高维度时的维度灾难问题、以及物化视图集频繁抖动的问题;3)MOLAP由于查询场景固化,必须应用在混合引擎的系统中,然而在基于混合引擎的系统中,ROLAP和MOLAP引擎各有所长,系统难以在二者之间做出快速、合理的选择,亟需一种多维模型索引对查询路由提供支持。针对以上问题和需求,本文对大数据多维分析、预计算和多维数据索引等技术进行了深入的研究和分析,主要研究内容如下:(1)研究并实现了多维数据模型的自动构建及持续优化技术。通过分析历史查询任务提取元数据,在后台自动学习沉淀数据间的关联知识、构建数据表关联视图,以此为基础设计多维数据模型并进行物化,打通“原始数据—预计算—数据分析”的路径,并在多维数据模型使用的全生命周期对其进行监控和优化,使MOLAP的使用更加便捷化、智能化。(2)提出并实现了基于带权图的多维大数据模型优化算法。算法引入了新的评价指标:平均查询时延和膨胀率,有效权衡了查询性能和存储空间,解决维度灾难的隐患。并通过挖掘维度之间存在的关联信息划分聚合组,使数据模型适应探索式分析的需求,减少物化视图集的频繁抖动。(3)研究并实现了基于混合引擎的多维数据查询技术。提出了一种基于Cube生成树的Bitmap索引,并给出这种Bitmap索引的检索方法和整体查询路由策略,用于解决查询引擎的选择问题。这种Bitmap索引契合多维数据模型的结构,并且占用空间小、位运算速度快,为混合引擎的查询路由提供了一种高效的索引解决方案。最后,基于以上三方面的研究设计并实现了大数据多维建模分析平台,应用于国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台及方法的有效性及实用性。
段惠超[3](2020)在《混合负载下数据库的异步增量视图维护优化》文中指出随着数据规模和用户数量的增加,日趋多样化的业务需求和日益复杂的混合事务与分析负载(Hybrid Transaction/Analytical Processing,HTAP)对数据库系统的事务吞吐量和分析型查询延迟提出了更高的要求。目前并没有公认针对HTAP负载的最优解决方案,但是基于日志合并树(Log-Structured Merge-Tree,LSM-tree)构建的事务处理系统已经被证明了高效的事务处理能力(例如阿里巴巴的Ocean Base),因此在可扩展的事务处理系统上构建分析型查询能力来响应HTAP负载逐渐成为了研究的热点问题。物化视图通过预计算和缓存计算结果能有效降低查询时延,是分析大规模数据的重要手段。视图对外提供查询时,为了保持视图的内容与基表一致,由基表更新导致的视图更新必然会引入额外的开销。为了在可扩展的事务处理系统上高效地维护视图,如何在这种新型架构下设计视图的存储和维护流程、如何在保证视图查询收益下最小化事务处理引入的额外成本、如何优化系统核心资源的开销等都成为了亟待解决的问题。本文针对这些挑战,围绕可扩展事务处理系统的架构、事务处理过程、IO资源等角度设计了一系列的优化方法,并且从根本上降低了视图的维护代价。本文主要工作和贡献如下:(1)本文结合新型分布式LSM-tree架构特点提出了增量视图维护方案:数据规模的急剧膨胀促使纵向扩展(Scale Up)的传统单机数据库架构向横向扩展(Scale Out)的新型分布式数据架构转变。分布式LSM-tree架构是横向扩展的一种新型方案,能够提供可扩展的事务处理能力,但是对于这种新型架构,目前仍然缺少物化视图维护相关的研究工作。本文总结了分布式LSM-tree的架构特点和实现视图的设计要素,提出了一种将视图维护与事务处理分离的异步维护方法,填补了这一领域的空白。本文在保证一致性的基础上,面向不同的负载特征提出了具体的视图维护策略。针对多表连接视图的性能问题,本文设计并实现了基于多个两表连接的视图维护流程,从而能够根据基表更新直接定位到视图中需要相应进行修改的记录,有效降低了视图维护的代价和对事务处理的影响。(2)本文对高通量事务负载下的增量视图维护进行了优化:当前的视图更新方法通常将每个单独操作或单行日志作为计算的切入点,使得优化方式仅能着眼于单行操作或同一基表的若干行操作。高通量的事务负载下,视图维护对事务处理的影响被放大,视图维护性能需要进一步优化。本文从包含若干操作的整个事务的角度,组合多个基表操作共同生成视图的增量,大大降低了视图维护开销。事实上,在OLTP(Online Transaction Processing)负载中,一个事务往往包含多个表的执行逻辑,隐含了各个表中数据的相关性,并且这往往也是OLAP(Online Analytical Processing)负载同时关注的。本文剖析了事务之间可用于视图维护的逻辑信息,将事务中共同更新的基表组成了一个分片,通过组合这些基表的操作直接得到整个分片的增量。相比传统基于单行操作计算视图增量的方式,以事务为粒度的视图维护过程通过批量进行多表的增量计算,极大地改善了多表连接物化视图的效率。本文还进一步提出了两种优化方案:通过优化增量计算的表达式来减少计算开销;通过避免无效的基表访问来从根本上降低视图维护代价。(3)本文对视图维护的核心IO资源开销进行了优化:针对混合负载下事务与查询访问的数据经常重叠的特点,本文进一步着眼于优化事务处理、查询和视图维护总体的IO开销。当基表发生更新时,本文不对视图进行同步更新而是仅记录下维护视图的任务,这些任务通过复用后续事务和查询的IO来完成。本文设计并实现了一个支持共享IO的多表连接视图的维护方案。通过构造视图关系图来维护基表之间的连接关系,事务执行不仅为基表生成增量记录,还根据其连接表生成相关的维护任务。因此,后续事务或查询可以在不增加IO成本的情况下完成这些任务从而有效降低维护代价。另外,基于多版本实现的增量计算方式也保证了视图与基表在异步更新下的一致性。综上所述,本文深入研究了混合负载下的异步增量视图维护策略,在不同场景下设计实现并优化了视图的存储结构和维护方案。首先,针对目前被广泛使用的分布式LSM-tree架构数据库,本文首次提出并设计实现了高效的增量视图维护方法。然后,本文研究了将事务作为整体来加速视图增量计算的策略,并通过分析形式化的增量计算表达式,进一步进行了优化。最后,本文针对更普遍场景下视图维护时的IO消耗问题,将事务处理和分析查询的IO资源服务于视图维护过程,从根本上降低了视图维护的代价。大量的实验验证了本文方法的有效性。在未来,选择维护哪些视图来整体响应分析负载、如何结合机器学习策略指导异步视图维护任务的执行、以及在混合负载下,如何进行物化视图的推荐等都值得进一步的研究。
张宇,张延松[4](2021)在《向量分组聚集计算技术研究》文中指出分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显着提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。
赖立[5](2020)在《分布式内存数据库异构计算框架及其算子的设计与实现》文中提出随着大数据时代的到来,联机分析处理(Online Analytical Processing,OLAP)已成为了研究的焦点。其中,面向海量数据处理的效率问题成为OLAP研究的关键点。为了提高执行效率,越来越多的OLAP数据库采用全内存计算。同时,CPU/GPU异构计算框架的运用越来越广泛。将异构计算运用于OLAP数据库可以大大提高OLAP的执行效率,降低OLAP的成本,这在数据库科学和工程上都有重要意义。目前使用GPU异构计算加速数据库的主要方式是提取数据库中的计算密集型操作,然后将其替换成GPU并行计算逻辑。这种通用做法无法解决总线传输瓶颈的问题。本文以解决OLAP数据库异构计算系统的总线传输瓶颈为突破口,以GPU索引为主要基础,以异构算子为主要手段,设计了一整套完整异构加速方案。本文的最终目的是为OLAP分布式内存数据库提供一套异构加速方案,主要工作如下:1、设计了GPU索引方案作为全文的基础。GPU索引方案不仅可以充分利用GPU的并行计算能力,同时也极大减少了内存和显存之间的数据传输,解决了总线传输瓶颈问题。2、基于GPU索引方案,设计了混合算子模型。在混合算子模型下,每一个算子都有GPU近似算子和CPU精确算子两部分,两个部分相互协作,共同完成计算任务。本文也详细论述了如何将混合算子模型运用于OLAP数据库的关键算子。3、设计了与GPU索引方案适配的调度模型。调度模型分为分布式全局调度和单节点局部调度,全局调度对热点数据在分布式集群中进行迁移,局部调度对数据进行索引调整。4、总结了将异构计算运用于数据库的关键性问题,并为这些问题建立数学模型。通过推导证明,得出许多有用的结论。这些结论直接运用于本系统,同时许多结论对其他类型的异构计算也具有借鉴意义。最后,对本分布式内存数据库异构计算系统进行全面的测试。测试结果发现本系统的执行效率远远高于单独使用CPU执行的效率。
李梁[6](2020)在《内存数据管理与分析关键技术研究》文中进行了进一步梳理当今,数据处理的应用飞速增长,数据管理技术尤其是关系型数据库管理系统(DataBase Management Systems)被广泛应用在各个行业,例如大到航天飞行器的数据系统,小到百姓日常的购物消费系统等都和数据库息息相关。随着日益快速发展的互联网技术,尤其是伴随着未来5G市场的爆发以及万物互联的设备持续增多,数据库管理系统必将持续成为当前以及未来的研究热点。最近十多年计算机硬件的性能发生了质的提升,这其中比较有代表性的成果就是内存数据管理技术的大规模普及与应用。本文首先阐述硬件发展以及内存数据库技术发展,以及数据处理行业的几个新技术:(1)在线事务/分析混合处理,高性能OLTP事务型系统基本都是采用内存数据库作为标准实现的,事务和分析同时存在是当下很常见的业务场景,在内存数据库基础上,探索事务分析融合的系统也是当下的一大趋势。(2)数据库和人工智能的关系,数据库可以为人工智能提供很多大数据工程上的经验以及充分压榨硬件性能的经验,人工智能可以给数据库提供很多场景定制的能力。本文针对新技术,对内存数据管理针对性的提出了研究算法。(1)学习型的跳表索引技术:我们发现跳表作为一种基于随机算法的数据库索引技术它的性能是不稳定的。在极端情况下查找复杂度会退化到O(n),这是因为经典跳表结构没有结合数据的特征。为此,作者基于核密度估计的方式估计数据累积分布函数,预测数据在跳表中的位置,进而设计用于判定结点层数的跳表算法。另外,针对历史数据的访问频次,作者设计了一种保证频繁访问的“热”数据尽可能地在跳表的上层,而访问较少的“冷”数据在跳表的下层的跳表算法。最后,基于合成数据和真实数据对标准跳表和5种改进的跳表算法进行了全面的实验评估并开源代码。实验结果表明,优化的跳表最高可以获取60%的性能提升。这为未来的科研工作者和系统开发人员指出了一个很好的方向。(2)内存存储引擎异步快照技术:作者发现尽管学术界已经提出了各种快照算法来权衡吞吐量和延迟的性能,但是像Redis这样的内存数据库坚持使用简单的fork函数生成快照。为了 了解这种现象,作者对主流快照算法进行了全面的性能评估。对主流算法广泛评估表明,fork的性能比学术界具有代表性的快照算法产生了更好的性能,但比Hourglass和Piggyback稍差。除此之外,作者针对更加广泛的事务处理场景,提出了虚拟快照的技术,并且开放了相应的源代码。(3)面向混合负载的存储引擎:作者提出了一种无等待的HTAP(WHTAP)架构,它可以以无等待的形式高效地执行OLTP和OLAP请求。作者开发并评估了一个原型WHTAP系统。实验表明,该系统可以获得与TicToc系统相似的OLTP性能,同时在分析处理上可以获得4~6倍的加速。(4)针对不同计算芯片的极限学习机性能评估:作为一种基于内存计算的机器学习算法,极限学习机(ELM)以其出色的学习速度而闻名。随着ELM在分类和回归领域中的应用范围的扩大,对其实时性能的需求正在增加。尽管使用硬件加速是一个显而易见的解决方案,但是如何为基于ELM的应用选择合适的加速硬件是值得进一步讨论的主题。为此,作者在三种最先进的加速硬件(即多核CPU,图形处理单元(GPU)和现场可编程门阵列(FPGA))上设计和评估了优化的ELM算法,实验结果表明GPU适合加速大型数据集的ELM算法;(2)FPGA用于小型数据集,因为其功耗较低,尤其是对于某些嵌入式应用程序。
郭淑曼[7](2019)在《面向海量数据的OLAP关键技术研究与应用》文中指出大数据时代,数据量呈爆炸式增长,如何从海量数据中快速的挖掘出潜在信息成为现阶段数据库领域的重要挑战,联机分析处理(On-line Analytical Processing,OLAP)应时而生。OLAP解决了传统数据库在面对海量数据存储的性能瓶颈问题,同时又简化了分布式系统在处理海量数据时复杂的计算流程,是现在数据挖掘领域的研究热点,具有很高的理论价值和研究意义。但是在实际业务应用中,OLAP需要依托于现有的数据仓库等平台,依然会面临并发承受能力差、资源分配不均、用户体验差等问题。针对以上问题,本文设计并实现了一种依托Apache Kylin与Elasticsearch引擎的分析查询系统,该系统完成了OLAP任务,将数据分析与查询分开处理,充分利用了分布式计算系统,降低了分布式计算的压力,最终加快了 OLAP的运算速度,提升了用户的使用体验。本文的具体工作如下:(1)学习并且总结现阶段OLAP技术,结合实际业务需求总结目前所面临的问题,针对出现的问题调研技术模型,设计系统方案。(2)完成了由Hadoop、Hive、HBase组成的OLAP支撑系统的设计与实施,设计并实现了依托Apache Kylin的OLAP分析子系统,该系统在高并发(并发数大于50)、TB级数据量的条件下,数据平均分析响应时间保持在8s以内。同时,针对分析系统对数据进行整合计算的不同环节进行优化,使得平均分析响应时间缩短70%,数据结果占用空间节省50%。(3)设计并实现了依托Elasticsearch的OLAP查询子系统,该系统在TB级数据量的条件下,数据平均查询时间保持在1s以内。针对系统的查询结果准确性问题,通过结合分词系统的方法,实现了对查询结果准确度20%以上的提升。同时,学习并实现了基于深度学习的分词系统模型,并从分词效果上与传统分词系统进行对比,为之后系统的进一步优化提供参考的依据。
晏博川[8](2019)在《数据离散化与数据立方体技术在高铁接触网数据分析中的应用》文中研究说明高速铁路是我国一种重要的交通运输方式,而接触网系统在高速铁路供电系统中占据了举足轻重的地位,因此业内对于高速铁路接触网系统的供电可靠性就提出了比较高的要求。现阶段我国高速铁路接触网系统的运行维护数据随着高速铁路供电安全检测监测系统(6C系统)的投入运行,在不断的记录汇总当中。随着数据体量的不断增大与计算机技术的不断发展,建立一个基于高速铁路接触网的故障预测与健康管理系统就成为了提高其安全性与可靠性的一个重要突破口。本文以历年高速铁路接触网故障数据为研究对象,对其进行了编码规则的制定,并通过数据离散化的方法验证了对数值型数据基于专家经验知识进行概念分层的正确性与合理性。为了提高数据查询效率,进而将数据立方体算法引入到高速铁路接触网数据的多维查询当中,实现了高速铁路接触网数据多维快速查询的目的。主要完成以下工作:1、对数据离散化方法进行研究。通过分析比较确定使用ChiMerge离散化算法来对高速铁路接触网数值型数据的概念分层进行正确性与合理性验证。基于高速铁路接触网数据特点,对算法程序予以优化。以历年高速铁路接触网实测数据来进行实验分析,验证了基于专家经验知识的概念层次划分的正确性与合理性。2、对数据立方体算法进行研究。分析比较当前主要算法的优劣之处,结合当前高速铁路接触网数据特点,最终将Dwarf算法引入到高铁接触网数据的多维查询当中,实现了高速铁路接触网数据多维快速查询的目的。3、针对高速铁路接触网数据特点与Dwarf算法本身的不足,作者优化了Dwarf立方体的存储结构,同时在Dwarf立方体的后缀合并过程中添加了一个判断结点内单元值唯一性的条件,以达到减少查询响应时间,进一步提高其查询效率的目的。最终运用高速铁路接触网实测数据进行实验,通过与原有算法的实验对比分析,验证了优化后算法在查询性能上的优势。
张延松,张宇,王珊[9](2019)在《一种基于向量索引的内存OLAP星型连接加速新技术》文中进行了进一步梳理星型连接是OLAP中重要的操作,事实表与维表基于星型连接执行多维分析处理.星型连接的性能取决于连接性能.当前研究主要集中在如何在不同的处理器平台上优化哈希连接性能,然而如何获得最优的哈希连接参数或实现是一个复杂的问题.哈希连接不依赖于模式的语义信息,然而却可以在事实表与维表之间通过维映射特征进一步优化连接性能.该文提出了一种新颖的面向OLAP负载的向量索引以提高事实表与维表之间的连接性能.从模式的角度来看,维表可以映射为向量索引,每一个事实表记录可以直接映射到向量索引上的相应位置,无须执行基于值匹配的哈希连接操作.从实现技术的角度看,向量索引是一种位图索引、字典表压缩、主外键参照完整性约束和连接索引相结合的技术.系统化的设计使向量索引可以扮演多种角色:(1)向量索引与位图索引类似起到过滤作用;(2)向量索引相对于只存储0或1的位图索引使用更多的位来表示更多的信息;(3)映射或创建自动增长的主键作为向量索引地址并且更新相应的外键,将主外键参照完整性约束转换为向量参照约束;(4)外键连接操作简化为通过外键值引用向量单元.基于向量索引,OLAP中代价大的星形连接可以抽象为向量索引计算,OLAP查询可以简化为基于向量索引的单表扫描处理.向量索引简化的设计不仅可以提升性能,而且降低了在GPU平台实现的复杂度.本文首先讨论了向量索引机制和如何在数据库中应用向量索引;然后设计向量索引更新机制,以保证在更新时向量参照约束;最后提出基于向量索引的OLAP框架来提高内存数据库OLAP性能.基于向量索引的星型连接可以用作GPU上的OLAP加速器,使CPU可以将计算密集型负载转移到高性能GPU平台来加速OLAP处理.实验结果表明向量索引更新代价较低,而向量引用性能收益较大.更重要的是,向量索引支持OLAP中的星形连接操作在内存数据库引擎之外进行加速,降低了内存数据库的CPU负载,或者将星形连接负载通过硬件级加速器,如GPU进行加速.基于向量索引的星型连接可以显着提升CPU和GPU平台上的星型连接性能,相对于内存数据库Vector,在SSB Q4.1查询可以获得最大3倍的性能提升,平均性能提升了1.2倍.
彭先清[10](2019)在《数据仓库中联机分析系统的研究与实现》文中研究表明随着医院信息化建设的发展,积累了大量的医疗业务信息,然而由于医院信息化程度不同,业务系统由不同软件厂商开发,且准备标准的程度不一,因此,实现不同系统之间的数据共享是目前医院信息化的关键问题。同时,由于各信息系统的功能和业务对象不同,如联机事务处理(OLTP)与联机分析处理(OLAP)故采用的数据模型、数据规格与数据标准不同。基于以上,本文通过对医院数据中心的主数据管理、数据仓库、数据组织、以及数据模型进行分析与设计,并在医院实践中加以应用。针对医院信息数据的OLAP工作,本文按照医院需求设计建立多维数据模型,对主数据管理以及数据仓库的数据模型设计提出一种比较实用的泛化模型,该泛化数据模型避免了数据变动后导致的数据仓库结构变动。针对医院数据中心的医疗数据特点,采用星形及扩展的雪花模型,建立了面向各种主题的多维数据集市,以满足各业务领域的决策分析人物,进行数据OLAP过程研究与设计。对数据进行统计分析,最后多样化呈现分析结果,具有一定的决策支持功能。通过这些方式构建医院信息分析和处理平台基本上满足了本文作者所在的医院工作需要,实现了医院多种运行常用指标的分析。
二、OLAP数据的索引(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、OLAP数据的索引(论文提纲范文)
(1)GPU数据库核心技术综述(论文提纲范文)
1 GPU数据库分类与层次 |
2 查询编译器 |
2.1 GDBMS编译模型 |
2.2 GPU数据处理模型 |
3 查询处理器 |
3.1 GPU关系代数和并发原语 |
3.2 复杂关系算子 |
3.2.1 Join算子 |
3.2.2 OLAP聚集函数算子 |
3.3 空间数据查询 |
3.4 KBE查询执行引擎 |
3.5 GPU事务处理 |
3.6 小结 |
4 查询优化器 |
4.1 代价模型 |
4.1.1 GDBMS代价模型之难 |
4.1.2 算子代价估计的方法 |
4.1.3 算子的选择率估计 |
4.2 查询重写 |
4.2.1 join算子改写 |
4.2.2 减少copy算子 |
4.3 异构计算任务队列 |
4.4 真实GDBMS系统中的优化器 |
4.5 小结 |
5 存储管理 |
5.1 GDBMS数据存储体系 |
5.2 GPU数据压缩 |
5.3 GPU索引技术 |
5.4 小结 |
6 总结 |
(2)大数据多维建模分析平台的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 多维数据模型建模的研究现状 |
1.2.2 多维数据模型优化算法研究现状 |
1.2.3 多维数据模型索引技术研究现状 |
1.3 硕士在读期间主要工作 |
1.4 研究内容与论文工作 |
1.5 论文组织结构 |
第二章 相关技术及理论研究 |
2.1 联机分析处理技术OLAP |
2.1.1 OLAP基本概念 |
2.1.2 多维数据立方体Cube |
2.1.3 OLAP多维数据分析操作 |
2.2 多维大数据存储及查询引擎 |
2.2.1 数据仓库和列式存储 |
2.2.2 ROLAP查询引擎Spark SQL |
2.2.3 MOLAP查询引擎Kylin |
2.3 预计算原理及构建方法 |
2.3.1 基于Spark的逐层构建方法 |
2.3.2 快速构建算法 |
2.4 本章小结 |
第三章 多维数据模型的自动构建及持续优化技术 |
3.1 研究挑战 |
3.2 数据语料的采集及分析 |
3.3 多维模型及数据立方体的设计 |
3.3.1 数据表关联模型的设计 |
3.3.2 多维数据立方体Cube的设计 |
3.3.3 多维数据立方体Cube的构建 |
3.4 多维数据模型的全生命周期优化 |
3.4.1 总体优化流程 |
3.4.2 初次构建时的优化 |
3.4.3 Cube运行时的持续优化 |
3.5 本章小结 |
第四章 基于带权图的多维大数据模型优化算法 |
4.1 研究挑战 |
4.2 评价指标及其估算 |
4.2.1 查询时延 |
4.2.2 膨胀率 |
4.3 基于贪心思想的聚合组划分 |
4.4 目标函数 |
4.5 算法步骤 |
4.6 实验设置及结果分析 |
4.6.1 实验设计和评价指标 |
4.6.2 实验环境和数据 |
4.6.3 实验结果分析 |
4.7 本章小结 |
第五章 基于混合引擎的多维数据查询技术 |
5.1 研究挑战 |
5.2 构建基于Cube生成树的Bitmap索引 |
5.2.1 Cube生成树 |
5.2.2 建立维度字典 |
5.2.3 构建Bitmap索引 |
5.3 基于Bitmap索引的混合引擎查询路由 |
5.3.1 Bitmap索引的逻辑运算 |
5.3.2 检索Bitmap索引 |
5.3.3 查询路由整体流程 |
5.4 实验分析 |
5.4.1 实验环境及数据 |
5.4.2 实验设计与结果分析 |
5.5 本章小结 |
第六章 大数据多维建模分析平台的设计与实现 |
6.1 需求分析 |
6.1.1 系统业务需求分析 |
6.1.2 系统功能需求分析 |
6.2 平台架构设计 |
6.2.1 功能结构设计 |
6.2.2 技术架构设计 |
6.2.3 整体架构设计 |
6.3 数据库设计 |
6.4 模块设计及实现 |
6.4.1 数据管理模块 |
6.4.2 自动建模、持续优化模块 |
6.4.3 多维数据分析模块 |
6.4.4 多维数据可视化模块 |
6.5 系统测试与评估 |
6.5.1 页面展示 |
6.5.2 系统测试 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(3)混合负载下数据库的异步增量视图维护优化(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 混合负载及应用 |
1.1.2 传统系统的变迁 |
1.1.3 基于OLTP系统扩展的新型HTAP系统 |
1.1.4 基于OLTP系统增加视图支持 |
1.2 研究内容与挑战 |
1.2.1 研究内容 |
1.2.2 研究挑战 |
1.3 主要贡献 |
1.4 章节安排 |
第二章 背景知识与研究现状 |
2.1 视图维护 |
2.2 增量视图维护 |
2.2.1 增量视图维护的形式化 |
2.2.2 增量视图维护的计算方法 |
2.3 视图维护时机 |
2.3.1 同步增量视图维护 |
2.3.2 异步增量视图维护 |
2.4 视图维护优化 |
2.4.1 研究方法 |
2.4.2 增量视图维护的优化方法 |
2.5 LSM-Tree架构 |
2.5.1 存储 |
2.5.2 数据访问 |
2.5.3 二级索引维护与物化视图关系 |
2.6 本章小结 |
第三章 分布式LSM-Tree架构下的增量视图维护 |
3.1 引言 |
3.2 设计要素 |
3.2.1 同步增量视图维护设计缺陷 |
3.2.2 异步增量视图设计要素 |
3.3 基于LSM-Tree的异步视图维护设计 |
3.3.1 模式及表示 |
3.3.2 视图的存储 |
3.3.3 部分更新的异步维护流程 |
3.3.4 基于存储节点的异步维护流程 |
3.4 视图维护计算 |
3.4.1 事务中的视图维护 |
3.4.2 视图增量数据的维护 |
3.5 视图表的一致性查询 |
3.5.1 版本控制 |
3.5.2 视图增量数据的并发控制 |
3.6 基于存储节点的异步维护优化 |
3.6.1 精准更新 |
3.6.2 版本控制 |
3.7 实验 |
3.7.1 实验配置 |
3.7.2 视图查询对事务处理的影响 |
3.7.3 事务处理对视图查询的影响 |
3.8 讨论 |
3.9 本章小结 |
第四章 事务负载下基于分片更新的增量视图维护 |
4.1 引言 |
4.2 问题定义 |
4.2.1 视图增量计算 |
4.2.2 分片定义 |
4.2.3 分片增量计算 |
4.3 基于分片的异步视图维护架构 |
4.4 表达式优化 |
4.4.1 表达式化简 |
4.4.2 可优化条件 |
4.4.3 条件检测方法 |
4.5 表访问优化 |
4.5.1 可优化条件 |
4.5.2 可优化场景 |
4.6 实验与分析 |
4.6.1 实验配置 |
4.6.2 事务处理性能 |
4.6.3 视图查询性能 |
4.6.4 视图维护代价 |
4.6.5 视图存储代价 |
4.6.6 整体维护代价 |
4.7 本章小结 |
第五章 基于IO共享的异步视图维护优化 |
5.1 引言 |
5.2 问题定义 |
5.3 基于IO共享的异步视图维护架构 |
5.4 视图维护任务生成与匹配 |
5.4.1 任务管理 |
5.4.2 任务匹配 |
5.5 实验与分析 |
5.5.1 实验配置 |
5.5.2 事务处理性能 |
5.5.3 视图维护代价 |
5.5.4 查询性能 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读博士学位期间发表的学术论文 |
(4)向量分组聚集计算技术研究(论文提纲范文)
1 相关工作 |
2 异构平台OLAP计算框架 |
2.1 以分组聚集计算为中心的查询处理策略 |
2.2 面向异构计算平台的OLAP计算框架 |
3 实验与结果 |
3.1 实验平台和实验设计 |
3.2 分组聚集计算性能对比 |
3.3 分组聚集计算性能分析 |
3.4 基于压缩向量索引的向量分组聚集算法性能 |
3.5 分组聚集计算的平台选择策略 |
4 结束语 |
(5)分布式内存数据库异构计算框架及其算子的设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 背景及意义 |
1.2 国内外研究现状 |
1.2.1 OLAP数据库现状 |
1.2.2 GPU异构计算现状 |
1.3 本文的主要贡献和创新 |
1.4 本论文的结构安排 |
第二章 相关理论基础 |
2.1 分布式数据库概述 |
2.1.1 分布式数据库架构概述 |
2.1.2 查询引擎概述 |
2.2 GPU异构计算概述 |
2.2.1 GPU硬件加速原理 |
2.2.2 CUDA概述 |
2.3 GPU数据库概述 |
2.3.1 全内存数据库与GPU数据库 |
2.3.2 列式存储与GPU数据库 |
2.3.3 GPU加速的计算模型 |
2.4 分布式数据库调度 |
2.5 本章小结 |
第三章 系统的关键模型与算法 |
3.1 异构计算的基本推论 |
3.1.1 异构计算相关定义 |
3.1.2 异构计算相关推论 |
3.2 异构计算总体策略 |
3.2.1 通用异构模型的问题和改进方向 |
3.2.2 主显混合基本模型 |
3.2.3 主显混合的GPU索引计算模型 |
3.3 算子算法 |
3.3.1 Select |
3.3.2 Join |
3.3.3 Group |
3.3.4 其他算子 |
3.4 分布式异构计算框架的调度和适配 |
3.4.1 异构调度策略 |
3.4.2 异构适配策略 |
3.5 本章小结 |
第四章 系统设计 |
4.1 系统架构设计 |
4.2 计算层和适配层设计 |
4.3 调度层设计 |
4.4 其他关键模块 |
4.5 主要流程设计 |
4.5.1 系统启动流程 |
4.5.2 查询流程 |
4.6 本章小结 |
第五章 系统实现 |
5.1 存储模块实现 |
5.2 计算和适配模块实现 |
5.3 调度模块实现 |
5.4 其他实现细节 |
5.5 本章小结 |
第六章 系统测试与结果分析 |
6.1 测试方案设计 |
6.1.1 测试环境 |
6.1.2 测试语句 |
6.1.3 测试数据 |
6.2 功能测试 |
6.2.1 算子功能测试 |
6.2.2 调度层功能测试 |
6.2.3 适配层功能测试 |
6.3 性能测试 |
6.3.1 Select性能测试 |
6.3.2 Join性能测试 |
6.3.3 Group性能测试 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 未来工作展望 |
致谢 |
参考文献 |
攻硕期间取得的研究成果 |
(6)内存数据管理与分析关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.1.1 硬件发展及其特性 |
1.1.2 内存数据管理 |
1.2 数据管理新技术 |
1.2.1 OLTP和OLAP融合的数据库市场 |
1.2.2 机器学习赋能数据库(Alfor DB) |
1.2.3 数据库赋能机器学习(DB for AI) |
1.3 预备知识和相关工作 |
1.3.1 内存索引技术 |
1.3.2 事务串并行 |
1.3.3 混合事务/分析处理 |
1.3.4 内存检查点与内存快照 |
1.3.5 学习型数据库技术 |
1.3.6 分布估计 |
1.3.7 极限学习机 |
1.4 研究内容与主要贡献 |
1.5 章节安排 |
第2章 面向数据特征的跳表优化技术 |
2.1 问题背景 |
2.2 预备知识 |
2.2.1 跳表 |
2.3 基于数据分布的跳表 |
2.3.1 cdf-list |
2.3.2 bound-list |
2.3.3 partition-list |
2.4 结合访问热度的跳表 |
2.4.1 hot-list |
2.4.2 mix-list |
2.4.3 总结对比 |
2.5 实验与分析 |
2.5.1 硬件环境 |
2.5.2 测试数据集 |
2.5.3 CDF优化实验结果 |
2.5.4 热度数据实验结果 |
2.6 结论及展望 |
第3章 内存数据库异步快照技术评估与分析 |
3.1 问题背景 |
3.1.1 研究动机 |
3.1.2 研究贡献 |
3.2 问题定义 |
3.2.1 面向内存数据的一致性快照 |
3.2.2 模型和框架 |
3.3 内存一致性快照算法 |
3.3.1 朴素快照(Naive Snapshot) |
3.3.2 写时复制和fork函数 |
3.3.3 之字形算法(Zigzag) |
3.3.4 乒乓算法(Ping-Pong) |
3.3.5 沙漏算法(Hourglass) |
3.3.6 捎带算法(Piggyback) |
3.3.7 算法对比 |
3.4 虚拟快照算法 |
3.4.1 CALC |
3.4.2 vHG and vPB |
3.5 实验评估 |
3.5.1 基础设施 |
3.5.2 物理一致性快照评估 |
3.5.3 虚拟快照评估 |
3.6 本章小结 |
3.7 未来工作 |
第4章 基于双快照的HTAP加速技术 |
4.1 问题背景 |
4.1.1 true HTAP |
4.1.2 looseform HTAP |
4.2 基于双重快照的架构 |
4.3 OLTP组件 |
4.3.1 存储引擎 |
4.3.2 事务并发控制 |
4.3.3 增量快照 |
4.4 OLAP组件 |
4.4.1 合并快照和状态机 |
4.4.2 类LSM查询层 |
4.4.3 运行示例 |
4.5 实验评估 |
4.5.1 实验负载 |
4.5.2 固定OLAP线程数 |
4.5.3 固定OLTP线程数 |
4.6 结论 |
第5章 不同计算设备对ELM性能的影响评估 |
5.1 问题背景 |
5.1.1 研究动机 |
5.1.2 研究贡献 |
5.2 瓶颈分析 |
5.3 不同设备上的实现 |
5.3.1 CPU实现 |
5.3.2 GPU实现 |
5.3.3 FPGA实现 |
5.4 实验评估 |
5.4.1 CPU性能测试 |
5.4.2 GPU性能评估 |
5.4.3 FPGA性能评估 |
5.4.4 总结 |
5.5 结论 |
第6章 结束语 |
6.1 本文工作总结 |
6.2 未来的研究方向 |
参考文献 |
致谢 |
攻读博士学位期间的研究成果 |
参加科研课题情况 |
个人简历 |
(7)面向海量数据的OLAP关键技术研究与应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 OLAP技术发展历史及国内外发展现状 |
1.3 论文主要工作与研究成果 |
1.4 论文篇章结构 |
第二章 项目关键技术 |
2.1 联机分析处理OLAP |
2.1.1 OLAP基本概念 |
2.1.2 数据仓库理论 |
2.1.3 多维数据库与多维数据模型理论 |
2.1.4 数据立方体理论 |
2.1.5 OLAP操作与实现功能 |
2.1.6 本文中对OLAP技术实现的定义 |
2.2 Apache Kylin的技术架构 |
2.2.1 技术框架介绍 |
2.2.2 Cube预计算理论研究 |
2.2.3 分布式计算框架 |
2.2.4 本文中对Apache Kylin的应用 |
2.3 Elasticsearch的技术架构 |
2.3.1 技术框架介绍 |
2.3.2 Elasticsearch的索引技术 |
2.3.3 Elasticsearch的搜索技术 |
2.3.4 Elasticsearch的排序技术 |
2.3.5 本文中对Elasticsearch的应用 |
2.4 本章小结 |
第三章 面向海量数据的分析查询系统的设计 |
3.1 系统的设计目标 |
3.2 系统的组成 |
3.3 系统的特点 |
3.4 本章小结 |
第四章 分析子系统的实现与优化 |
4.1 分析子系统的实现 |
4.1.1 分析子系统功能需求 |
4.1.2 分析子系统架构设计 |
4.1.3 优化模块介绍 |
4.2 基于编程模型的优化策略 |
4.2.1 Spark与MapReduce对比 |
4.2.2 优化策略与实现方法 |
4.3 基于Cube构建算法的优化策略 |
4.3.1 分层构建算法与快速构建算法 |
4.3.2 优化策略与实现方法 |
4.4 基于业务分析需求的Cube优化策略 |
4.4.1 设定维度组 |
4.4.2 设定特殊维度 |
4.4.3 优化策略与实现方法 |
4.5 分析子系统基础性实验 |
4.5.1 实验环境及数据 |
4.5.2 评估指标 |
4.5.3 分析子系统的性能对比实验 |
4.5.4 编程模型对分析子系统的性能影响 |
4.5.5 构建算法对分析子系统的性能影响 |
4.5.6 Cube优化对分析子系统的性能影响 |
4.6 本章小结 |
第五章 查询子系统的实现与优化 |
5.1 查询子系统的实现 |
5.1.1 查询子系统功能需求 |
5.1.2 查询子系统架构设计 |
5.1.3 优化模块介绍 |
5.2 基于分词系统的查询效果优化策略 |
5.2.1 基于HMM的中文分词系统 |
5.2.2 基于word2vec、LSTM的中文分词系统 |
5.2.3 优化策略与实现方法 |
5.3 查询子系统基础性实验 |
5.3.1 实验环境及数据 |
5.3.2 评估指标 |
5.3.3 查询子系统的性能对比实验 |
5.3.4 分词系统对查询子系统的性能影响 |
5.3.5 两种分词系统对比 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
攻读学位期间发表或已录用的学术论文 |
(8)数据离散化与数据立方体技术在高铁接触网数据分析中的应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 高速铁路接触网故障数据研究现状 |
1.2.2 OLAP数据立方体算法的研究现状 |
1.3 本文研究的主要内容及方法 |
第2章 基于ChiMerge算法的概念分层验证 |
2.1 数据编码 |
2.1.1 高速铁路接触网数据的构成 |
2.1.2 高速铁路接触网故障数据编码 |
2.2 数据离散化与概念分层 |
2.2.1 数据离散化 |
2.2.2 概念分层 |
2.2.3 高铁接触网数值型数据的概念分层 |
2.3 基于卡方的ChiMerge算法 |
2.4 ChiMerge算法的应用 |
2.4.1 高铁接触网数据 |
2.4.2 算法程序应用与优化 |
2.5 实验与结果分析 |
2.6 本章小节 |
第3章 OLAP与数据立方体技术 |
3.1 数据仓库 |
3.2 OLAP技术 |
3.2.1 OLAP的概念 |
3.2.2 OLAP的特质 |
3.2.3 OLAP多维数据存储模型 |
3.2.4 数据仓库与OLAP的关系 |
3.2.5 数据立方体与多维数据模型 |
3.3 OLAP查询及常用优化方法 |
3.3.1 OLAP查询 |
3.3.2 常用查询优化方法 |
3.4 数据立方体优化算法 |
3.4.1 BUC算法 |
3.4.2 Quotient算法 |
3.4.3 贪心算法 |
3.4.4 高铁接触网数值型数据特点 |
3.4.5 算法的比较 |
3.5 本章小结 |
第4章 数据立方体技术在高铁接触网数据分析中的应用及优化 |
4.1 算法选择 |
4.2 Dwarf算法 |
4.2.1 Dwarf算法基本概念 |
4.2.2 Dwarf的存储结构 |
4.2.3 Dwarf算法的构造过程 |
4.3 基于高铁接触网数据的Dwarf存储结构 |
4.4 Dwarf存在的缺陷 |
4.5 Dwarf算法优化及应用 |
4.5.1 优化策略 |
4.5.2 优化存储结构 |
4.5.3 优化后的立方体建立过程 |
4.6 实验与结果分析 |
4.7 本章小结 |
结论与展望 |
致谢 |
参考文献 |
攻读硕士学位期间发表的论文及科研成果 |
(10)数据仓库中联机分析系统的研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外医疗信息系统现状 |
1.3 课题研究内容 |
1.4 论文结构安排 |
第二章 课题相关技术基础 |
2.1 数据仓库与主数据管理 |
2.1.1 数据仓库建模方法 |
2.1.2 主数据管理 |
2.1.3 数据仓库与主数据的关系 |
2.2 类似数据的递归组织 |
2.2.1 数据组织的层级架构 |
2.2.2 数据组织的聚合架构 |
2.2.3 数据组织的对等关系 |
2.3 数据模型中的数据分类 |
2.3.1 数据分类的定义与标准 |
2.3.2 数据实体的分类模式 |
2.3.3 数据立方体分类模式 |
2.3.4 数据模式的时空分类 |
2.4 联系机制的数据模式 |
2.4.1 联系机制概念 |
2.4.2 递归数据结构的互转 |
2.4.3 地理数据的组织模型 |
2.5 数据仓库、OLAP与数据挖掘 |
2.5.1 OLAP技术简介 |
2.5.2 数据挖掘技术 |
2.5.3 数据仓库、OLAP与数据挖掘的关系 |
2.6 本章小结 |
第三章 数据仓库数据模型设计 |
3.1 数据模型设计 |
3.1.1 泛化数据模型 |
3.1.2 泛化数据静态模型 |
3.2 数据仓库的数据模型 |
3.2.1 星型数据模型案例分析 |
3.2.2 星型数据概念模型设计 |
3.2.3 泛化星型数据模型物理设计 |
3.3 单颗粒属性的主数据模型 |
3.3.1 “人”主数据管理模型 |
3.3.2 “物品”主数据管理模型 |
3.3.3 单颗粒的主数据泛化模型 |
3.4 组合颗粒的主数据管理模型 |
3.4.1 主数据“组织”的自关联数据模型 |
3.4.2 “组织-人”关系型主数据模型 |
3.4.3 “当事人”泛化数据模型设计 |
3.5 OLAP系统与功能设计 |
3.5.1 OLAP信息流设计 |
3.5.2 OLAP操作功能设计 |
3.5.2.1 切片 |
3.5.2.2 切块 |
3.5.2.3 旋转 |
3.6 本章小结 |
第四章 医院数据仓库与OLAP的实现 |
4.1 医院数据中心总体架构 |
4.2 数据仓库主题模型的设计 |
4.2.1 数据仓库主题模型相关设计 |
4.3 多维数据模型及OLAP实现 |
4.3.1 OLAP多维数据模型定义 |
4.3.2 OLAP多维数据模型实例 |
4.3.3 多维数据模型的OLAP操作 |
4.4 数据仓库与OLAP应用展现 |
4.4.1 主数据管理与OLAP案例 |
4.4.2 患者360 视图OLAP展示 |
4.4.3 数据仓库/数据集市OLAP展示 |
4.4.4 OLAP医疗质监数据展示 |
4.4.5 数据立方体等OLAP分析应用展现 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
四、OLAP数据的索引(论文参考文献)
- [1]GPU数据库核心技术综述[J]. 裴威,李战怀,潘巍. 软件学报, 2021(03)
- [2]大数据多维建模分析平台的研究与实现[D]. 田川. 北京邮电大学, 2021(01)
- [3]混合负载下数据库的异步增量视图维护优化[D]. 段惠超. 华东师范大学, 2020(02)
- [4]向量分组聚集计算技术研究[J]. 张宇,张延松. 计算机工程与应用, 2021(11)
- [5]分布式内存数据库异构计算框架及其算子的设计与实现[D]. 赖立. 电子科技大学, 2020(07)
- [6]内存数据管理与分析关键技术研究[D]. 李梁. 东北大学, 2020(01)
- [7]面向海量数据的OLAP关键技术研究与应用[D]. 郭淑曼. 北京邮电大学, 2019(09)
- [8]数据离散化与数据立方体技术在高铁接触网数据分析中的应用[D]. 晏博川. 西南交通大学, 2019(03)
- [9]一种基于向量索引的内存OLAP星型连接加速新技术[J]. 张延松,张宇,王珊. 计算机学报, 2019(08)
- [10]数据仓库中联机分析系统的研究与实现[D]. 彭先清. 电子科技大学, 2019(01)