一、基于模糊-粗糙集的文本分类方法(论文文献综述)
白盛兴[1](2021)在《流特征下在线分层特征选择方法研究》文中认为特征选择作为重要的数据预处理手段,有效地改善了模型的训练时间与学习精度。然而随着大数据时代数据产生与收集速度的急剧提升,传统特征选择算法面临着严峻挑战:(1)特征空间存在高维性的同时,通常伴随着未知性与演化性;(2)标记类别之间往往不是相互独立的,通常存在复杂的层次结构关系。这导致传统的特征选择算法表现不佳,甚至无法应对现实的应用环境。为此本文针对流特征下,充分挖掘和利用类别的层次结构进行特征选择的问题,进行流特征下的在线分层特征选择方法的研究。具体而言,主要研究内容如下:(1)流特征下基于邻域粗糙集的在线分层特征选择。针对传统流特征选择算法忽略了类别间层次结构关系问题,利用类别层次结构中节点之间存在的兄弟策略定义了一种面向层次化结构数据的邻域粗糙集模型。其次,基于邻域依赖度定义了特征在线重要性选择和在线冗余更新等策略,构建了一种在线流分层特征选择框架,并设计了相应的在线流分层特征选择算法。实验结果验证了算法的有效性。(2)流特征下基于核模糊粗糙集的在线分层特征选择。针对传统流特征选择算法忽略了类别间层次结构关系问题,且为了高效地度量样本数据间的模糊关系的同时,进一步优化在线运算的时间性能,基于类别层次结构中节点之间存在的兄弟策略定义了一种面向层次化结构数据的核模糊粗糙集模型。其次,基于(1)中的流特征选择框架,利用核模糊依赖度重新定义在线重要性选择和在线冗余更新阶段特征筛选策略,构建一种新的在线流分层特征选择算法。实验结果表明算法的性能有更进一步的提升。
车晓雅[2](2021)在《多标记学习中标记间相关性的获取及应用研究》文中研究表明随着人工智能的深入发展和科技的飞速进步,传统监督学习已经无法满足日益复杂的学习问题和数据形式。在现实生活场景中,常需要基于同一组输入变量训练并预测多个输出变量。为应对上述学习任务,时下备受关注的多标记分类学习应运而生。由于多标记数据含多个标记变量,输出空间的急剧膨胀导致了如下挑战:一方面,受限于存储空间和时间开销等因素,为每个可能的标记变量子集训练一个学习器显然是不现实的;另一方面,标记的激增造成获取被标记数据的成本增高,进而导致具有真实输出的多标记训练样本严重缺失。为提升多标记学习算法的预测精度、学习效率和泛化能力等,标记间相关性的度量与利用成为重要的突破口。但现存的关于标记间相关性获取的研究常于依赖外部知识,或通过统计输出空间中标记共现与互斥的频率以评估标记之间的关联程度。上述成果仅着眼于输出空间中各标记间的相互作用,并没能给出完善且富有说服力的理论框架以定性且定量地描述输出空间中的特征变量对标记及标记间相关性的影响。与此同时,也没能为如何运用标记间相关性提供较为有效的解决方案。为应对上述难点,本课题得到如下创新点以期为完善多标记学习的研究工作提供全新的思路和可行性方案:(1)针对具有离散型输入空间的多标记数据,提取关于标记的关键特征元素。通过比对不同标记的关键特征元素,计算标记关联矩阵以刻画输入空间中特征变量对标记及标记间相关性的影响。进而,输出空间中标记变量被划分为若干个互不相交的相关性标记子集,其内部标记之间具有较强相关性。在保证原输入空间对相关性标记子集辨识能力不变的前提下,设计面向多标记数据的特征选择算法CLSF。对具有强关联度的标记,算法CLSF可以删除对其冗余或干扰的特征,并提取强描述性特征,从而实现对输入空间和输出空间的双向降维。(2)一方面为避免在离散输入数据时丢失蕴含于特征变量中的辨识性信息,我们致力于完整保留数据中所含的全部描述性信息;另一方面,为降低基于关键特征元素的标记间相关性的计算复杂度,我们试图构造更为合理的度量以刻画特征对标记的二元重要性。因此,针对具有数值型输入的多标记数据,提取关于标记正、负局部类的关键特征。基于不同局部类对应关键特征的重合度,构造局部标记间相关性和全局标记关联矩阵。依据不同的相关性判断参数α,标记集被划分为若干个不重叠的关联标记子集。针对关联标记子集,设计了能够凸显标记局部特性的局部得分函数,以整合具有强相关性的局部类。最后,提出了多标记局部特征选择算法LRFS-α,对关联标记子集进行更具有针对性的局部特征选择,以强化多标记特征选择的学习和预测性能。(3)为避免在提取特征对标记二元重要性时造成描述性信息的损耗,我们旨在度量特征对于标记的关键程度;另外,为降低拟合强相关标记时造成标记间相关性信息的丢失,我们试图将标记关联矩阵直接用于多标记分类中。因此,为明确地量化输入空间中所含全部特征变量对输出空间中任意标记的鉴别能力,定义了关于标记的特征分布。结合不同的聚合策略,给出基于特征分布的标记间相关性的形式化概念与度量函数。进一步,构造基于特征分布的标记关联矩阵,从而较为全面和客观地反映输出空间中哪些标记之间具有强相关性,哪些标记之间关联性较弱甚至无关联。最后提出了基于标记关联矩阵的多标记分类器FL-MLC,以调整不同标记对应的预测系数之间的距离分布。(4)为解决被标记的多输出数据稀缺及数据异构,标记间相关性被推广应用于更为复杂且更具实际应用价值的场景中,即具有多输出回归任务的半监督学习。针对输出空间中的不同变量,首先获取辅助域(即源域)中的模糊规则,以尽量多的保持各输出的特性并抓取输出间的共性。在同构情境下,基于辅助数据与当前数据(即目标域)之间的相似性和差异性,算法FMOT通过改变并转换从源域中积累的模糊规则,以应对目标域中全新但相似的回归学习任务,从而解决被标记数据严重短缺的难题。在此基础之上,通过学习一个全新且公共的潜在特征空间,以对齐源域与目标域的输入空间,使算法FMOT能够适用于更为复杂的学习情境,即论域间异构。针对不同类型的带有多个输出的高维数据,本课题建立了较为完善的理论框架,以度量特征对标记的重要度。进而,基于重要度的标记关联矩阵被应用到多标记特征选择和分类中。最后,将标记间相关性推广运用至真实的应用场景中。相较于现有的多个多标记分类算法、多标记特征选择算法、多输出回归算法和迁移学习算法,上述所提算法在多个真实多标记数据和多输出数据中取得良好的实验效果。
高琪[3](2020)在《融合标记关系的多标记数据建模研究》文中提出现实中的数据往往具有多标记性。例如,一张图片可能同时包含“沙漠”、“骆驼”和“蓝天”等语义标注;一篇新闻报道可能同时包含“经济”、“战争”和“政治”等主题;一段话可能同时包含有“愉悦”和“悲伤”等情感。多标记数据的高维性,会增加分类、聚类等数据挖掘任务的困难性,如增加挖掘算法的时间复杂度以及模型的复杂度等。特征选择是一种保证对挖掘结果不变差的条件下,尽量使用较少的特征进行建模的数据预处理技术。目前的多标记数据特征选择研究还未对标记之间的关系进行充分利用,同时在特征选择后,直接使用已有的分类,未很好的利用特征选择的结果。为此,融合标记关系,开展多标记数据的特征选择以及针对特征选择结果的分类器的设计研究,主要研究内容和结论如下:(1)基于模糊不一致对的多标记属性约简本文将每个标记视做一个随机变量,利用KL散度度量标记关系,结合该标记关系,赋予每个标记以权重,结合标记权重定义模糊不一致样本对。用属性对模糊不一致样本对的区分能力定义属性重要度,提出了一种基于模糊不一致对的多标记属性约简算法。在对8个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。(2)融合标记关系的K近邻多标记分类器由于在多标记数据集上,不同标记可同时出现0值或者1值,为此,我们考虑标记之间可能存在线性关系,并利用关联规则进行挖掘,结合挖掘结果赋予标记权重,得到标记排序序列。结合标记权重与已有属性约简算法,得到约简后的特征子集,用特征子集定义样本距离的度量公式,结合标记排序序列与标记之间影响力,提出一种融合标记关系的K近邻多标记分类器。在对5个公开的多标记数据集当中,采用6种评价指标,证明了所提算法的有效性。总之,本文在多标记数据的特征选择以及针对选择结果分类器中,融合标记关系,较以往未融合标记关系进行多标记数据的特征选择效果与分类效果有一定的提升,为多标记数据的处理提供新的方法。
王帅[4](2020)在《基于不完全监督的多标签分类算法》文中认为随着多标签学习方法在多个领域的广泛应用,对多标签数据进行准确的分类,已成为研究多标签学习方法的重要课题之一。对于多标签数据来说,互联网的快速发展使得获取未标注的数据变得十分方便,但是想要获取已标注的多标签数据需要花费大量的时间和金钱。对此,本文充分利用少量已标注样本和大量未标记样本,提出了基于不完全监督的多标签分类算法。根据实现不完全监督学习的两种主要方式,本文将所提出的算法分为:基于主动学习的多标签分类算法和基于主动半监督学习的多标签分类算法。基于主动学习的多标签分类算法,首先根据多标签间的相互联系,利用陆地移动距离构建一个非对称的多标签间相关性矩阵;再将二元信源的熵与多标签间相关性矩阵相结合的方法计算样本标签对的信息含量,并以此作为主动学习的采样标准;最终将选取的样本交给人类专家进行标注,迭代地完成主动学习过程。此算法在考虑多标签间相互关系的同时也考虑了已标注数据和未标注数据所包含的信息,进一步提高了分类器对于多标签数据的分类性能。基于主动半监督学习的多标签分类算法,是在基于主动学习的多标签分类算法的基础上为了进一步提高算法的分类效率,而加入半监督学习自动的进行选择和标注未分类的多标签数据。算法中采用的半监督学习策略包括基于模糊粗糙集中有序加权平均算子的分类算法、基于支持向量机的半监督分类算法和基于半监督近邻的分类算法。此算法在一次迭代中同时进行主动学习的人工标注和半监督学习的自动标注,进一步提高了多标签分类器的分类效率。本文所提出的基于不完全监督的两种多标签分类算法与其他七种多标签分类算法在三个多标签数据集上针对四种评价指标进行了对比实验。实验结果表明,新提出的两种分类算法在分类性能上较其它传统多标签分类算法和较新提出的分类算法都有进一步的提升。
王颖瑶[5](2019)在《动态知识维护与标记分布特征选择研究》文中指出在经典机器学习问题中,多标记学习作为一个热门的研究内容对现实世界多义性对象的研究具有重要意义,然而在现有的多标记学习算法中都忽略了标签之间具有的不平衡性。很多时候,研究者们更关心实例对于不同标签的隶属度以及其分布情况,因此有研究将多标记数据中的逻辑标记替换成了概率分布的形式,这就得到了标记分布数据。不论是多标记数据还是标记分布数据,都面临着数据规模爆炸式增长的问题。时至今日,针对多标记数据的特征选择方法有很多种,而能够适用于标记分布数据的特征选择研究却并不多。实际上,特征选择能够帮助我们发现蕴含在标记分布数据中潜在的重要特征与关键信息,此外,它还能够减小标记分布学习的时间与复杂度。因此,一方面本文提出了两种适用于标记分布数据中条件概率形式标签值的特征选择算法,以简化复杂且冗余的标记分布数据,助力于标记分布学习。另一方面,本文针对系统决策属性值变化的复杂情况提出了相应的动态知识维护方法,以期望更好的维护数据中的关键信息与知识。本文紧密围绕动态知识维护以及标记分布数据的特征选择展开研究,主要研究工作与贡献如下:(1)本文提出了两种基于模糊粗糙集模型的标记分布特征选择算法。其中一个算法基于模糊互信息对特征与标记分布之间的相关性以及特征之间的冗余性进行了度量,最终采用启发式前向搜索策略来选择一定维度的特征子集。另一个算法则基于模糊截关系将标记分布数据的模糊相似关系转换成为经典等价关系,通过模糊广义决策生成赋值差异矩阵并计算最小差异属性集合,在进行特征选择后输出得到的特征子集。最终,理论分析证明了算法的合理性,在真实数据集上的实验结果进一步验证了算法的有效性。(2)本文提出了针对决策属性值变化的动态维护决策规则的增量式算法。基于决策属性值粗化以及细化过程对原始数据广义决策的影响,本文总结了赋值差异矩阵在决策属性值变化的复杂情况下对应的更新规则。最终,理论分析算法的计算复杂度证明了算法的合理性,与经典规则归纳方法在真实数据集上的对比实验结果验证了所提出的增量式算法的有效性。
赵红[6](2019)在《面向层次结构数据的特征选择方法》文中进行了进一步梳理特征选择可有效地加快学习过程、提高模型的泛化能力和学习精度,因此,特征选择已经成为了机器学习任务中一个重要的数据预处理过程。近年来,特征选择方法已取得了长足进展,其研究主要聚焦于扁平化数据,即将所有的数据等同看待,不考虑数据间的结构关系。但是,大数据时代不仅带来了数据样本数量、特征维度及类别种类的快速增长,而且数据间也往往蕴含着丰富的层次结构关系。如何充分挖掘和利用大数据的这些层次结构信息来进行特征选择是机器学习和数据挖掘的重要挑战。因此,本文聚焦于面向层次结构数据的特征选择方法研究,包括以下三个方面的研究内容:(1)面向特征层次结构的自适应邻域粗糙集特征选择:针对基于邻域粗糙集的特征选择方法中邻域大小固定不变的问题,通过利用正态分布3σ统计规则的多层次置信度所描述的数据精度自适应地定义邻域大小,提出了基于特征多层次置信度的自适应邻域粗糙集模型,同时通过权衡测试代价和误分类代价设计了一种面向特征层次结构的自适应邻域粗糙集特征选择快速回溯算法。(2)面向类别层次结构的模糊粗糙集特征选择:针对基于模糊粗糙集的特征选择方法忽略类别间层次结构关系的问题,提出了面向类别层次结构的模糊粗糙集计算模型,用于计算具有类别层次结构数据的上下近似。模型分别考虑了类别层次结构的包容关系及兄弟关系,并设计了相应的特征选择方法,有效地减少了经典模糊粗糙集异类样本的搜索范围。(3)面向分类任务层次结构的递归正则化特征选择:针对目前多数特征选择方法忽略分类任务的层次结构,选择一个特征子集来区分所有类别的缺陷,通过引入分治法将层次分类任务根据层次关系分而治之,提出了面向分类任务层次结构的递归正则化特征选择方法。通过引入分类任务间的父子关系、兄弟关系、家庭关系来优化分类任务层次中各子任务所选特征,进而完成特征选择。所提出的三种方法验证了挖掘数据层次结构是提高大数据分类任务中特征选择效果的有效手段。
程麟焰[7](2019)在《基于模糊粗糙集和超网络的分类方法研究》文中研究说明超网络是一种基于规则的分类模型,能够有效地处理各种分类问题,已被广泛地应用于模式分类、机器学习、生物信息学等领域。在实际应用中,传统超网络模型主要存在以下两个问题:(1)模型只能处理离散型数据;(2)超边初始化过程中存在着较大的随机性。模糊粗糙集能够有效地处理具有复杂属性的数据,因此,本文在传统超网络的基础上,结合模糊粗糙集理论提出了一种模糊超网络模型。主要的工作内容如下:(1)结合模糊粗糙集理论与超网络的相关知识,提出了一种基于模糊超网络的分类方法。首先,根据最优模糊相似度阈值λ计算每个训练样本的λ-等价类样本集合,并根据该集合的类别分布将训练集中的样本划分为边界域样本、正域样本和负域样本,不同区域的样本按照不同的规则生成超边;其次,在超边替代过程中,模糊超网络会根据超边对训练样本的分类效果将超边集划分成三个区域:正域、负域、边界域,不同区域设置不同的替换规则;最后,在分类时,模糊超网络根据待分类样本的λ-等价类超边的投票结果来判断样本的类别。为了验证算法的性能,本文在15个UCI数据集上进行了实验,并采用正确率、Precision、Recall等作为评价指标,证明了模糊超网络具有较高适用性,在不同的数据集上都具有较好的分类效果。(2)针对串行算法在处理大规模数据集时出现的运行时间长、执行效率低等问题,本文结合Spark分布式并行计算框架,实现了并行化的模糊超网络分类算法。首先,从HDFS中读取数据创建训练集RDD和测试集RDD,并对训练集RDD进行转换得到超边集RDD;然后,采用并行的超边替代算法进行演化学习;最后,输出模糊超网络模型对测试集RDD中的数据进行分类。实验结果表明,并行算法既保持了原串行算法的有效性,又大幅度地降低了运行所需的时间。
李钰雯[8](2019)在《基于模糊粗糙集模型的特征选择方法研究》文中研究说明在当前大数据时代,数据规模的海量性、表示的高维性、结构的混杂性和类别标记的不唯一性,使得快速、及时、准确的数据挖掘任务面临着重大挑战。因此,如何有效地针对这些数据进行特征选择已成为机器学习领域的热点课题之一。特征选择的目的是在确保学习性能的前提下,从原始特征集中删除大量无关和冗余的特征,找到一组含原始特征空间的全部或大部分分类信息的特征子集来减轻“维数灾难”的影响,提高学习性能。模糊粗糙集理论不仅是一种客观有效的处理不完备、不确定性信息的数学工具,也是一种实现特征选择的强大而有效的计算范式。因此,本文以模糊粗糙集的特征选择为研究基础,针对单标记数据和多标记数据,分别构造稳健模糊粗糙集模型和多标记模糊粗糙集模型,解决现有模糊粗糙集关于噪声信息敏感的问题,旨在拓展模糊粗糙集理论研究,使其具有更加广泛的应用范围。本文主要研究成果和创新点如下:1、针对经典模糊粗糙集模型在进行特征选择时,对噪声信息极其敏感的问题,本文通过定义样本的异类率来直接识别噪声样本,在此基础上提出一种有效的鲁棒模糊粗糙集模型,称为异类率模糊粗糙集(DCratio FRS)模型。该模型不仅可以减小噪声样本对模型上下近似计算的影响,而且可以通过忽略噪声样本来实现模型的鲁棒性,进而讨论并证明DCratioFRS模型的相关性质。利用基于DCratio FRS模型的样本对选择算法(SPS)来进行特征选择。2、现有的模糊粗糙集模型均认为决策属性将样本集划分为多个“清晰”的决策类,这种数据处理方法,会使得模型在进行特征选择时对噪声信息敏感。针对这一问题,本文提出了一种基于代表性样本的鲁棒模糊粗糙集模型(RS-FRS)。首先通过定义样本的模糊隶属度来体现其模糊性和不确定性,并通过构造RS-FRS模型来减小噪声样本的影响。RS-FRS模型不需要预先为模型设定参数,可以有效降低模型的复杂度和人为干预。在此基础上,研究了 RS-FRS模型的相关性质,并利用基于RS-FRS的样本对选择算法(SPS)来进行特征选择。3、针对现有的多标记特征选择算法忽略特征空间和标记空间之间内在关联的问题,本文将模糊粗糙集与多核学习相结合,通过分别提取特征空间和标记空间的核信息,为多标记特征选择构建融合的核空间,进而构造多标记核模糊粗糙集模型,称为RMFRS,并研究了该模型的相关性质。基于该模型,本文设计了多标记核模糊粗糙集模型的特征选择算法,通过评估特征的重要性实现特征选择。4、针对现有的多标记特征选择算法忽略标记相关性的问题,本文提出了一种考虑全局标记相关性和局部标记相关性的模糊粗糙多标记特征选择方法(MFFLC)来挖掘多标记数据中各个标记之间的相关性。该方法获取了全局和局部标记相关性,并利用此标记信息分别定义了标记的固有权重与交互权重,构造了基于标记空间的权重矩阵。在此基础上,建立了考虑标记相关性的多标记模糊粗糙模型,设计了模糊依赖度函数和前向贪心多标记特征选择算法来识别和选择最相关的特征。本文在公开的单标记数据集和多标记数据集上对所提出的四个研究内容进行了测试和分析。实验结果表明,本文所提出的稳健模糊粗糙集模型能有效地从单标记数据中选择出最相关特征,并对噪声信息具有一定的鲁棒性;本文提出的多标记模糊粗糙集模型对处理多标记数据具有很好的适用性,且能有效地提高多标记特征选择的性能。本文解决了现有模糊粗糙集关于噪声信息敏感的问题,填补了模糊粗糙集与多标记特征选择相融合的空白,拓展了模糊粗糙集理论和应用的研究。
邵瑞[9](2018)在《基于粗糙集的高维数据高效属性约简研究与应用》文中指出信息爆炸时代,数据挖掘过程中常常会因为处理大规模数据而遇到一系列挑战。而数据量大的原因不外乎样本基数大或者数据的属性维数过高两个原因,样本是非常宝贵的数据资源,不能轻易丢弃,所以人们往往在不严重影响挖掘结果的前提下,会考虑对属性进行选择与降维,这也是数据挖掘前必要的数据预处理步骤。基于粗糙集的属性约简是一种常用的降维手段,它能高效利用数据自身信息来降维,降维过程不需要人的经验知识,如不用设定阈值,而阈值的设定往往因人而异,这会导致数据挖掘的结果大相径庭。针对大多现有的约简算法在面对高维数据时存在计算复杂度高的问题,本文充分研究了高维数据的特点,从改进计算方法和约简流程两个方面展开研究。具体研究内容包括:1.针对基于正域的约简算法,分别从提高正域计算速度与改变约简流程两个角度对现有算法进行了优化。首先利用多进程技术,提出一种并行计算正域的方案,加快对每个属性可约性的判断。其次根据二分搜索思想,提出了一种二分约简算法,该算法可以先快速得到一个近似约简,然后结合已有的算法可以得到最终的约简结果。最后将粒计算思想引入到对约简流程的修改中,给出了多粒度属性树的定义,基于多粒度属性树设计了前序遍历约简算法。实验结果表明该算法在面对高维数据时能更高效地得到约简结果。2.为了验证本文提出方法的实用性,将前序遍历约简算法与实际结合,开发了新闻分类系统。新闻分类系统包括新闻采集、数据预处理、新闻分类、新闻展示四个流程。其中,因为数据维数高,数据预处理过程缓慢,并且每篇新闻分类的时间较长。因此,本文利用前序遍历约简算法对高维的新闻决策表进行降维,有效减少了后续数据处理的计算代价,提高了系统的工作效率。
王楚[10](2018)在《基于模糊-粗糙集理论的社会媒体文本处理技术研究》文中指出近年来,随着众多社会媒体平台的诞生和发展,其作为一种在线用户交互的工具,正在越来越深刻地改变着人们的工作、生活和交流方式,同时也生成了海量的用户信息。广大用户在社会媒体中所生成的大量文本文件,已经成为大数据研究领域最具代表性的数据资源之一,对这些用户生成的文本数据进行研究有着广泛的学术和商业价值。社会媒体文本研究作为一种对社会媒体中大规模数据在不同应用上进行分析、处理、归纳和推理的信息处理技术,近些年来越来越吸引学术界和商业界的广泛关注,并已成功地应用在互联网的诸多领域。传统的社会媒体文本分析研究工作主要专注于从数据本身入手进行建模,往往忽视人类的语言逻辑,从而影响了文本分析的质量。本文针对目前社会媒体文本分析存在的问题,利用模糊理论和粗糙集理论在不确定性分析领域所具有的优势,在多标签情感强度分析、多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐这四个方面进行研究,提出了新的算法,并构建了相应的模型。具体来说,本文的主要研究工作和创新点如下:(1)目前社会媒体文本情感分析中主要针对情感倾向分析或者情感单标签预测,而较少考虑多标签细粒度的情感、特别是未考虑情感强度。针对此研究现状,本文提出一种基于模糊-粗糙集理论的多标签情感强度分析方法。首先应用模糊关系方程来对训练集文本中出现的情感词进行建模,继而得到的情感词强度范围,然后将其代入到测试集文本中,利用改进的模糊粗糙集理论对这些文本进行建模,最终得到测试集文本的情感标签和情感强度。在中文博客数据集上的实验结果表明,本文所阐述的多标签情感强度分析模型在句子、段落和篇章这三个文本层级均具有优势和实用性,该模型可以更好地对多标签情感属性和强度作出预测。(2)目前流行的情感检索模型绝大部分基于关键词或者情感标签匹配,没有考虑到文本中所含有的多标签细粒度情感。针对此研究现状,提出了一种基于模糊关系度量的多标签细粒度情感检索方法。首先应用模糊关系方程来对情感词的情感标签及值域范围进行运算,然后基于模糊格贴近度将所得到的情感标签和强度进行建模,在此基础上计算文本之间情感标签及强度相似性距离,得到检索结果。在中文博客数据集上的实验结果表明,本文提出的方法在准确度和实用性的综合考量下具有明显的优势。(3)目前基于TransE改进的众多翻译模型为了达到更好的分类结果,频繁地引入其他复杂数学模型,从而导致其算法复杂度越来越高,所需要的训练集越来越大,训练时间越来越长。针对此研究现状,提出了一种基于模糊集理论的社会媒体知识图谱构建方法。应用模糊关系矩阵运算的方法对现有的基于翻译的知识图谱模型进行改进,将模糊矩阵方程运算与深度学习的模型互相融合,构建了基于模糊理论的TransF模型。在WordNet和FreeBase中选取的数据集上的实验结果表明,本文所构建的基于模糊理论的知识图谱模型不但减少了所需参数并简化了训练过程,缩短了训练时间,而且在数据集规模不大的情况下表现出更大的优势。(4)现有的学术论文资源推荐的系统应用中大多仅仅根据关键词匹配,在同一概念对应不同关键词的情况下,很难推荐出相关论文。针对此现状,提出了一种基于粗糙-模糊集理论的学术论文资源推荐方法。首先利用TF-IDF算法提取学术文献中的关键词,再使用WordNet计算待推荐论文库中存在的关键词与输入查询论文关键词之间的相似性,最后利用粗糙模糊集模型针对这些关键词相似性建模,从而计算出两篇文档的相似性,最终依据相似性的排序向用户推荐感兴趣的论文。在UCI数据集上的实验结果表明,构建的推荐模型在准确性、时间性能以及综合实用性方面都有着更佳的表现。综上所述,本文基于模糊理论和粗糙集理论在处理不确定性问题和人类语言逻辑方面所具有的优势,研究社会媒体文本分析和处理的方法和技术。在多标签情感强度分析、基于多标签细粒度的情感检索、知识图谱的构建以及基于题目和摘要的学术论文资源推荐四个方面取得了研究成果。实验结果表明模糊集理论和粗糙集理论在社会媒体分析的研究中可以发挥很大的作用。本文的研究成果将为更好地建立和实现社会媒体文本处理的相关工作提供理论基础和技术支持。
二、基于模糊-粗糙集的文本分类方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于模糊-粗糙集的文本分类方法(论文提纲范文)
(1)流特征下在线分层特征选择方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 在线流特征选择方法研究现状 |
1.2.2 分层特征选择方法研究现状 |
1.3 主要研究内容 |
1.3.1 课题来源 |
1.3.2 主要研究内容 |
1.4 论文组织结构 |
第2章 相关基础 |
2.1 分层分类及异类定义策略 |
2.2 分层分类评价方法 |
2.3 粗糙集理论 |
2.3.1 邻域粗糙集 |
2.3.2 核模糊粗糙集 |
2.4 本章小结 |
第3章 流特征下基于邻域粗糙集的在线分层特征选择 |
3.1 基于分层分类的邻域粗糙集 |
3.2 基于邻域粗糙集的在线流分层特征选择算法模型 |
3.2.1 在线重要性选择 |
3.2.2 在线冗余更新 |
3.2.3 基于邻域粗糙集的在线流分层特征选择算法 |
3.3 实验结果 |
3.3.1 实验数据集与环境设置 |
3.3.2 参数δ分析 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第4章 流特征下基于核模糊粗糙集的在线分层特征选择 |
4.1 基于分层分类的核模糊粗糙集 |
4.2 基于核模糊粗糙集的在线流分层特征选择算法模型 |
4.2.1 在线重要性选择 |
4.2.2 在线冗余更新 |
4.2.3 基于核模糊粗糙集的在线流分层特征选择算法 |
4.3 实验结果 |
4.3.1 实验数据集与环境设置 |
4.3.2 参数δ分析 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 工作总结 |
5.2 研究展望 |
参考文献 |
致谢 |
攻读硕士学位期间的学术活动及成果情况 |
(2)多标记学习中标记间相关性的获取及应用研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究意义 |
1.2 多标记学习的研究现状 |
1.2.1 标记间相关性的研究 |
1.2.2 多标记数据中的特征选择 |
1.3 多任务学习及相关领域的研究现状 |
1.3.1 多任务学习 |
1.3.2 多输出回归学习 |
1.3.3 迁移学习的研究现状 |
1.4 研究动机与创新点 |
1.5 本文的内容安排 |
第2章 多标记学习中基于关键特征元素的标记间相关性的获取与应用 |
2.1 引言 |
2.2 预备知识 |
2.2.1 多标记学习的基本概念 |
2.2.2 多标记学习的评价标准 |
2.3 基于关键特征元素的标记间相关性 |
2.3.1 关于标记的关键特征元素 |
2.3.2 标记间相关性的获取 |
2.4 针对强相关性标记的特征选择 |
2.5 实验结果 |
2.5.1 数据集及试验设置 |
2.5.2 CLSF-MK算法性能分析 |
2.6 本章小结 |
第3章 多标记特征选择中基于关键特征的局部标记间相关性的获取与应用 |
3.1 引言 |
3.2 基础知识 |
3.2.1 模糊粗糙集理论 |
3.2.2 局部属性约简 |
3.3 基于关键特征的标记间相关性 |
3.3.1 关于标记的关键特征 |
3.3.2 标记关联矩阵的获取 |
3.4 标记间相关性在多标记特征选择中的应用 |
3.5 实验结果 |
3.5.1 数据集及实验设置 |
3.5.2 LRSF-α算法性能分析 |
3.5.3 LRMK-α算法性能分析 |
3.6 本章小结 |
第4章 多标记分类中基于特征分布的标记间相关性的获取与应用 |
4.1 引言 |
4.2 预备知识 |
4.2.1 核方法 |
4.2.2 模糊积分 |
4.3 关于标记的特征分布 |
4.3.1 特征分布的定义及度量 |
4.3.2 基于核的权重函数的优化 |
4.4 基于特征分布的标记间相关性 |
4.4.1 标记间相关性的获取 |
4.4.2 标记间相关性在多标记分类中的应用 |
4.5 实验结果 |
4.5.1 数据集及试验设置 |
4.5.2 FL-MLC算法性能分析 |
4.6 本章小结 |
第5章 多输出回归迁移学习中输出间相关性的获取与应用 |
5.1 引言 |
5.2 针对同构论域的多输出回归迁移学习 |
5.2.1 多输出回归学习 |
5.2.2 迁移学习 |
5.2.3 Takagi-Sugeno模糊系统 |
5.3 针对同构论域的多输出回归迁移学习 |
5.3.1 问题设置 |
5.3.2 针对源域的多输出模型 |
5.3.3 多输出模型的优化 |
5.3.4 针对目标域的多输出模型 |
5.4 针对异构论域的多输出回归迁移学习 |
5.4.1 异构论域的对齐 |
5.4.2 适用于异构论域的目标模型 |
5.5 针对同构论域的实验结果 |
5.5.1 数据集及实验设置 |
5.5.2 多目标回归结果 |
5.5.3 参数分析 |
5.6 针对异构论域的实验结果 |
5.6.1 数据集及试验设置 |
5.6.2 多目标回归结果 |
5.6.3 参数分析 |
5.7 本章小结 |
第6章 结论与展望 |
参考文献 |
攻读博士学位期间发表的论文 |
攻读博士学位期间参加的基金项目 |
致谢 |
作者简介 |
(3)融合标记关系的多标记数据建模研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景、目的及意义 |
1.2 国内外研究现状 |
1.2.1 多标记数据的特征选择 |
1.2.2 多标记数据的分类算法 |
1.3 主要研究内容 |
1.4 论文组织结构 |
第二章 相关理论基础 |
2.1 基本概念 |
2.2 粗糙集 |
2.2.1 上近似与下近似 |
2.2.2 基于正域的属性约简 |
2.2.3 基于可辨识矩阵的属性约简 |
2.3 模糊粗糙集 |
2.4 多标记分类评价指标 |
2.5 本章小结 |
第三章 基于模糊不一致对的多标记属性约简 |
3.1 基于最大区分对的单标记属性约简 |
3.2 基于模糊不一致对的属性约简 |
3.2.1 基于模糊不一致对的多标记模属性约简模型 |
3.2.2 基于模糊不一致对的多标记属性约简算法 |
3.3 实验 |
3.3.1 实验设置 |
3.3.2 数据集 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第四章 融合标记关系的K近邻多标记分类器 |
4.1 ML-KNN算法 |
4.2 融合标记关系的K近邻多标记分类器 |
4.2.1 融合标记关系的K近邻多标记分类器模型 |
4.2.2 融合标记关系的K近邻多标记分类算法 |
4.3 实验 |
4.3.1 实验设置 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第五章 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
个人简况及联系方式 |
(4)基于不完全监督的多标签分类算法(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 监督学习的多标签分类算法 |
1.2.2 半监督学习的多标签分类算法 |
1.3 主要研究内容 |
1.4 论文的组织结构 |
2 理论基础 |
2.1 不完全监督学习 |
2.1.1 主动学习 |
2.1.2 半监督学习 |
2.2 模糊粗糙集理论 |
2.2.1 模糊集 |
2.2.2 粗糙集 |
2.2.3 模糊粗糙集 |
2.3 陆地移动距离 |
2.4 小结 |
3 基于主动学习的多标签分类算法 |
3.1 多标签间的相关性 |
3.2 主动学习的采样过程 |
3.2.1 多标签主动学习研究方式 |
3.2.2 二元信源的熵 |
3.2.3 样本标签对的信息量 |
3.3 ALMLC算法 |
3.4 小结 |
4 基于主动半监督学习的多标签分类算法 |
4.1 半监督支持向量机 |
4.1.1 支持向量机 |
4.1.2 S3VM |
4.2 近邻算法 |
4.2.1 K近邻算法 |
4.2.2 半监督K近邻算法 |
4.3 有序加权平均算子 |
4.3.1 OWA理论 |
4.3.2 基于OWA的上近似与下近似 |
4.4 ASLMLC算法 |
4.5 小结 |
5 基于不完全监督学习的多标签分类算法实验分析 |
5.1 实验设置 |
5.1.1 实验数据集 |
5.1.2 实验评价指标 |
5.1.3 实验对比方法 |
5.2 基于主动学习的多标签分类算法的实验分析 |
5.2.1 算法参数影响分析 |
5.2.2 对比算法的性能分析 |
5.3 基于主动半监督学习的多标签分类算法的实验分析 |
5.3.1 算法参数影响分析 |
5.3.2 与ALMLC算法对比结果分析 |
5.3.3 与其他对比算法的性能分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
作者简历及攻读硕士学位期间的科研成果 |
(5)动态知识维护与标记分布特征选择研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 多标记学习与特征选择 |
1.2.2 标记分布学习 |
1.2.3 模糊粗糙集与信息论 |
1.3 研究内容和论文结构 |
1.3.1 研究内容 |
1.3.2 论文结构 |
第2章 相关工作概述及基础知识 |
2.1 相关工作 |
2.1.1 基于标签颗粒的多标记特征选择 |
2.1.2 基于粗糙集的标记分布特征选择 |
2.1.3 最小差异属性集合 |
2.2 基础知识 |
2.2.1 粗糙集基本概念 |
2.2.2 模糊相似关系与截关系 |
2.2.3 信息熵理论 |
2.3 本章小结 |
第3章 基于模糊互信息的标记分布特征选择算法 |
3.1 引言 |
3.2 标记分布数据的信息度量方法 |
3.3 最大相关最小冗余原则 |
3.3.1 最大相关约束 |
3.3.2 最小冗余约束 |
3.3.3 特征选择算法 |
3.4 实验及分析 |
3.4.1 数据描述与实验设置 |
3.4.2 评价指标 |
3.4.3 结果与分析 |
3.5 本章小结 |
第4章 基于模糊粗糙集截关系的标记分布特征选择算法 |
4.1 引言 |
4.2 模糊广义决策与模糊赋值差异矩阵 |
4.3 特征选择算法 |
4.4 实验及分析 |
4.4.1 数据描述与实验设置 |
4.4.2 实验结果与分析 |
4.5 算法对比分析 |
4.6 本章小结 |
第5章 针对决策属性变化的知识规则动态维护 |
5.1 引言 |
5.2 决策系统标签属性值变化 |
5.3 知识规则更新的增量式方法 |
5.3.1 针对决策属性粗化的增量式更新知识规则方法 |
5.3.2 针对决策属性细化的增量式更新知识规则方法 |
5.4 计算复杂度分析 |
5.4.1 IMDAVC算法的计算复杂度 |
5.4.2 IMDAVR算法的计算复杂度 |
5.5 实验及分析 |
5.5.1 数据描述与实验设置 |
5.5.2 结果与分析 |
5.6 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(6)面向层次结构数据的特征选择方法(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 基于粒计算的特征选择方法研究现状 |
1.2.2 面向类别层次结构数据的特征选择方法研究现状 |
1.3 主要研究内容 |
1.4 组织结构 |
第二章 相关知识 |
2.1 分层分类任务 |
2.2 分层分类任务的评价方法 |
2.2.1 树诱导误差评价指标 |
2.2.2 基于集合的评价指标 |
2.2.3 基于最近共同祖先评价指标 |
2.3 基于粒计算的特征选择 |
2.3.1 基于粗糙集的特征选择 |
2.3.2 基于邻域粗糙集的特征选择 |
2.3.3 基于模糊粗糙集的特征选择 |
2.4 基于正则化的特征选择 |
第三章 面向特征层次结构的自适应邻域粗糙集特征选择 |
3.1 基于多层次置信度的自适应邻域粒度模型 |
3.1.1 自适应邻域粒度模型 |
3.1.2 基于多层次置信度的自适应邻域粗糙集模型 |
3.2 基于多层次置信度的自适应邻域粗糙集特征选择算法 |
3.2.1 CSFSAN问题 |
3.2.2 CSDSAN的单调性 |
3.2.3 针对CSFSAN的利用3σ原则的快速回溯算法 |
3.3 实验分析 |
3.3.1 自适应邻域的有效性 |
3.3.2 固定邻域与自适应邻域比较 |
3.4 本章小结 |
第四章 面向类别层次结构的模糊粗糙集特征选择 |
4.1 基于分层分类的模糊粗糙集 |
4.1.1 分层分类任务中的异类定义策略 |
4.1.2 考虑包容关系的模糊粗糙集模型 |
4.1.3 考虑兄弟关系的模糊粗糙集模型 |
4.1.4 不同关系下的分层分类模糊粗糙集模型比较 |
4.2 基于分层分类模糊粗糙集的特征选择算法 |
4.3 实验分析 |
4.3.1 数据集 |
4.3.2 分类精度 |
4.3.3 层次化评价 |
4.3.4 效率比较 |
4.4 本章小结 |
第五章 面向分类任务层次结构的递归正则化特征选择 |
5.1 面向分层分类的递归正则化特征选择模型 |
5.1.1 根据分类任务层次结构自下而上的样本分组 |
5.1.2 面向分类任务层次结构的递归正则化的特征选择框架 |
5.2 考虑不同关系的层次递归正则化的特征选择 |
5.2.1 考虑父子关系的分层递归正则化特征选择 |
5.2.2 考虑兄弟关系的分层递归正则化特征选择 |
5.2.3 考虑家庭关系的分层递归正则化特征选择 |
5.3 收敛性分析 |
5.4 各子分类任务实验分析 |
5.4.1 数据集 |
5.4.2 实验设置 |
5.4.3 五种算法的效率比较 |
5.4.4 在蛋白质数据集上的实验分析 |
5.4.5 在图像数据集上的实验分析 |
5.5 分层分类实验分析 |
5.5.1 实验设置 |
5.5.2 与Baseline方法比较 |
5.5.3 五种算法的效果比较 |
5.5.4 正则项的有效性比较 |
5.5.5 五种算法的效率比较 |
5.5.6 参数敏感性分析 |
5.5.7 Hi RRfam-FS收敛性分析 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(7)基于模糊粗糙集和超网络的分类方法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究目的和意义 |
1.2 超网络理论与研究现状 |
1.3 模糊粗糙集理论介绍 |
1.4 论文主要工作 |
1.5 论文组织结构 |
第2章 超网络分类器原理 |
2.1 超网络模型 |
2.2 超网络分类器 |
2.3 超网络演化学习 |
2.3.1 基于梯度下降的演化学习方法 |
2.3.2 基于超边替代的演化学习方法 |
2.4 本章小结 |
第3章 基于模糊超网络的分类方法 |
3.1 模糊等价类 |
3.2 模糊超网络模型 |
3.3 模糊超网络分类算法 |
3.3.1 算法思路 |
3.3.2 算法描述 |
3.4 实验设计与分析 |
3.4.1 数据集及评价指标 |
3.4.2 实验方法 |
3.4.3 实验结果与分析 |
3.5 本章小结 |
第4章 基于模糊超网络的分类算法的并行化 |
4.1 Spark介绍 |
4.1.1 Spark生态系统 |
4.1.2 弹性分布式数据集RDD |
4.1.3 Spark on YARN模式 |
4.2 模糊超网络分类算法的优化 |
4.3 基于模糊超网络的并行化分类算法 |
4.3.1 数据预处理 |
4.3.2 超网络初始化 |
4.3.3 训练集分类 |
4.3.4 超边替代 |
4.4 实验结果与分析 |
4.4.1 实验数据 |
4.4.2 最优模糊相似度阈值计算方法对比分析 |
4.4.3 并行算法的有效性 |
4.4.4 并行算法的高效性 |
4.5 本章小结 |
第5章 总结及未来工作 |
5.1 主要工作与创新点 |
5.2 后续研究工作 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(8)基于模糊粗糙集模型的特征选择方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景和研究意义 |
1.2 国内外研究现状 |
1.2.1 粗糙集理论研究现状 |
1.2.2 模糊粗糙集理论研究现状 |
1.2.3 特征选择研究现状 |
1.2.4 多标记学习研究现状 |
1.2.5 多标记特征选择研究现状 |
1.3 论文研究目标 |
1.4 论文内容安排 |
第二章 预备知识 |
2.1 粗糙集理论 |
2.1.1 粗糙集理论的基本概念 |
2.1.2 粗糙集模型 |
2.2 模糊粗糙集理论 |
2.2.1 模糊粗糙集理论的基本概念 |
2.2.2 模糊粗糙集理论模型 |
2.2.3 基于模糊粗糙集依赖度的特征选择 |
2.2.4 基于模糊粗糙集可辨识矩阵的特征选择 |
2.3 本章小节 |
第三章 基于异类率的稳健模糊粗糙集特征选择 |
3.1 引言 |
3.2 基于异类率模糊粗糙集模型 |
3.2.1 异类率 |
3.2.2 基于异类率模糊粗糙集 |
3.2.3 基于异类率模糊粗糙集的相关性质 |
3.3 基于异类率模糊粗糙集的特征选择 |
3.4 实验与分析 |
3.4.1 数据集 |
3.4.2 实验设置 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 基于代表性样本的稳健模糊粗糙集特征选择 |
4.1 引言 |
4.2 基于代表性样本模糊粗糙集模型 |
4.2.1 代表性样本 |
4.2.2 基于代表性样本模糊粗糙集 |
4.2.3 基于代表性样本模糊粗糙集的相关性质 |
4.3 基于代表性样本模糊粗糙集的特征选择 |
4.4 实验与分析 |
4.4.1 数据集 |
4.4.2 实验设置 |
4.4.3 实验结果 |
4.5 本章小结 |
第五章 基于核模糊粗糙集的多标记特征选择 |
5.1 引言 |
5.2 多标记学习中的核方法 |
5.2.1 核函数 |
5.2.2 空间内部的核融合 |
5.2.3 特征空间和标记空间的核融合 |
5.3 RMFRS |
5.4 实验与分析 |
5.4.1 数据集 |
5.4.2 实验设置 |
5.4.3 实验结果 |
5.5 本章小结 |
第六章 考虑标记相关性的模糊粗糙多标记特征选择 |
6.1 引言 |
6.2 问题描述 |
6.3 标记相关性 |
6.4 整合标记权重信息 |
6.5 考虑标记相关性的多标记FRS模型 |
6.6 MFFLC |
6.7 实验与分析 |
6.7.1 数据集 |
6.7.2 对比算法 |
6.7.3 评价指标 |
6.7.4 实验结果 |
6.8 本章小结 |
第七章 总结与展望 |
7.1 本文总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读博士学位期间取得的学术成果 |
(9)基于粗糙集的高维数据高效属性约简研究与应用(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 本文的主要工作 |
1.4 本文组织结构 |
第2章 粗糙集理论基础 |
2.1 粗糙集理论概述 |
2.2 粗糙集的基本概念 |
2.3 几种典型的属性约简方法 |
2.3.1 基于正域的属性约简 |
2.3.2 基于可辨识矩阵的属性约简 |
2.3.3 加权模糊粗糙约简 |
2.4 本章小结 |
第3章 面向高维数据的属性约简算法改进 |
3.1 基于哈希表的并行正域计算方法 |
3.1.1 基于哈希表的快速正域计算方法 |
3.1.2 基于哈希表的并行化正域计算方法 |
3.1.3 实验分析 |
3.2 基于二分策略的约简算法 |
3.2.1 二分近似约简算法 |
3.2.2 二分约简算法 |
3.2.3 实验分析 |
3.3 基于多粒度属性树的前序遍历约简算法 |
3.3.1 前序遍历的属性约简算法 |
3.3.2 前序遍历的属性约简算法分折 |
3.3.3 实验分析 |
3.4 三种改进算法的优缺点 |
3.5 本章小结 |
第4章 属性约简在新闻分类系统中的应用 |
4.1 新闻分类系统功能图 |
4.2 基于属性约简的新闻语料数据预处理 |
4.2.1 新闻语料分词 |
4.2.2 新闻的向量化 |
4.2.3 高维新闻数据属性约简 |
4.2.4 新闻分类 |
4.3 系统展示 |
4.4 本章小结 |
第5章 结束语 |
5.1 主要工作与创新点 |
5.2 后续研究工作 |
参考文献 |
附录A PTAR实验详细数据 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(10)基于模糊-粗糙集理论的社会媒体文本处理技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景 |
1.1.1 社会媒体 |
1.1.2 社会媒体文本分析 |
1.2 社会媒体的文本处理技术的研究现状 |
1.2.1 情感分析简介 |
1.2.2 情感检索简介 |
1.2.3 知识图谱简介 |
1.2.4 资源推荐简介 |
1.2.5 问题与挑战 |
1.3 本文主要研究内容及贡献 |
1.4 本文组织结构 |
第2章 相关理论及技术 |
2.1 社会媒体的文本情感分析 |
2.1.1 词语级情感分析 |
2.1.2 语句级情感分析 |
2.1.3 篇章级情感分析 |
2.2 情感检索 |
2.3 知识图谱模型 |
2.4 资源推荐 |
2.4.1 基于内容的推荐模型 |
2.4.2 基于协同过滤的推荐模型 |
2.4.3 混合推荐模型 |
2.5 模糊集和粗糙集理论 |
2.5.1 模糊集理论 |
2.5.2 模糊集理论在分类领域的研究概述 |
2.5.3 粗糙集理论 |
2.5.4 粗糙集理论在分类领域的研究概述 |
2.5.5 模糊集和粗糙集的结合 |
2.6 本章小结 |
第3章 基于模糊-粗糙集理论的多标签情感强度分析 |
3.1 问题提出 |
3.2 相关工作 |
3.3 相关理论及问题定义 |
3.3.1 模糊关系方程 |
3.3.2 多标签情感强度分析的问题描述 |
3.3.3 模型框架 |
3.4 基于模糊粗糙理论的多标签情感强度分析模型 |
3.4.1 基于模糊关系方程的词语情感标签和强度计算 |
3.4.2 基于改进模糊粗糙集的情感分析模型 |
3.4.3 基于改进模糊粗糙集的情感分析算法描述 |
3.5 实验与分析 |
3.5.1 数据集和评价指标 |
3.5.2 实验对比方法 |
3.5.3 实验结果 |
3.5.4 讨论与分析 |
3.6 本章小结 |
第4章 基于模糊关系度量的多标签细粒度情感检索 |
4.1 问题提出 |
4.2 相关工作 |
4.2.1 情感分类 |
4.2.2 情感检索 |
4.2.3 模糊检索 |
4.3 相关理论及问题定义 |
4.3.1 模糊格贴近度 |
4.3.2 多标签细粒度情感检索定义与描述 |
4.3.3 模型框架 |
4.4 基于模糊关系度量的多标签细粒度情感检索方法 |
4.4.1 基于格贴近度的多标签细粒度情感检索模型 |
4.4.2 多标签细粒度情感检索算法描述 |
4.5 实验与分析 |
4.5.1 数据集和评估方法介绍 |
4.5.2 实验步骤 |
4.5.3 实验结果 |
4.5.4 讨论与分析 |
4.6 本章小结 |
第5章 基于模糊集理论的社会媒体知识图谱构建 |
5.1 问题提出 |
5.2 相关工作 |
5.2.1 其他知识图谱模型 |
5.2.2 翻译模型的相关技术背景 |
5.3 相关理论及问题定义 |
5.3.1 模糊关系的合成 |
5.3.2 问题描述 |
5.3.3 模型的基本框架 |
5.4 基于模糊集理论的知识图谱构建 |
5.4.1 基于模糊关系合成的知识图谱翻译模型 |
5.4.2 目标优化 |
5.4.3 算法描述 |
5.5 实验与分析 |
5.5.1 数据集 |
5.5.2 衡量指标 |
5.5.3 三元组分类 |
5.5.4 链路预测 |
5.5.5 结果讨论 |
5.6 本章小结 |
第6章 基于粗糙-模糊集理论的学术论文资源推荐 |
6.1 问题提出 |
6.2 相关工作 |
6.2.1 基于内容的论文推荐 |
6.2.2 基于协同过滤的论文推荐 |
6.2.3 基于混合算法的论文推荐 |
6.3 相关理论及问题定义 |
6.3.1 TF-IDF词权重计算 |
6.3.2 基于WordNet的词语距离方法 |
6.3.3 基于粗糙模糊集理论的相似性计算 |
6.4 基于粗糙-模糊集理论的论文资源推荐模型 |
6.4.1 数据集分析及处理 |
6.4.2 基于欧几里得粗糙模糊集的相似性度量模型 |
6.4.3 论文推荐算法描述 |
6.5 实验与分析 |
6.5.1 正确的结果的判定方法 |
6.5.2 实验步骤与对比方法 |
6.5.3 实验结果 |
6.5.4 讨论与分析 |
6.6 本章小结 |
第7章 结论 |
7.1 论文工作总结 |
7.2 未来的工作及展望 |
参考文献 |
致谢 |
攻博期间发表的论文 |
攻博期间参与的科研项目 |
作者简介 |
四、基于模糊-粗糙集的文本分类方法(论文参考文献)
- [1]流特征下在线分层特征选择方法研究[D]. 白盛兴. 闽南师范大学, 2021
- [2]多标记学习中标记间相关性的获取及应用研究[D]. 车晓雅. 华北电力大学(北京), 2021(01)
- [3]融合标记关系的多标记数据建模研究[D]. 高琪. 山西大学, 2020(01)
- [4]基于不完全监督的多标签分类算法[D]. 王帅. 大连海事大学, 2020(01)
- [5]动态知识维护与标记分布特征选择研究[D]. 王颖瑶. 天津大学, 2019(01)
- [6]面向层次结构数据的特征选择方法[D]. 赵红. 天津大学, 2019(06)
- [7]基于模糊粗糙集和超网络的分类方法研究[D]. 程麟焰. 重庆邮电大学, 2019(02)
- [8]基于模糊粗糙集模型的特征选择方法研究[D]. 李钰雯. 厦门大学, 2019(08)
- [9]基于粗糙集的高维数据高效属性约简研究与应用[D]. 邵瑞. 重庆邮电大学, 2018(01)
- [10]基于模糊-粗糙集理论的社会媒体文本处理技术研究[D]. 王楚. 东北大学, 2018(01)