Web文本挖掘中特征提取算法的分析与改进

一、Web文本挖掘中特征提取算法的分析及改进（论文文献综述）

瞿娟^[1]（2020）在《基于文本挖掘的家具用户潜在需求可视化研究》文中进行了进一步梳理家具行业作为支柱性产业关乎国民生活,传统家具行业的萧条使得家具电商崛起。家具电商受限于家具产品自身的特殊性,在激烈的竞争环境下面临着诸多挑战和困境。大数据时代和电商平台蓬勃发展的背景下,用户在电商平台购买家具后,会在该平台上发布网购评论,评论的内容包括产品属性、服务、物流等方面,里面都暗含着用户对产品的改进需求。家具电商如果能快速掌握网购评论中的用户需求,就能及时改进现有的产品和服务,并找到产品的未来发展方向,为快速迭代找到灵感,从而牢牢把握用户黏性,提高核心竞争力。本文在文本挖掘和用户需求等理论与关键技术研究的基础上,提出了一套适用于线上家具网购评论的文本挖掘的流程,初步构建了家具网购评论的评价指标,并通过实际案例来验证了本文方法的可用性且得到了有价值的结论。通过实证分析,结合网购行为过程的分析及用户群体研究对线上家具产品的网购评论进行深入挖掘,分析得出用户的潜在需求并提出改进建议,验证了线上家具用户需求分析的可行性。本文主要研究工作具体如下:第一,构建基于家具网购评论的评价指标。通过对家具的行业背景和产品种类及特点进行相关调研来确定研究对象,构建二级评价指标体系,提出评论内容、评论者两个一级指标,据此提出了网购评论涉及产品客观属性且为正面评论可能对网购评论的有用性程正向影响等相关假设,以便后面进行验证。第二,提出适用于家具网购评论的文本挖掘的流程。从定义、发展进程、主要研究领域及相关应用等方面对文本挖掘做学术研究和行业应用现状梳理,初步建立了一套适用于家具网购评论的文本挖掘的流程,最后罗列出现有的文本挖掘工具,进行优缺点分析,从而确定本文选用的Python作为文本挖掘工具,借助PyCharm编译器编写相关程序。第三,对家具的网购评论进行深度挖掘,得出有效的用户需求信息。采用数据获取及预处理、特征词提取、情感分析等方法和技术。具体而言,首先研究了数据获取的相关方法和流程,通过选取在线上销售家具的购物平台为数据来源,以家具产品的近期网购评论为样本数据,使用MongoDB数据库将爬取到的数据存储至并使用Jieba分词工具进行网购评论的预处理;其次研究了文本特征抽取以及文本特征评价方法,利用TF-IDF算法对采集到的家具网购评论进行关键词抽取,得出相关高频次关键词,通过对关键词抽取进行共现分析,借助DataFrame获取共词矩阵表格,进一步提高准确性,并借助Worldcloud生成词云图、Networkx构建语义网络图进行可视化呈现;然后研究了情感分析的相关理论并罗列了现有的情感分析技术,选取SnowNLP作为本文研究的情感分析工具,计算出相关家具产品的每条网购评论的情感值,了解用户的态度和意见,并借助ECharts做出动态的交互图表;最后研究用户需求、网购行为的过程,从而得出线上家具用户需求分析的步骤,并结合线上家具用户群体研究,进一步分析家具用户需求的潜在需求,初步验证了网购评论的评价指标以及线上家具用户需求分析方法的可行性。

周洲^[2]（2019）在《基于Web文本挖掘的中职电子商务专业课程设置分析与研究》文中指出在我国经济格局逐渐变革的时代背景下,信息技术的发展成为彰显国家竞争力的重要领域,而电子商务正是在经济与信息技术共同推进下衍生的商业模式。自我国99年首次正式建立电商网站以来,电商企业的规模和发展尤为迅速。而企业是如何进行电子商务的开展?企业的电子商务人才需求是什么?需要什么岗位?各类岗位的招聘需求如何?各类岗位需要什么技能?都是中职学校培养电商人才需要解决明确的问题。通过各个企业的招聘要求分析确定电子商务行业对中职学生的要求和能力是什么,将其要求与电子商务专业课程进行匹配;同时,通过深入调查电商企业的实际人才需求,了解电商行业最新的发展变革,并随之不断的调整更新电商专业课程设置,才能有效提高学生的社会实践能力,使学生毕业后能顺利成为电子商务行业从业人员,毕业即就业。本文从电商企业出发,掌握电商企业工作过程中真正的核心技能需求,并根据其需求设置更贴近社会企业需求的电商专业课程方案。所以本文首先将采用网络爬虫技术,收集网络上最新的电子商务企业对各种电子商务专业不同类型岗位的招聘需求;其次利用WEB文本挖掘技术通过jieba分词对采集到的文本数据进行预处理;同时使用TF-IDF和TextRank算法提取出处理后文本中的关键词并计算其在整个文本中所占权重;之后再通过网络调研收集广东省中职院校已有的电子商务专业课程设置,对其进行课程的提取,并对课程的技能点进行分解;最后将学校课程的技能点和企业需求的技能点进行匹配,从而对现在的中职电子商务专业的课程设置提出一些参考性的建议。

陈利鹏^[3]（2015）在《Web文本分类关键技术研究与应用》文中认为随着网络技术的发展以及Internet的普及,大量的信息充斥着我们的生活、工作,信息的产生量达到空前水平,而这些基于Web所产生的数据大多是非结构化或半结构化的数据,因此对这些数据的组织与处理方式对我们是一大挑战。通过Web文本分类技术,可以对Web文本数据进行高效的组织及分类,这就有效的提高了信息检索的速度及精度。同时Web文本分类技术是Web文本挖掘技术的一部分,正是由于对Web文本分类精度的提高,为人们从Web中提取未知的及有价值的信息提供了可能。本文正是以Web文本数据作为研究对象,对Web文本分类技术所涉及的问题及技术进行分析与研究。同时,本文对Web文本分类技术的研究背景及其所具有的意义进行了介绍,对当前国内外该研究领域的研究现状进行了说明。在此基础上,描述了其涉及到的相关知识及分类效果的评估,为后续操作提供了理论依据。本文主要完成的工作可以进行概括如下。首先,对于现有的Web文本分类技术中,在文本特征选择阶段中所进行的特征选择方式进行了分析讨论,对于文本特征之间关系进行了研究,设计了一种采用Web文本特征关联性进行文本特征选择的方案,并通过实验验证了其在文本分类方面的作用及意义。与此同时,从基于信息增益（IG）的特征提取方法与基于2?统计量的特征选择所具有的优点得到启发,通过对其进行进一步的研究、改进,采用IG-CHI方法进行特征提取的方案,结合传统的特征提取方式对两种特征选择方式在效率及精度方面进行了分析比较。其次,对于现有的分类模型进行对比,在Web文本分类模型中单个分类器在效率及准确性方面并不能满足实际工作的要求,而基于多个分类器的文本分类模型在一定程度上可以有效提升文本分类的效率与精度,因此,结合实际的研究及对比,提出采用多层次集成学习的Web文本分类模型。最后,在基于以上研究的方法上,设计并实现完成了一个用于Web文本数据分类的Web文本分类器,通过Web文本分类器可以实现Web数据的采集及分类操作。

李晓笛^[4]（2015）在《Web文本挖掘技术研究及应用》文中认为随着网络的发展,每天都有大量的网站出现。大量的网站产生了海量的Web网页,这些Web网页包含的信息非常广泛,内容也千差万别。因此如何从海量的Web网页中精准的获取到所需要的信息就成为提高人们学习和工作效率的关键。在这种情况下,Web文本分类就显示了极其重要的作用。本文结合了中文文本分类的流程,从网页的获取、中文分词、特征提取、分类算法的改进及实现五个方面做了详细的研究和实现。主要工作包括如下：（1）论文说明了网页获取的过程,介绍了常见的分词算法和特征提取算法。论文分析了Web文本挖掘中常见的分类算法的原理,并且总结了各种分类算法的优势和劣势,以及在现实应用中存在的问题。（2）论文针对待分类的数据,从分类精确度和效率方面综合考虑,选择了朴素贝叶斯分类器并对其进行了改进。重点分析了贝叶斯分类算法的原理及存在的不足,即：属性之间独立型的假设。然后结合实际情况提出了改进算法。改进算法在不改变其属性独立假设的前提下充分考虑了特征项在整个数据集中出现的频次,然后引入了一个加权系数作用在各个特征项的条件概率上,这样就使得分类算法更加准确,并且基本没有增加计算强度。另外,改进算法召回率方面也有不错的性能。（3）论文对改进朴素贝叶斯分类器算法的并行计算进行了可行性的分析,结合目前常见的大数据处理框架MapReduce,对改进的朴素贝叶斯分类器设计了具体的流程,并且做出了实现方案。设计方案在伪分布模式下搭建实验环境进行实验。从网页的获取、分词和分类三个方面进行了实验和探索。（4）最后,论文结合实验获得的结果对改进算法的分类效果进行了评价,实验达到了预期的结果。总之,论文分析了Web文本分类的各个环节,研究并改进了朴素贝叶斯分类算法,并在大数据的环境下对其做了具体的实现。论文最后对改进朴素贝叶斯分类算法和朴素贝叶斯的分类效果进行了比较,证明了改进算法的效果确实有了提高。

陈美秋^[5]（2014）在《基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究》文中研究说明现如今,医疗器械成为医院正常运行的重要组成部分,各类医疗器械成为医生的得力助手。然而,医疗器械的故障是经常发生的事情,给医院带来了巨大的损失,给病人带来了不便。面对这样一个困难,作者希望有智能化的过程对医疗器械故障进行处理。因此本文将文本自动分类技术引入医疗器械故障诊断领域,实现对文本的自动分类。论文以短文本的特点,短文本分类的特点、应用前景为切入点展开叙述,引入本文研究的重点—医疗器械故障的维修记录短文本,对此类短文本基于已有的故障类别进行文本自动分类实现。在文本挖掘中有关文本分类的算法很多,本文选择以贝叶斯算法为基础的朴素贝叶斯分类算法来实现。在短文本自动分类器的实现过程中,历经数据的采集、短文本预处理、特征词选择和提取、朴素贝叶斯算法实现,在四个不同阶段,一一克服难题,为短文本分类器的最终实现打下了坚实的数据基础。生产分类器后,利用查全率和查准率指标对生成的短文本分类器的分类效果进行测试和评估。这是文本挖掘技术在医疗器械领域的一大应用。论文进一步在故障分类基础上采用GRI关联算法对不同类别之间的关联性进行分析,这也是本论文的创新之处,通过此关联性分析结果中的置信度和支持度来挖掘、分析不同故障类别的故障之间的关联性强弱问题,期望通过此能给出一套合理的预警机制。

王伟^[6]（2013）在《基于粗糙集的Web文本KNN分类方法及在金融中的应用研究》文中进行了进一步梳理随着金融市场的全球化发展以及计算机网络技术的广泛应用,全球金融市场已经开始走向金融网络化。与此同时,互联网业已成为企业、机构和个人获取金融信息的主要来源；作为专业金融信息服务提供商或是个人,在面对如此海量、繁杂的互联网金融信息资源时不可避免会遇到一个巨大的挑战,即如何从互联网中实时、快速地分类和处理金融数据,如何提高Web金融数据获取效率和质量,从而改善公司金融信息服务质量,提升公司在金融信息服务行业的核心竞争力,这也成为当今学术界研究的重点问题之一。随着信息技术和通讯技术的发展,自动信息分类技术已经成为人们有效的金融信息分类工具。当今,Web文本分类的中文信息处理是一个重要的研究领域。其目标是分析文本内容的基础上,分配一个文本到更合适的类别,以便提高文本检索应用程序的处理效率。目前有许多方法应用到此技术中去。目前,K最近邻算法（KNN）被认为是向量空间模型下最好的分类算法之一。KNN算法也是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统的KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决这个问题,人们利用粗糙集对高维文本信息进行属性约简,删除冗余属性。现在相继有了一些粗糙集和KNN的混合分类方法,主要是在属性约简方面去做研究。虽然效率上比传统的单一的KNN算法在分类效率上有了很大提高,但是仍有很大的改进空间。于此,本文在基于粗糙集和KNN算法的基础上,将给出一种基于粗糙集的KNN分类系统模型和结合金融环境下的分类应用系统。在模型和系统中,我们将引入一种改进型分明矩阵的约简方法来约简属性,并采用一种改进型的CHI和模式聚合方法来处理特征提取阶段,这样使特征向量的个数大大的有效约简,减少分类阶段的数据输入量,从而提高整个分类系统的分类效率,降低分类系统的时间和空间复杂度。在本文中,我们还通过实验结果与分析,说明了这种基于粗糙集的KNN改进的分类算法比目前一般的基于粗糙集的KNN分类算法,在分类效率上有了很大的提高。本文在分析Web文本挖掘与Web文本分类的研究现状和存在问题的基础上,主要研究了Web文本分类关键技术、方法和基于粗糙集和KNN的混合Web文本改进分类算法。本文的主要工作包括一下内容：（1）介绍Web挖掘、Web文本挖掘、Web文本分类、粗糙集的基础理论和相关知识,介绍Web文本分类过程中的关键技术。（2）给出结合粗糙集与KNN的Web文本分类系统模型。（3）给出一种基于粗糙集的分明矩阵改进约简算法。（4）给出一个基于CHI方法的特征提取和模式聚合方法的KNN改进算法。（5）给出金融环境下的Web文本分类系统,及其实验结果与比较分析。

文翰^[7]（2012）在《面向信息检索的Web文本挖掘方法研究》文中研究指明今天，互联网已经成为一个大众化和交互式的信息发布媒介。Web作为一个巨大的、开放的、异构的和动态的信息容器，产生和容纳了巨大规模的文本、数据、多媒体、临时性数据等各类信息。由于资源分散且没有统一的管理和结构，这就导致相关信息的获取并非易事，人们真正感兴趣的内容常常被淹没在众多无关信息当中。通过Web数据挖掘的研究，把新的Web文本挖掘方法和技术应用到信息检索中去，利用Web文本挖掘的研究成果来提高信息检索中页面内容分类、聚类的精度和效率，改善检索结果的组织，提高Web信息查找和利用的效率，能够直接或间接地解决搜索引擎精度不高、召回率低、信息过载、返回结果组织方式有限以及服务形式单一等缺陷，为信息检索系统发展到一个新的水平提供技术支持。因此，面向信息检索的Web文本挖掘方法研究有着十分重要的理论意义和商业应用价值。目前，从面向信息检索的角度来看Web文本内容挖掘是一个非常活跃的研究方向，众多学者在这个领域进行了广泛而深入的研究，虽然取得了一些可喜的成果与应用，但远远未达到一个成熟的阶段，仍面临许多亟待解决的重要问题：至今还没有发现“最佳”的特征选择的维度削减方法；文本数据高维稀疏，传统的分类、聚类算法的精度和效率难以提高；基于小样本训练的半监督学习问题；海量数据难于查找，如何有效改善检索结果的组织、发布以方便查询浏览等等。本文在现有Web文本内容挖掘方法和研究成果的基础上，进一步围绕Web文本挖掘的关键性问题与方法展开研究。对类别不均衡的非平衡数据、在线评价这类带情感倾向的数据的特征降维问题分别给出解决方案；以半监督学习作为主要研究对象，提出了几种新的半监督学习算法，并应用到Web文本挖掘分析；同时，针对检索结果聚类分析问题提出了一种解决方法，以改善搜索结果组织。在几个常用的标准数据集上，通过相关实验进行对比分析，验证了改进方法的有效性。本文所取得的工作成果以及创新点主要体现在以下几个方面：1.针对非平衡文本集上的分类问题，提出了一种基于Naive Bayesian的增强最大期望（Expectation Maximization, EM）半监督分类算法。首先，构建一个有效的特征选择函数来过滤掉大量无效特征词且保留高类别信息的特征项，利用该特征选择函数使得类别不均衡数据集的特征空间维度能够真正有效降低。同时，对EM算法结合朴素Bayesian分类方法进行改进调整，在每步迭代过程中将后验类别概率最高的未标注文档从未标注训练集转移至已标注集，避免干扰其它未标注样本所属类别的确定。2.针对在线商品评价这类情感特征倾向明显的Web文本分类问题，提出了基于特征分布半监督分类算法。通过利用特征项的类别分布情况来弥补信息增益方法的不足，修正原信息增益方法的特征项和类别的联合分布概率，放大特征项在不同类别间出现的差异，调整后的信息增益方法保留真正具有较高类别区分能力的特征，达到有效降低特征空间维度的目的。再将基于特征分布的选择方法与增强EM算法相结合进行半监督文本分类，取得了较好的分类效果和性能。3.为解决传统Web文本聚类方法精度和效率不理想的状况，提出了基于强类别特征近邻传播的半监督聚类算法。在高效、快速的近邻消息传播算法的基础上吸收半监督聚类的思想，充分利用少量已知类别标签数据中潜在的先验信息，提取强类别区分能力的特征项对训练样本的夹角余弦相似性矩阵进行调整，构建综合强类别特征和夹角余弦的相似性测度函数，在算法每轮迭代完成后进一步将类别确定性程度最高的未标记样本转移到已标注集，这些措施使得算法性能和精度都得到较大提升。4.为提高少量带类别标签样本数据的利用效果，提出了一种融合种子扩散近邻传播的半监督聚类算法。在聚类初始阶段把少量有限的带类别标签样本作为初始种子，然后通过扩散增大规模，进一步净化、提纯后移除误标记和噪音数据，逐步将初始种子培育成规模更大的优良种子集，以改善聚类初始化效果，同时利用seeds集样本中蕴含的类别结构信息构建更合理的相似性测度，促使算法快速向正确聚类目标收敛，为处理大规模非对称性以及高维稀疏的Web文本分析问题提供了有效的解决方案。5.为了改善Web搜索结果的组织和发布效果，方便信息查找浏览，提出了基于潜在语义信息和后缀树的Web检索结果聚类算法。该算法首先结合向量空间模型和后缀树模型的优点进行Web页面摘要片断的聚类过程，将拥有较多相同短语的页面文档组成一个基簇，再借助潜在语义索引方法提取特征词条和文档之间蕴含的潜在语义关联信息，为页面基簇挑选与主题贴切的候选短语作为文档基簇的目录标签，聚类结果使得Web检索结果方便浏览且能协助用户快速地找到他们感兴趣的Web页面或站点信息。

杨卉^[8]（2011）在《Web文本观点挖掘及隐含情感倾向的研究》文中提出所谓观点,是指一个人对某些事物的想法和理解,它是对某些事物的判断和评价。观点并非是事实,因为观点既没有得到验证,也没有得到证明和确认。如果一个观点后来能够得到证明和确认,那它就不再是一个观点,而变成一个事实。因此,从一个Web访问者的角度来看,将所有发布在Web上的信息看成是观点比看成是事实更加妥当。了解其他人的想法和对事物的判断已经成为决策制定过程中最重要的依据之一。如今,互联网使一切成为可能,我们能够在互联网上了解那些并不认识的人和专家的观点和态度。同时,越来越多的人也在互联网上分享自己的感受和经历。随着网络上观点资源的日益丰富,如个人博客,在线评论等,给我们提供了新的机会和挑战,如何使用信息技术去挖掘和理解其他人的观点便是观点挖掘。情感倾向分析是对Web上用户主动发布的内容（也称作用户生成内容）进行有效的分析和挖掘,识别出这些内容的情感趋势——赞同、反对、高兴或者悲伤,甚至进一步预测情感随时间的演化规律。通过对用户生成内容的情感倾向分析,使我们能够更好地了解用户的消费习惯,分析当下热点事件的舆情,帮助企业和政府作出合理正确的决策。然而,目前被广泛使用的信息检索技术,尤其是搜索引擎技术,是以关键字为基础的,无法实现基于情感和观点的检索。其原因有两方面:第一,情感或者观点无法用简单的关键字来表示和索引。第二,信息检索领域的排序策略也并不适合观点挖掘。目前,大多数的情感分析算法是需要靠我们用简单的术语来表达我们对产品和服务的情感。然而,文化因素,语言的细微差别和不同的上下文使其很难成为一个简单的赞成或是反对情感的书面文本字符串。因此,本文首先深入研究了情感倾向评估模型和Web文本特征抽取方法,提出了连续性情感评估模型和基于中文依赖语法的情感评估模型。在此基础上,为了挖掘Web文本的主题社区和情感趋势,本文将隐含情感倾向评估模型分别与Web文本社区挖掘算法和文本聚类方法K-Means算法相结合,提出了Web文本社区快速挖掘算法、基于多Agent的Web文本社区挖掘算法和基于隐含情感的Web文本聚类算法。本文主要工作如下:（1）在Web文本空间向量模型基础上,提出了一个基于中文依赖语法的主观字特征抽取方法。该方法能够在尽量避免噪音的情况下,依据中文依赖语法规则,抽取出文本表达中的主观字。实验分别在不同的特征向量空间和样本数量不平衡的情况下,对IG、MI、CE和我们的算法在KNN分类器下的表现进行了比较。（2）针对离散情感倾向评估方法无法准确描述情感变化趋势的问题,提出了两个中文连续情感倾向评估模型,分别是中文连续情感评估模型和基于中文依赖语法的情感评估模型。中文连续情感评估模型旨在提出一个全面、准确的中文情感倾向分析模型。本文的方法首先识别出句子中出现的情感字,通过上下文的句法结构来判别出每个句子的情感倾向,然后通过整合所有句子的情感倾向来预测整篇文档的情感倾向。实验证明,该方法可以准确地描绘出一定时间段内的Web文本情感的变化趋势。基于中文依赖语法的情感评估模型,通过中文依赖语法规则来判别主观字的先验极性和修饰极性的方法。实验证明,在真实Web数据上,该方法比传统的SVM和NB算法的情感分类结果准确性更高。（3）研究了Web文本社区挖掘算法。基于不同的Web社区结构,即静态社区和动态社区,分别提出了基于隐含情感的Web文本社区快速挖掘算法和基于多Agent的Web文本社区挖掘算法。基于多Agent的Web文本社区挖掘算法是一个动态社区挖掘算法,该算法可以在未知Web文本社区结构的情况下,有效地挖掘相同主题和相同情感的Web文本社区。以上两种算法的共同特点是在Web文本社区挖掘算法中,考虑了隐含情感因素,实验结果表明,这两种算法不仅能够提高Web文本挖掘算法的精度值,同时可以提高算法的回召值。（4）改进了经典的文本聚类方法K-Means算法,提出了一个基于隐含情感的Web文本聚类算法,算法中给出了一个基于隐含情感和文本特征的相似性比较算法,同时算法基于一个新的分级机制的原始中心选择算法。因为一个好的原始中心不仅仅能够代表文本聚类的中心,同时可以更好的区分该中心与其他中心。通过实验验证,在不同类型的在线文本集上,K-Means算法、Bisecting K-Means算法、UPGMA算法和本文提出的HSK-Means算法想比较,具有原始中心选择的算法（如bisecting K-Means和HSK-Means算法）的表现明显优于不具有原始中心选择的文本聚类算法。综上所述,本文深入研究了Web文本观点挖掘和中文文本隐含情感倾向分析问题,主要考虑了如何更加准确地评估文本中隐含情感倾向,即连续情感倾向评估问题;同时,分别对静态和动态的Web文本社区挖掘给出的两个不同算法,最后给出了一个基于隐含情感和原始中心选择的Web文本聚类算法。将隐含情感分析和社区挖掘相结合,不仅仅可以更加准确的、全面的了解观点持有者表达的真正想法,同时可以帮助需要使用和借鉴这些观点的人作出正确的决策。本文的算法研究和实现方法都非常新颖,且具有较高理论价值和实际应用价值。本文对观点挖掘和情感分析领域进一步研究具有重要意义。

毛太田,邹凯,毛静,周军^[9]（2011）在《基于模糊集的Web文本最大支撑树聚类算法》文中认为当今信息社会,Internet上的信息资源杂乱繁多,用户很难准确地获得所需的信息。对此,本文提出根据特征词在html网页中的title、keywords、description标签的位置来计算各Web文本内容之间的相关度,对Web文档进行模糊聚类的算法,这种基于模糊集的Web文本最大支撑树聚类算法改善了文本聚类的时间和空间的复杂度,减少了文本处理的维度,提高了聚类的速度和精度,从而提高了用户对信息资源获取的方便性。

刘星^[10]（2011）在《Web文本聚类与分类算法研究》文中研究表明在当今这个飞速发展的信息化时代,随着计算机技术的发展和互联网的普及,万维网已经成为巨大的、分布广泛的、全球性的信息服务中心,Web上的信息交流已经融入到生活中的每个领域。Web已成为人们交流思想获取信息的主要渠道。日常生活中,人们总能接触大量的Web文本信息,然而真正需要的信息却很少。由于Internet的开放性和异构性,使得用户快速准确的从互联网获取需要的信息变的更加困难,人们面临着信息爆炸却知识贫乏的窘境。为了有效的管理Web上的海量信息,并准确、快捷的为用户提供检索服务,Web数据挖掘已成为信息检索领域的一个重要研究热点。Web数据挖掘将传统的数据挖掘方法加以改进,并用于Web上的知识发现,大致可分为3类：Web内容挖掘、Web使用挖掘和Web结构挖掘。其主要采用的技术有：聚类分析、分类预测、关联分析、时序分析等。Web文本聚类与分类作为Web文本挖掘的重要手段,被广泛运用于信息检索技术,近年来倍受研究者的关注。国外对文本聚类和分类的研究起步比较早,早在上个世纪60年代就已经提出了信息抽取技术和文本分类的基本思想。目前,国外的挖掘已从研究阶段进入到了实用阶段,广泛应用于邮件分类、信息过滤等方面。国内对于文本挖掘的起步比较晚,取得了一些成果,其主要的成果在中文分词领域。本文对Web文本聚类与分类的相关理论进行了论述,并在深入理解了传统文本聚类与分类算法的基础上,针对Web文本数据量过于庞大的问题,以降低文本聚类与分类算法的计算开销为主要思路对传统的k-means算法以及KNN分类算法进行了改进。本文的主要研究工作包括以下几个方面：（1）以TF-IDF为代表的特征词提取算法,是基于特征词与文档间的相关性或特征词与文档类别的相关性,来衡量特征词表征文档或文档类别的能力。但是它却没有考虑特征词间之间的相关性对于聚类结果的影响,导致聚类效果不佳这一问题。对此本文引入特征词共现的概念描述特征词间的相关性,并采用聚类分析的思想对特征词集进行提取。由于此方法不使用Web文本集中文档的类别信息,故可用于Web文档聚类的特征提取。（2）在基于聚类的特征词提取中,既考虑到传统k-means算法聚类过程中的临近原则,可使类的中心点具有类内最强的代表性；又考虑到它对孤立点和初始聚类中心点局限性。在传统k-means算法的基础上引入相关性邻域概念,提出了一种改进的k-means算法：Dk-means,用于Web文本特征词提取。（3）在文本聚类中k-means算法存在对初始聚类中心的依赖性问题。分析Web文本聚类与基于聚类的特征词提取,对初始聚类中心点要求的倾向性,以及传统k-means算法易陷入局部最优的因素。引入粒子群算法优化k-means的初始聚类中心,提出一种基于粒子群优化初始聚类中心的改进k-means算法：PSO-k-means。（4）分析KNN文本分类器的影响分类效率及分类准确性的因素,引入文本聚类思想,对训练集文档按类别聚类划分,以划分后的簇中心点代表簇内所有的文档,降低K近邻的计算开销,以提高KNN的分类效率。通过分析训练文档集的局部分布密度以及待分类样本与聚类中心的距离,对KNN类别判定的影响,在泛化过程中对各聚类中心加权,并改进基本的变k策略,自动确定k值。实验表明本文提出的Dk-means可将聚类中心扩散到高相关性密度的区域,使聚类后簇内的相关性较高；而PSO-k-means使初始聚类中心得到很好扩散,降低了聚类后簇中心点间的相关性。而对于传统KNN的改进,在尽量保证分类准确的前提下,大幅减少了计算开销,提高了效率。

二、Web文本挖掘中特征提取算法的分析及改进（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、Web文本挖掘中特征提取算法的分析及改进（论文提纲范文）

（1）基于文本挖掘的家具用户潜在需求可视化研究（论文提纲范文）

致谢

摘要

abstract

第一章绪论

1.1 研究背景、目的及意义

1.1.1 研究背景

1.1.2 研究目的

1.1.3 研究意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究内容及方法

1.3.1 研究内容

1.3.2 研究方法

1.4 本文的创新之处

1.5 研究框架

第二章文本挖掘概述

2.1 文本挖掘

2.1.1 文本挖掘的发展进程

2.1.2 文本挖掘的主要研究领域

2.1.3 文本挖掘的相关应用

2.2 文本挖掘的一般流程

2.3 文本挖掘工具

2.4 本课题的文本挖掘工具及流程

2.5 本章小结

第三章基于网购评论的评价指标建立

3.1 家具概述

3.2 家具调研与研究对象确定

3.3 评价指标构建标准

3.4 基于家具网购评论评价指标体系构建

3.4.1 家具网购评论的评价指标体系的构建

3.4.2 研究假设

3.5 本章小结

第四章数据获取及预处理

4.1 数据获取方法

4.1.1 网络爬虫

4.1.2 爬虫工具

4.2 数据来源及选择

4.2.1 线上家具购物网站的选择

4.2.2 家具产品的选择

4.3 爬取过程

4.4 文本预处理

4.4.1 数据清洗

4.4.2 中文分词

4.4.3 去停用词

4.5 本章小结

第五章文本特征词提取

5.1 文本特征提取

5.2 文本特征评价的方法

5.3 文本特征词提取过程

5.3.1 基于词云图的词频统计

5.3.2 基于TF-IDF算法的关键词提取

5.3.3 建立共词矩阵

5.4 可视化呈现

5.4.1 基于词频的可视化

5.4.2 基于词频的可视化过程

5.4.3 基于语义的可视化

5.4.4 基于语义的可视化过程

5.5 本章小结

第六章情感分析

6.1 文本情感分析

6.2 文本情感分析技术

6.3 文本情感分析过程

6.4 可视化呈现

6.4.1 基于情感的可视化

6.4.2 基于情感的可视化过程

6.5 本章小结

第七章基于家具用户潜在需求的分析

7.1 基于网购评论的家具用户需求分析

7.1.1 用户需求

7.1.2 网购的行为过程分析

7.1.3 线上家具用户需求分析步骤

7.1.4 线上家具用户群体的研究

7.2 基于评价指标的相关分析

7.2.1 基于评价指标的产品关键词分析

7.2.2 基于评价指标的产品情感值分析

7.3 关于折叠桌的研究结论

7.4 本章小结

第八章总结与展望

攻读学位期间发表的学术论文

参考文献

附录

（2）基于Web文本挖掘的中职电子商务专业课程设置分析与研究（论文提纲范文）

摘要

Abstract

1 绪论

1.1 研究背景

1.2 研究目的与意义

1.2.1 研究目的

1.2.2 理论意义

1.2.3 实际应用意义

1.3 国内外研究现状

1.3.1 国外研究现状

1.3.2 国内研究现状

1.4 研究思路与研究方法

1.4.1 研究思路

1.4.2 研究方法

1.5 研究内容与创新

1.5.1 研究内容

1.5.2 研究创新点

2 相关研究理论基础

2.1 课程体系研究的理论基础

2.1.1 基于工作过程导向的课程理论

2.1.2 工作过程导向理论下的课程设置研究

2.2 课程设置的基本取向

2.2.1 实践性取向

2.2.2 能力性取向

2.2.3 灵活性取向

2.2.4 实用性取向

2.3 Web文本挖掘理论与技术

2.3.1 Web文本挖掘理论

2.3.2 Web文本挖掘技术

3 电子商务行业招聘信息的采集和预处理

3.1 电子商务招聘信息的采集

3.1.1 网络爬虫技术

3.1.2 网页文本提取

3.1.3 招聘信息采集

3.2 电子商务招聘信息的预处理

3.2.1 文本分词

3.2.2 停用词过滤

3.2.3 招聘信息预处理

3.3 电子商务招聘信息的关键词提取

3.3.1 TF-IDF算法

3.3.2 TextRank算法

3.3.3 算法代码实现

4 电子商务企业招聘需求文本结果分析

4.1 企业招聘岗位需求分析

4.1.1 企业开展电子商务的方式

4.1.2 招聘岗位类别分布

4.1.3 电商企业起薪情况及日常招聘状态

4.2 企业招聘整体专业技能要求分析

4.2.1 电商企业各岗位专业技能分类

4.2.2 专业技能要求分析

4.3 企业招聘具体岗位核心技能要求分析

4.3.1 运营销售类岗位

4.3.2 技术类岗位

4.3.3 客服类岗位

4.3.4 设计类岗位

5 中职电子商务专业课程设置策略

5.1 技能与课程的转换

5.2 广州中职院校电商专业课程设置个案分析

5.2.1 A校电商专业课程设置思路分析

5.2.2 B校电商专业课程设置思路分析

5.2.3 电商专业课程设置的共性分析

5.3 针对中职院校电商专业课程设置改进思路

5.3.1 课程设置改进思路

5.3.2 课程结构

5.3.3 电子商务专业课程具体设置

6 研究结论与展望

6.1 研究结论

6.2 研究展望

参考文献

致谢

攻读硕士学位期间取得的研究成果

学位论文数据集表

（3）Web文本分类关键技术研究与应用（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 研究背景及其意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文的组织结构

第二章相关技术分析与研究

2.1 Web文本挖掘

2.2 Web文本分类

2.2.1 Web文本分类的定义

2.2.2 Web文本分类的步骤

2.3 文本分类相关技术

2.3.1 文本预处理

2.3.2 降维技术

2.3.3 特征选择

2.4 结果的评估方法

2.4.1 预测模型的评分函数

2.4.2 描述模型的评分函数

2.4.3 其它评分函数

2.5 本章小结

第三章 Web文本分类预处理技术研究

3.1 中文分词方法

3.1.1 基于语义词典的分词

3.1.2 基于统计的分词

3.2 文本表示

3.3 特征权重计算

3.4 特征提取及其存在的问题

3.5 基于CHI检验的特征关联提取方法

3.6 IG-CHI特征选择方法

3.7 实验

3.7.2 实验方法

3.7.3 结果分析

3.8 本章小结

第四章基于多层次集成学习的Web文本分类器研究

4.1 数据分类分析方法

4.1.1 贝叶斯分类

4.1.2 K-近邻分类方法

4.1.3 粗糙集分类方法

4.2 多层次集成学习分类器研究

4.3 实验分析

4.4 本章小结

第五章 Web文本分类系统的设计与实现

5.1 Web文本抽取器的分析

5.1.1 Web文本抽取器的原理

5.1.2 Web文本抽取器的组成

5.2 Web文本分类系统的设计

5.2.1 架构设计

5.2.2 数据抓取算法

5.2.3 线程管理模块

5.2.4 资源抓取队列

5.2.5 目标URL过滤

5.2.6 文本分类模块

5.3 Web文本分类系统的实现

5.4 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

作者简介

（4）Web文本挖掘技术研究及应用（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 论文背景及意义

1.2 国内外研究现状

1.2.1 中文文本挖掘技术

1.2.2 大数据处理技术

1.3 论文所做的工作

2 Web文本挖掘技术及流程

2.1 Web挖掘的分类

2.2 文本预处理

2.2.1 Web网页的获取

2.2.2 中文分词

2.3 文本表示

2.3.1 向量空间模型

2.3.2 权值计算公式

2.3.3 相似度计算公式

2.4 特征提取

2.4.1 特征词的文档频率(DF)

2.4.2 信息增益方法(IG)

2.4.3 互信息方法(MI)

2.4.4 x2统计量(CHI)

2.5 经典的分类算法

2.5.1 KNN分类器

2.5.2 支持向量机

2.5.3 决策树算法

2.6 Web文本挖掘的一般流程

3 朴素贝叶斯分类器及其改进算法

3.1 贝叶斯分类器的种类及其特点

3.2 几种贝叶斯分类器的原理

3.2.1 朴素贝叶斯文本分类器

3.2.2 贝叶斯网络分类器

3.2.3 TAN分类器

3.3 基于特征加权的朴素贝叶斯分类器的改进

3.4 分类器的评价标准

3.5 总结

4 Web文本挖掘关键技术在大数据下的研究

4.1 Hadoop框架

4.1.1 Hadoop平台概述

4.1.2 HDFS

4.2. MapReduce工作原理分析

4.3 分布式爬虫Nutch

4.3.1 Nutch爬虫

4.3.2 Nutch中的MapReuce算法

4.4 特征提取的分布式实现

4.5 总结

5 Hadoop环境下改进朴素贝叶斯分类器的实现

5.1 Hadoop平台的搭建

5.2 数据的获取

5.3 中文的分词

5.4 改进朴素贝叶斯分类的实现

5.5 实验结果分析

6 总结和展望

6.1 论文总结

6.2 展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

（5）基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究（论文提纲范文）

摘要

abstract

第一章绪论

一、研究背景与意义

(一) 研究背景

(二) 研究意义

二、国内外相关研究现状

(一) 故障诊断的国内外研究现状

(二) 基于文本挖掘的设备故障诊断的研究现状

(三) 医疗器械的故障诊断现状

(四) 文本分类的国内外研究现状

(五) 短文本自动分类国内外研究现状

(六) 研究评价

三、研究框架

(一) 研究目的

(二) 研究内容

(三) 研究方法

(四) 技术路线

(五) 研究创新

四、本文的组织结构

第二章医疗设备故障诊断技术与文本分类技术

一、医疗设备故障诊断技术简介

(一) 医疗器械系统故障及故障诊断

二、短文本分类简介

(一) 短文本分类概述

(二) 短文本分类特点

(三) 短文本分类的应用前景

(四) 短文本分类的流程

三、本章小结

第三章基于贝叶斯的医疗设备故障诊断分类方法

一、朴素贝叶斯方法在故障诊断中的应用

(一) 贝叶斯算法简介

(二) 朴素贝叶斯分类方法

二、医疗设备故障诊断分类系统的设计

(一) 文本的预处理

(二) 特征词的选择

(三) 分类器的构建

三、本章小结

第四章医疗器械故障诊断分类的使用和测评

一、医疗器械故障诊断自动分类的实验环境和数据

(一) 实验环境

(二) 实验数据与实验界面

二、短文本分类试验效果评估

三、实验结果与分析

四、本章小结

第五章基于分类的故障关联性分析

一、关联规则的相关概念

二、基于分类情况下关联性分析

(一) 故障分类数据的表示

(二) 分类基础上关联算法GRI

(三) 分类基础上关联实现与分析

三、本章小结

第六章结论与展望

一、总结

二、进一步展望

参考文献

致谢

（6）基于粗糙集的Web文本KNN分类方法及在金融中的应用研究（论文提纲范文）

摘要

Abstract

第1章前言

1.1 研究的背景和意义

1.2 国内外研究现状

1.3 本文的主要研究工作

1.4 论文结构

第2章相关理论基础

2.1 Web挖掘

2.2 Web文本挖掘

2.3 Web文本文类

2.3.1 Web文本分类定义

2.3.2 Web文本分类关键技术

2.3.3 Web文本分类方法

2.3.4 Web文本分类质量评价

2.4 KNN分类算法

2.5 粗糙集

2.6 本章小结

第3章基于粗糙集的Web文本KNN分类系统模型

3.1 模型框架

3.2 预处理模块

3.3 分类模块

3.4 分类质量评价模块

3.5 本章小结

第4章基于粗糙集的Web文本KNN分类改进算法

4.1 基于分明矩阵的约简改进算法

4.1.1 决策表

4.1.2 分明矩阵

4.1.3 基于分明矩的一般属性约简算法

4.1.4 改进的分明矩阵属性约简算法

4.2 基于CHI和模式聚合的改进KNN算法

4.2.1 基于CHI方法的特征提取和模式聚合

4.2.2 模式聚合和特征选择步骤

4.2.3 特征权值的计算方法

4.2.4 改进的KNN算法

4.3 本章小结

第5章金融环境下的Web文本分类系统

5.1 系统设计

5.1.1 系统模块设计

5.1.2 功能设计

5.2 系统的开发

5.2.1 数据的准备

5.2.2 开发工具的选择

5.3 本章小结

第6章实验结果与分析

6.1 实验一

6.2 实验二

6.3 本章小结

第7章结论与展望

7.1 论文工作总结

7.2 展望

参考文献

致谢

攻读硕士学位期间公开发表的论文

（7）面向信息检索的Web文本挖掘方法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 Web挖掘概述

1.2.1 Web挖掘的概念及特点

1.2.2 Web挖掘分类

1.3 本文工作

1.3.1 论文的研究思路

1.3.2 本文主要研究内容与贡献

第二章研究综述

2.1 引言

2.2 Web文本挖掘国内外研究现状

2.2.1 Web文本挖掘基本过程

2.2.2 Web文本挖掘应用

2.2.3 研究热点与动态

2.2.4 商业应用及挖掘工具

2.2.5 尚待研究解决的问题

2.3 本章小结

第三章基于Naive Bayesian的增强EM半监督分类研究

3.1 引言

3.2 非平衡集上的特征选择

3.3 基于Naive Bayesian的增强EM算法

3.3.1 朴素贝叶斯分类

3.3.2 基本EM算法

3.3.3 增强EM算法

3.4 实验及结果分析

3.4.1 实验数据与评测标准

3.4.2 实验结果与分析

3.5 本章小结

第四章基于特征分布的半监督分类研究

4.1 引言

4.2 信息增益与特征分布

4.3 基于特征分布选择

4.4 实验及结果分析

4.4.1 数据准备与评测标准

4.4.2 实验结果与分析

4.5 本章小结

第五章基于强类别特征近邻传播的半监督聚类研究

5.1 引言

5.2 近邻消息传播算法

5.2.1 AP算法与K-means算法的区别

5.2.2 AP算法基本原理

5.3 基于强类别特征AP半监督聚类

5.3.1 夹角余弦系数相似性

5.3.2 带强类别特征的相似性度量

5.3.3 SCFAP半监督聚类算法

5.4 实验及结果分析

5.4.1 实验数据及准备

5.4.2 实验评测标准

5.4.3 实验结果与分析

5.5 本章小结

第六章融合种子扩散传播的半监督聚类研究

6.1 引言

6.2 种子扩散与净化

6.3 融合种子扩散传播的半监督聚类

6.4 实验及结果分析

6.4.1 实验准备及评价函数

6.4.2 实验比对算法

6.4.3 实验结果与分析

6.5 本章小结

第七章基于语义信息和后缀树的Web检索结果聚类研究

7.1 引言

7.2 相关研究工作

7.3 相关模型及理论

7.3.1 向量空间模型

7.3.2 后缀树模型

7.3.3 潜在语义索引

7.4 基于语义信息的Web片断后缀树聚类

7.4.1 基于语义信息的Web片断STC过程

7.4.2 Web文档预处理

7.4.3 发现基簇

7.4.4 合并基簇

7.4.5 为基簇选择短语标签

7.5 实验及结果分析

7.5.1 实验准备与评测标准

7.5.2 实验结果与分析

7.6 本章小结

总结与展望

一.本文的主要工作和主要结论

二.本文的进一步研究方向

参考文献

攻读博士学位期间取得的研究成果

致谢

附件

（8）Web文本观点挖掘及隐含情感倾向的研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 引言

1.2 研究背景及意义

1.3 Web 文本观点挖掘和情感分析应用领域

1.3.1 评论相关的网页的应用

1.3.2 商业和政府智能领域的应用

1.3.3 作为子部件技术的应用

1.4 本文的主要工作及章节安排

第二章 Web 文本观点挖掘和情感分析理论基础

2.1 引言

2.2 观点挖掘概述

2.2.1 观点挖掘的主要任务

2.2.2 观点挖掘当前的主要方法

2.3 情感倾向分析概述

2.3.1 情感倾向分析的对象和研究思路

2.3.2 观点的情感倾向分析的全局性与局部性

2.3.3 情感评估模型分类

2.4 Web 文本观点挖掘

2.4.1 Web 文本挖掘定义及分类

2.4.2 Web 社区挖掘

2.4.3 经典社区挖掘算法

2.4.4 Web 社区结构挖掘算法

2.4.5 文本聚类算法

2.5 本章小结

第三章 Web 文本预处理及特征抽取技术

3.1 引言

3.2 Web 文本预处理

3.3 文本特征抽取

3.3.1 文本特征向量定义

3.3.2 常用的特征抽取方法

3.3.3 影响特征词权重的因素分析

3.3.4 基于语义的特征提取方法

3.4 情感信息抽取

3.4.1 情感字的抽取和判别

3.4.2 主观表达式的抽取

3.4.3 情感评价对象的抽取

3.5 一种基于依赖语法的特征抽取方法DGFEM

3.5.1 Web 文本向量模型描述

3.5.2 基于中文依赖语法的主观特征抽取方法

3.6 实验结果分析

3.7 本章小结

第四章连续性隐含情感评估模型

4.1 引言

4.2 情感倾向评估方法分类

4.2.1 依据不同粒度的情感倾向评估分类

4.2.2 情感倾向分析技术

4.3 中文情感倾向评估系统的构建

4.4 中文连续情感评估模型CSEM

4.5 一种基于中文依赖语法的情感倾向评估模型DGSEM

4.5.1 中文依赖语法规则

4.5.2 DGSEM 的构建

4.5.3 DGSEM 算法步骤

4.5.4 句子情感倾向的判别

4.6 实验结果分析

4.6.1 实验数据

4.6.2 实验结果比较

4.7 本章小结

第五章基于隐含情感的Web 文本观点挖掘算法

5.1 引言

5.2 Web 文本挖掘生命周期

5.3 Web 文本观点挖掘系统流程

5.4 一种Web 文本社区快速挖掘算法FCTMA

5.4.1 文本特征相似性

5.4.2 算法思想

5.4.3 算法步骤

5.4.4 参数设置和实验结果

5.5 多Agent 三要素定义

5.6 基于多Agent 的Web 文本社区挖掘算法MADCMA

5.6.1 算法思想

5.6.2 算法步骤

5.6.3 实验结果分析

5.7 基于隐含情感的Web 文本聚类算法HSKM

5.7.1 基于隐含情感和文本特征的相似性比较

5.7.2 原始聚类中心的选择

5.7.3 算法思想

5.7.4 算法步骤

5.7.5 实验结果比较

5.8 本章小结

第六章总结及展望

参考文献

攻读博士学位期间的研究成果

致谢

（9）基于模糊集的Web文本最大支撑树聚类算法（论文提纲范文）

1 Web文本特殊结构说明

2 Web文本的最大支撑树聚类算法

2.1 提取词库

2.2 抽取特征词

2.3 特征词权重计算

2.4 构造Web文本权重矩阵

2.5 构造模糊相似矩阵

2.6 构建模糊最大支撑树并进行聚类分析

2.7 聚类分析

3 应用实例

3.1 选取样本

3.2 提取样本词库

3.3 构造模糊矩阵

3.4 绘制模糊图

3.5 构造最大支撑树

3.6 划分截集

3.7 分析

4 不同算法的性能对比

5 结束语

（10）Web文本聚类与分类算法研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 引言

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 本文组织结构与研究内容

第2章 Web文本聚类与分类相关概念

2.1 数据挖掘

2.2 Web数据挖掘

2.2.1 Web挖掘的概念

2.2.2 Web挖掘分类

2.3 Web文本挖掘

2.3.1 Web文本挖掘的定义

2.3.2 Web文本挖掘的一般过程

2.4 Web文本的表示

2.4.1 布尔模型

2.4.2 概率某型

2.4.3 向量空间模型

2.5 Web文本特征提取

2.5.1 特征词频—文档频率权重(TF—IDF)

2.5.2 信息增益(IG)

2.5.3 互信息(MI)

2.5.4 χ~2(CHI)统计

2.6 Web文本分类器

2.6.1 朴素贝叶斯分类器

2.6.2 K近邻分类法器(KNN)

2.6.3 支持向量机分类器

2.6.4 评价标准

2.7 Web文本聚类

2.7.1 划分聚类方法

2.7.2 层次聚类方法

2.7.3 评价标准

2.8 本章小结

第3章基于相关性聚类的Web文本特征提取算法

3.1 引言

3.2 TF-IDF特征词提取算法问题分析

3.3 特征词共现的相关性聚类思想

3.3.1 相关性聚类思想

3.3.2 相关性的描述

3.4 k-means算法在文本特征提取中的局限性

3.4.1 聚类中心点无意义

3.4.2 初始聚类中心点依赖性

3.4.3 最临近原则的影响

3.5 基于改进k-means的特征提取算法

3.5.1 基于特征词共现的相关性描述

3.5.2 k-means算法的改进策略

3.5.3 算法描述

3.6 实验与结果分析

3.7 本章小结

第4章基于PSO改进的k-means Web文本聚类算法

4.1 引言

4.2 问题描述

4.3 粒子群算法简介

4.3.1 基本粒子群算法

4.3.2 标准粒子群算法

4.3.3 基本流程

4.3.4 优化聚类中的应用

4.4 改进k-means Web文本聚类算法

4.4.1 基于PSO的改进策略

4.4.2 算法描述

4.5 实验及结果分析

4.6 本章小结

第5章一种改进的KNN Web文本分类器

5.1 引言

5.2 KNN算法问题分析

5.2.1 影响KNN分类的因素

5.2.2 现有的改进策略

5.3 改进的KNN Web文本分类算法

5.3.1 改进策略

5.3.2 算法描述

5.4 实验与结果分析

5.5 本章小结

第6章总结与展望

6.1 全文总结

6.2 工作展望

参考文献

读硕期间公开发表的论文

致谢

四、Web文本挖掘中特征提取算法的分析及改进（论文参考文献）

[1]基于文本挖掘的家具用户潜在需求可视化研究[D]. 瞿娟. 南京林业大学, 2020(02)
[2]基于Web文本挖掘的中职电子商务专业课程设置分析与研究[D]. 周洲. 广东技术师范大学, 2019(02)
[3]Web文本分类关键技术研究与应用[D]. 陈利鹏. 西安电子科技大学, 2015(03)
[4]Web文本挖掘技术研究及应用[D]. 李晓笛. 北京交通大学, 2015(09)
[5]基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究[D]. 陈美秋. 华东师范大学, 2014(05)
[6]基于粗糙集的Web文本KNN分类方法及在金融中的应用研究[D]. 王伟. 西南大学, 2013(02)
[7]面向信息检索的Web文本挖掘方法研究[D]. 文翰. 华南理工大学, 2012(05)
[8]Web文本观点挖掘及隐含情感倾向的研究[D]. 杨卉. 吉林大学, 2011(05)
[9]基于模糊集的Web文本最大支撑树聚类算法[J]. 毛太田,邹凯,毛静,周军. 现代情报, 2011(11)
[10]Web文本聚类与分类算法研究[D]. 刘星. 广西师范大学, 2011(04)

标签：分类器论文; 聚类论文; 特征提取论文; 贝叶斯分类器论文; 文本分类论文;

Web文本挖掘中特征提取算法的分析与改进

一、Web文本挖掘中特征提取算法的分析及改进（论文文献综述）

二、Web文本挖掘中特征提取算法的分析及改进（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、Web文本挖掘中特征提取算法的分析及改进（论文提纲范文）

（1）基于文本挖掘的家具用户潜在需求可视化研究（论文提纲范文）

（2）基于Web文本挖掘的中职电子商务专业课程设置分析与研究（论文提纲范文）

（3）Web文本分类关键技术研究与应用（论文提纲范文）

（4）Web文本挖掘技术研究及应用（论文提纲范文）

（5）基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究（论文提纲范文）

（6）基于粗糙集的Web文本KNN分类方法及在金融中的应用研究（论文提纲范文）

（7）面向信息检索的Web文本挖掘方法研究（论文提纲范文）

（8）Web文本观点挖掘及隐含情感倾向的研究（论文提纲范文）

（9）基于模糊集的Web文本最大支撑树聚类算法（论文提纲范文）

（10）Web文本聚类与分类算法研究（论文提纲范文）

四、Web文本挖掘中特征提取算法的分析及改进（论文参考文献）

猜你喜欢