一种快速提取中文文本中重复字符串的算法

一种快速提取中文文本中重复字符串的算法

一、一种在汉语文本中抽取重复字串的快速算法(论文文献综述)

徐豪杰[1](2020)在《基于未登录词识别的汉盲翻译系统研究》文中指出随着互联网信息的发展,盲人应摆脱传统盲文书籍的束缚,享受丰富多彩的信息世界。然而,目前汉字盲文的信息化处理程度较低,盲人能够接触到的阅读材料较少。为帮助盲人尽早实现信息无障碍获取,本文设计实现了一款带有未登录词自动识别功能的汉语盲文翻译系统,其中包含未登录词识别、中文分词连写、字音转换、拼音-ASCII码转换、盲文点序生成等模块,提供现行盲文和通用盲文两套翻译模式,额外支持解码标准BRF文件,可以帮助用户快捷方便地获取盲文文本,搭配使用盲文显示装置,大大扩展了盲人的信息获取渠道。本文主要包含以下部分工作:对盲文分词连写影响最大的是未登录词问题,结合独立词内部凝聚程度和外部自由程度,将改进PMI算法和最小邻接熵相结合,设计实现了基于改进PMI和最小邻接熵结合策略的未登录词识别算法,该方法在未登录词识别性能上有一定的提升。将识别得到的未登录词形成个性化用户词典,用于改进现有的Jieba分词系统,改进后的Jieba分词系统性能优于隐马尔科夫模型算法的分词系统。这证明了未登录词识别算法的有效性,且通过加载个性化用户词典的方式能够改善汉语盲文分词连写效果。利用第三方模块初步获取汉字的拼音字符串,对拼音字符串进行声母、韵母、声调的切分。分析总结盲文拼读体系和汉字拼音的区别,对5种发音情形设计了相应的拼音修正处理算法。对修正处理后的声母、韵母、声调分别匹配盲文ASCII码,最后将ASCII码转换为盲文点序。对设计的基于未登录词识别的汉盲翻译算法进行开发实现,整合统一各个功能,形成完整的基于未登录词识别的汉盲翻译系统。设计开发了相应的人机交互界面,方便用户使用。对汉盲翻译系统进行多维度测试,包括系统功能测试、汉盲翻译算法性能测试,以及翻译结果文件的应用测试。将本系统的翻译结果和中国盲文数字平台的翻译结果进行比对,验证该系统具有较高的翻译准确率。统计系统翻译转换时间,计算得出该系统具有较快的翻译转换速度,整体具备良好的实用性。经盲文专家校核,翻译结果文件在盲文显示设备上同样具有较好的实际表现。

孙水华[2](2019)在《中医针灸领域信息抽取关键技术研究》文中研究表明近年来,在国家政策的大力扶持下,大批老中医专家的临床疾病诊疗经验通过整理和总结被保存下来,出版了大量关于中医专家疾病诊疗经验的文献和着作。随着中医针灸领域电子文档的累积,由人工阅读来获取中医针灸知识不仅费时而且人工成本极高。如何利用自然语言处理技术,从大量非结构化中医文献资料中自动获取所蕴含的专业领域信息如术语、实体关系、事件等,具有重要的理论意义和应用价值。本文针对中医针灸领域文本的特点,深入研究中医针灸信息自动抽取的关键技术,主要开展了以下几个方面的研究工作:(1)针对中医针灸领域术语的构成特点,建立了一种基于种子集的领域术语抽取算法模型,该模型首先对中医针灸领域术语种子集进行有限次的迭代,生成中医针灸领域术语构件集;其次,以术语构件集为领域词典,采用最大向前匹配算法对中文针灸医学文献中的句子进行切分,并抽取候选术语;最后,采用术语过滤算法对候选术语进行过滤处理,筛选出中医针灸领域专业术语。以关键字集为种子集进行实验,术语抽取开式测试的F值达到77.29%。(2)针对中医针灸领域实体关系实例的语境,选择有效的词汇、语法和语义特征组合成特征模板,将实体关系实例向量化。采用支持向量机的机器学习方法训练中医针灸领域实体关系分类模型。实验结果表明,该模型对中医针灸领域实体关系抽取有很好的效果,DM、HM和DRM实体关系分类模型的F值分别达到了 93.25%、87.19%和84.57%。(3)从训练语料库中收集人工标注的触发词,构建中医针灸事件触发词词表,采用同义词林扩展该词表,基于扩展触发词词表识别中医针灸事件候选触发词,;针对中医针灸领域文字表达的特点,编写中医针灸事件候选触发词过滤规则。构造集词典匹配、规则过滤于一体的中医针灸事件触发词识别模型。实验结果表明,该模型具备了较好的触发词识别性能,治疗事件触发词识别的F值达到了 88.28%。将上述信息抽取研究成果应用于中医针灸领域知识库构建中,实现对中医针灸领域信息的规范化管理与存储,为中医针灸辅助教学、辅助诊疗及知识发现研究等具体应用提供数据支撑。

吴淙[3](2019)在《中文文本校对关键技术研究与应用》文中进行了进一步梳理随着微型计算机技术的发展,信息产生的速度飞速增长。传统文本工作基本上全部在计算机上进行。然而只要涉及到文本的领域,就难免存在文本错误的问题。传统人工校对的方式很难满足日益增加的文本校对需求,人们迫切的需要一种高速、可靠的自动文本校对技术。中文文本自动校对技术可以帮助人们校对各个领域中遇到的文本错误,包括政府、媒体发布的公告、新闻和学者投稿的学术论文、研究报告等文本资料,在文字识别和语音识别等其他自然语言处理任务上,也能发挥巨大的作用。综上,研究自动文本校对具有广泛的应用领域和实用价值。在深入调研了国内外文本校对相关研究的基础上,本文进行了以下三方面的研究:1.中文字词错误校对。在分析了前人研究的相关算法优缺点的基础上,提出一种基于LSTM和N-gram的k-最短路径模糊分词校对算法。该算法分为三个阶段:首先通过改进的模糊匹配算法,在词典中模糊匹配句子中的字串,获取可能的校对候选词集,构成词图;然后以Bigram概率作为词语间边的权重,求解词图的k条最短路径;最后采用Trigram和LSTM语言模型对k条句子重新排序,选择最优的一条句子作为最终校对结果。在SIGHAN2013数据集上,本算法的成绩超过了在相同数据集上测评的其它系统。2.中文语法错误校对。根据中文语法错误校对任务的特点,通过分析现有中文语法校对方法存在的问题,提出了一种基于语言模型和神经机器翻译的语法校对方法。该算法的核心是卷积序列到序列(Conv-seq2seq)模型。模型的训练过程中,通过正句-错句平行语料训练错句生成模型,人工构造错误句子,增加训练语料的规模。借鉴小语种翻译问题中效果显着的迁移学习方法,通过预训练的英语-汉语翻译模型的参数初始化语法校对模型,提升模型性能。在模型应用过程中,先将句子进行字词错误校对,再输入模型,最后将集束搜索的结果通过语言模型进行重新排序。该算法在NLPCC2018数据集上取得了超过其他校对系统的F0.5分值。3.采用轻量级web框架Flask作为主体,设计并实现了基于B/S架构的中文文本校对测试系统。系统包括知识获取模块、前端交互模块、预处理模块和自动校对模块四个部分,实现了中文文本的字词错误校对、语法错误校对、标点符号和数字校对等功能。

王林坪[4](2019)在《基于统计特征和规则联合的中文文本校对算法研究》文中进行了进一步梳理文字在当今社会中具有不容忽视的地位与作用。文字以电子刊物,报纸,以及社交平台等方式在人群中进行传递,给人们的信息生活带来了便利,同时这些庞大的信息也令人眼花缭乱。在这些海量文字中,错误的存在是非常普遍的,传统人工校对效率低、强度大、周期长等问题,显然不能满足文本校对的需求,因此,文本自动校对成为自然语言信息处理的关键技术研究热点。中文文本自动校对,主要分为两个步骤:文本检错和文本校对。经典的文本检错一般是以文本分词为基础的,有文本散串检错和文本互信息检错等方法,但中文文本分词会影响对文本的检错正确率;另外,常用的文本校对方法有N-gram模型,Markov模型等,但需要大规模语料的支撑。一般而言,文本校对与文本检错都是分开进行的,这样也增大了校对时间的开销。本文针对以上问题提出对文本形近字错误和文本非词错误的改进方法,并采用了文本检错与校对同时进行的校对方法。首先,针对形近字错误的检测与校对需要利用最小编辑距离法和笔形文字相似度法,构建文本形近字表,然后,再利用文本形近字表构建文本形近字候选矩阵,根据文本特征将相邻向量组合成词,得到文本的候选词;提出了基于上下语境的二元模型,用此模型计算出在文本中支持度最高的词组,得到文本的最佳候选词路径下的输出文本。其次,针对利用语言知识库的文本校对,即文本非词校对。本文的非词校对分为两个部分,第一部分是长词校对,长词的校对主要用模糊匹配的算法,对文本中的长词错误进行定位,再利用词库对文本进行校对;在这个过程中还用到了字典树索引来提高文本的检索速度;第二部分是文本中重字的校对,首先对文本重字和叠词进行了定义,然后将叠词和重字区分,利用叠词库将叠词过滤,最后再对文本中的错误进行定位以及校对。最后本文将这两种文本校对的方法,进行了综合和编程实现。通过真实数据测试得出了校对文本的召回率,准确率等指标,表明提出的方法具有良好的效果。

才智杰[5](2018)在《藏文词向量表示关键技术研究》文中进行了进一步梳理语言单元的向量表示是机器学习的基础性工作,其目标是以优化的向量表示语言单元,以便计算机能够更好地理解自然语言。近年来,随着神经网络技术的发展,向量表示在自然语言处理领域发挥了重要的作用。英、汉等语言的词、句子和文档表示取得了丰硕成果,并得到了广泛应用。藏文语言单元的向量表示技术处于探索和起步阶段,其研究对藏语语言的特征分析以及用深度学习技术处理藏语言具有重要的理论意义和广泛的应用价值。本文借鉴英、汉等语言的词向量表示技术,结合藏文的特点,从藏文字构件分解、藏文文本分词、藏文词向量评测和藏文词向量表示等四个方面研究了藏文词向量表示的关键技术。主要工作包括:(1)藏文字构件分解构件是藏文的最小组成单元,蕴含着丰富的词义信息,而藏文字输入到计算机中是一个整体。若要获取构件的词义信息,需要将整体藏文字分解为构件。本文归纳总结了藏文字的结构及构字原则,并对藏文字形进行分类。在此基础上,设计了藏文字构件分解模型和算法,以藏文字形分布统计为例,验证了字构件分解算法的有效性,得到了藏文字形的一般性分布规律。(2)藏文文本分词词是自然语言处理中最基本的处理单元,藏文文本是字的序列,词和词之间没有分隔标记,因而需要文本分词。本文通过分析藏文文本分词的现状,针对藏文文本分词中存在的主要问题,提出了基于规则的句分块、块切词的分词方案。句分块方面,设计了基于临界库的藏文句分块算法。块切词方面,分析了主词典库的构造方法,并设计了索引查询算法、紧缩词识别还原算法、多策略紧缩格识别算法、未登录词识别的一揽子算法和歧义消解的局部高词频优先算法。(3)藏文词向量评测词向量评测的目标是评价词向量模型的性能,包括内部任务评测和外部任务评测。内部任务评测通过词相似度、相关性和类比评测集等评价向量模型的性能,是一种广泛使用的词向量评测方式。由于藏文词向量研究处于探索起步阶段,还没有用于评价藏文词向量性能的评测集。本文借鉴英、汉文词向量评测集构建方法,设计了藏文词向量相似度和相关性任务评测集构建方案,依据此方案建立了藏文词相似度评测集TWordSim215和相关性评测集TWordRe]215,并验证了其有效性。(4)藏文词向量表示传统神经网络中,词作为原子对象建立基于上下文信息的词向量表示。融合子词级别的信息能更好地捕捉词义,本文结合藏文的特点,提出了基于构件的藏文向量模型、融合构件和字信息的藏文词向量表示模型。基于构件的藏文向量模型以字、词的构件信息建立向量,能够较好地揭示构件的位置特征及添加规则,在藏文字拼写检查上取得了良好的效果。融合构件和字信息的藏文词向量表示模型,将构件和字及其位置信息融入到词向量表示中,在性能上比传统方法有了显着的提升。

朱朋海[6](2018)在《基于文档语义识别的石油领域本体构建》文中研究表明在信息技术不断发展的今天,石油领域相关活动的信息化程度越来越高,油田信息系统对各种知识库的应用日益频繁。石油领域内部专业纷繁复杂,新的技术及术语不断更新,信息没有经过结构化表示,这些问题影响了石油领域的知识表示、信息共享、软件复用和高效管理。最经典、应用最广泛的知识表示方法就是本体,通过从现有信息源中获取相应的文本文件进行本体学习,以手工方式或者半自动的方式构建相关领域的本体。石油领域本体的构建目前普遍存在开发系统相互独立、数据编码规则不统一、各种系统软件重复开发等问题。针对以上问题,提出一种基于文档语义识别的石油领域本体构建方法,主要分为以下几个内容:文档分词是构建石油领域本体的首要任务,本文针对石油领域文档专业术语和组合词多的特点,通过引入术语集,在隐马尔科夫分词模型的基础上,采用基于自适应隐马尔科夫分词模型。以自适应隐马尔科夫分词模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现石油领域专业术语和组合词的精确识别。其次,在文档检索的基础上构建石油领域语料库,进行概念抽取,通过分析现有的概念抽取方法,最终确定了基于TF-IDF和石油词典的概念抽取混合策略,在不同文档数量下对三种方法进行了对比试验,实验证明本文中采用的混合的方法在抽取准确性上得到了有效的提高。然后对抽取到的石油领域内的相关概念进行语义关系识别,根据连续词袋(CBOW)模型将概念表示成词向量的形式,利用改进词向量训练算法对词向量进行扩展强化训练,使词向量包含上下文语义信息。将词向量进行特征计算,导入到支持向量机(SVM)训练SVM分类器,最终上下义、总分、类义关系将识别出来。最后利用抽取的概念与概念间的关系进行本体的自动化构建,分析现有本体学习工具构建本文的本体学习系统,利用概率本体模型与数据驱动方法实现中文本体的自动导出,本文主要使用OWL语言,通过将导出的OWL文件导入到protégé平台上,经过进一步的反馈修正,最终实现本体的可视化表示。

江会星[7](2012)在《汉语命名实体识别研究》文中指出命名实体识别是指识别语言中人名、地名、组织机构名等命名实体。汉语命名实体识别作为汉语切分任务的延续,是中文信息处理领域的一个基础任务,被广泛且成功地应用于信息抽取、信息检索、信息推荐和机器翻译等任务中。随着对命名实体识别技术的需求不断提高,当前命名实体识别技术主要面临以下三个新的挑战:(1)应用平台移动化:命名实体识别的应用环境从传统网络服务器、PC机等平台,扩展到了新兴的硬件受限的移动终端,这就要求命名实体识别技术在保持高性能的同时,降低模型复杂度;(2)数据规模海量化:随着网络信息的快速增长,新的命名实体不断涌现,这就要求命名实体识别技术能有效利用不断递增的大规模数据集;(3)实体类型多样化:已经从人名、地名、组织机构名等一般性实体,扩展到了电影名、图书名、音乐名等出版物类实体,品牌名、产品名、产品型号等商品类实体,而这些新的实体类型大都缺少标准的训练数据。本论文针对以上命名实体识别技术面临的挑战,从多个方面展开对命名实体识别的研究。论文的主要工作和研究成果如下:(1)针对移动终端硬件受限情况,同时兼顾性能的要求,提出了结合知识的二阶隐马尔可夫模型及高效的解码方法,将其应用于手机短消息中的实体识别,并构建了手机应用程序推荐系统。实验表明,通过扩展语言单元和利用更多的知识,大幅提高了模型性能,同时由于采用了新的二阶后项A*解码算法,大幅降低了模型复杂度,使得其在硬件受限条件下表现出满意的性能。(2)针对大规模网络数据上多类型实体的识别,从少量有标记数据出发,利用主动学习训练基于条件随机场模型的实体标注器,而后利用标注器在大数据集上抽取命名实体自动构建命名实体资源库;针对不同类型的实体在互联网上的分布情况不同,将实体分为两大类,并分别设计了两种不同的基于实体资源库的实体识别模型。实验表明,高质量的实体资源库能有效弥补统计模型难以习得所有命名实体模式的缺陷,显着提高了命名实体识别的性能;同时,改进的主动学习效用函数,大幅降低了人工标注数据的工作量。(3)将命名实体识别系统应用于网页意图分析,采用排序学习模型实现网页意图的抽取。实验表明,命名实体作为具有特定意义的实体,与网页关键词相比,意义完整性和专指性强,更能表征网页的中心内容,将命名实体识别技术应用于网页意图分析,能有效提升系统的性能。

岑咏华[8](2010)在《面向领域中文文本信息的潜在语义分析研究》文中认为随着计算机和网络技术的不断发展,以自然语言为特征的领域文本信息不断喷涌,这些文本信息是进行科学研究、企业竞争情报研究的宝贵知识源泉,如何处理和利用这些文本型数据至关重要。中文文本信息在这些年亦是飞速增长。然而较之于那些通过空格分隔语义单元的语种信息来说,中文文本信息缺乏在计算机化信息处理方面的天然便利,处理工作困难重重。这其中首先要解决的问题是如何对中文文本信息进行预处理,以正确地识别和理解中文文本信息中的语义单元(即词语单元),包括如何进行语义单元的自动切分(即分词),如何对切分的歧义进行有效消解,如何智能化地识别和提取文本中所包含的新的命名实体、概念、术语等。正是因为这些问题的存在,传统中文文本信息处理对文本中所包含的内容特征的识别和理解能力不足。再者,现有文本信息处理的研究与应用主要基于“文档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些模型中广泛使用。尽管这个假设使得信息组织、检索和处理模型的设计变得简单,但语言中词语间的严格独立性显然不成立。更具体地,自然语言中存在某些内在的、潜在的语义结构,这种语义结构支配着词语的使用、出现和文档的构成。文档的语义是由词语组成的,而词语又要放到文档中去理解,其中存在着一种“词语-文档”双重概率关系。文档可被视为以词语为维度的空间中的点,一个包含语义的文档出现在这种空间中,其分布绝对不是随机的,而是服从某种语义结构;词语也可视为以文档为维度的空间中的点,一个词语出现在某个文档中也同其它出现在该文档中的词语有密切的关系,其分布同样服从某种语义结构。然而,因为自然语言中词语使用的不一致性以及文档主题的不确定性等因素的存在,支配自然语言中词语使用和文档构成的语义结构在一定程度上被“噪音”所干扰和掩藏。传统信息处理方式忽略了这种语义结构的存在,因而无法更有效地形成对文档、词语等知识单元的正确表示。更为理想的信息处理方式是考虑文本信息中所包含的语义单元(特征词语)之间的语义关系,在此基础上实现对文档、概念本身、作者、机构等知识单元的语义表示和信息处理。这里特征词语之间的语义关联,可以是形式化的关联,如包含、隶属、等同、同义、反义等,抑或是本体(Ontology)意义上的概念的属性、函数、公理、实例等语义特征,还可以是超乎这种形式化、很难准确定性却又客观存在的潜在关联。而不管是哪一种,都是智能化领域文本信息处理应该去揭示的。进一步地,传统文本信息处理的高维稀疏文档表示模型也为大规模特定领域的文本信息检索、聚类、分类、相似测度等典型应用工作的效率、准确率和召回率都提出了严重的挑战。为解决上述问题,本论文试图研究一套全流程、自动化的机制(包括理论模型和方法体系)来解决传统面向领域的文本信息处理和文本挖掘的语义缺失问题。具体的,论文的主要研究工作包括以下几个部分:1)中文领域文本粗分词与词性标注主要研究了面向中文领域文本信息深度处理和潜在语义分析的粗分词与词性标注等预处理的方法:(1)首先基于对中科院计算所ICTCLAS分词系统的词典结构和最短路径算法的改进,研究并实现一种有效的中文粗分词系统;(2)在此基础上,基于隐性马尔科夫模型,针对粗分词结果进行词性标注,并根据各种不同粗分词结果的词性标注概率优选最佳词语切分方案。2)中文领域术语的边界标注与识别提取分析面向中文文本信息处理的领域术语界定、识别和提取方面的实际需求和特征,在比较众多模型(如隐性马尔科夫模型、最大熵模型、条件随机场模型等)的基础上,研究和探索了一套基于条件随机场模型的领域概念识别和提取方案,根据领域概念的位置特征、语法特征(主要为词性特征)、独立成词概率概率、语境概率特征、领域语言规则特征等选定模型所需的条件特征集合,构造各特征的势函数,确定各特征的权重,设计模型的算法,实现了基于条件随机场模型的领域中文术语识别和提取系统。3)面向潜在语义分析的术语权重模型研究主要研究了两个方面的问题:(1)基于术语区域分类的领域术语甄选:在领域文本信息预处理的基础上,借助于若干对比领域语料,测度术语的领域相关性、领域间一致性、领域内部一致性和术语新奇性,进而将术语划分到通用词语、领域一般术语、主题术语、新奇术语等四个术语区域中,基于分类思想对具有特定领域意义的术语进行甄选。(2)术语文档权重模型研究:在领域术语甄选的基础,研究一种包括术语局部权重、术语全局权重,文档全局权重及归一除数等四个部分的术语综合权重方案,测度术语在不同文档中的权重进而对文档予以正确表示,构建术语文档权重矩阵,为面向领域文本信息处理的潜在语义分析或主题加权采样提供支撑。4)基于矩阵分解的潜在语义分析研究主要研究了以下几种基于矩阵分解的潜在语义分析方法:(1)基于矩阵分解的潜在语义分析的基本方法:包括基于奇异值分解(SVD)的LSA的基本思想、等价特征值问题、Lanczos迭代算法及其理论解释;基于半离散分解(SDD)的LSA的基本思想,整数规划原理以及实现SDD的迭代方法。(2)基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法:作为本课题的创新研究之一,提出并研究一种基于Σ调整的潜在语义分析方法——μ-SVD/SDD方法,通过有监督的机器学习方法,获取SVD/SDD分解结果中对角矩阵Σ的分配调整向量,以改进传统基于SVD/SDD方法将Σ的对角元素作为潜在维度的重要性时对对角元素向量进行同指数分配的思想缺陷和精度不足问题。(3)基于稀疏约束的非负矩阵分解(NMF)方法:作为本课题的探索性研究之一,本部分在对NMF的基本思想、损失函数、乘性迭代规则等基本问题的研究基础上,考虑领域文本信息处理对于矩阵分解结果的稀疏性要求,研究了稀疏约束下的NMF分解算法。5)基于主题模型的潜在语义分析研究作为本论文的主要创新点之一,本部分将在对概率潜在语义分析模型、潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型、基于中式餐厅处理分布的层次主题模型等的原理、模型学习、瓶颈问题的理论分析以及对潜在狄利克雷分配模型、相关主题模型、弹珠机分配模型等应用于潜在语义分析的实验分析基础上,提出并研究一种基于加权采样的层次主题模型(WS-HTM)的理论框架,以解决已有主题模型在采样和学习效率、主题层次路径、精度等方面的不足。6)潜在语义分析在领域中文文本信息处理的应用研究对基于潜在语义分析的领域文本信息处理的典型应用问题进行了方法设计,包括:设计了面向潜在语义分析的大规模稀疏矩阵的文件存储和内存装载机制;重点研究了基于压缩编码过滤和语义倒排的领域文本信息检索方法;阐述了基于潜在语义分析的领域知识单元关联挖掘的基本方案;研究了一种基于二分k-Means的高效领域文本信息聚类方法,分析了潜在语义(主题)维度与聚类意义上的类目之间的等价性问题;研究了基于潜在语义分析的领域文本信息可视化的途径并重点就基于力导算法的领域知识单元网络化语义关联自适应可视化进行了方法设计。论文在进行理论和方法研究的同时,通过实验和对比,对论文所研究理论和方法进行了实证分析,相关实验分析结果表明,论文在领域中文文本信息处理的每一个流程上所研究的方法和理论较之于传统的方法,具有一定的科学性和实践可参考性。

张海军[9](2011)在《基于大规模语料的中文新词识别技术研究》文中进行了进一步梳理中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显着地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。

程绪文[10](2010)在《面向交互式动画创作的儿童故事情节抽取》文中进行了进一步梳理传统动画制作过程包括创作文学剧本、设计角色造型、创作故事脚本、绘制背景、绘制关键帧、添加中间画、测试、描线、上色、检查、拍摄、后期制作等步骤,其间有大量繁琐的手工劳动。交互式动画创作拟通过研究动画自动生成与手工艺术创作的无缝连接,实现具有高效性和实用性的动画半自动生成技术体系和实用系统。自动故事情节抽取是交互式动画创作系统的重要环节。主要研究目标是将自然语言方式描述的故事文本,自动或半自动地转换为结构化的故事场景信息,并提供参考性的导演分镜头剧本,从而使从原始故事到动画剧本、动画影片的创作变得高效和便捷。本文的主要研究内容是儿童故事情节抽取,这是交互式高效动画创作技术与系统研究的一部分。其主要工作是运用自然语言处理技术从儿童故事文本中提取动画创作所需的故事要素与情节信息,用于辅助导演分镜头剧本创作以及交互式的动画创作。这些信息包括:角色信息、道具信息、场景信息等。情节抽取工作的结果将被用于导演分镜头剧本半自动构造、场景和角色建模、角色动画等各个阶段,其应用又与动画素材库的构建与管理相关。本文的创新性工作主要有以下方面:1.故事情节抽取的基础在于对于儿童故事本身的研究与分析,作者分析了大量儿童故事文本实例,总结了故事情节信息的特点、类型,根据故事情节抽取任务的具体特点及需求提出了抽取算法。2.提出一种基于故事叙述的形式化剧本模型,该模型具有两个层面:一是叙述层面,通过自然语言处理技术将儿童故事分析为形式化叙述;二是剧本层面,通过映射模型将形式化叙述形式组织为形式化剧本。

二、一种在汉语文本中抽取重复字串的快速算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种在汉语文本中抽取重复字串的快速算法(论文提纲范文)

(1)基于未登录词识别的汉盲翻译系统研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 论文研究的背景和意义
    1.2 汉语盲文体系介绍
    1.3 国内外研究现状
        1.3.1 汉盲翻译系统研究现状
        1.3.2 未登录词识别研究现状
    1.4 论文研究的主要内容
        1.4.1 论文研究的重难点
        1.4.2 论文研究的创新点
    1.5 论文的组织结构安排
第二章 基于未登录词识别的分词算法设计
    2.1 引言
    2.2 结合策略的未登录词识别算法
        2.2.1 独立词成词维度设计
        2.2.2 未登录词识别算法流程
    2.3 未登录词自动识别实验
        2.3.1 实验数据
        2.3.2 文本预处理和识别结果示例
        2.3.3 未登录词识别算法性能评测
    2.4 文本的分词处理算法
        2.4.1 现有分词算法分析
        2.4.2 改进Jieba分词系统的处理算法
        2.4.3 改进Jieba分词系统的性能评测
    2.5 本章小结
第三章 汉盲翻译算法设计
    3.1 引言
    3.2 面向汉盲翻译的汉字文本拼音化
        3.2.1 汉字拼音转换
        3.2.2 汉字拼音字符串的切分算法设计
        3.2.3 面向汉盲翻译的拼音修正算法设计
    3.3 盲文ASCII码化
        3.3.1 拼音的盲文ASCII码化
        3.3.2 特殊符号的盲文ASCII码化
    3.4 现行盲文和通用盲文各阶段的处理区别
    3.5 盲文点序化
    3.6 本章小节
第四章 基于未登录词识别的汉盲翻译系统实现
    4.1 引言
    4.2 系统开发环境
    4.3 基于未登录词识别的汉盲翻译系统整体分析
        4.3.1 基于未登录词识别的汉盲翻译系统整体架构
        4.3.2 基于未登录词识别的汉盲翻译系统模块分析
    4.4 基于未登录词识别的汉盲翻译系统实现
        4.4.1 未登录词识别的实现步骤
        4.4.2 汉盲翻译的实现框架
    4.5 基于未登录词识别的汉盲翻译系统功能整合
    4.6 本章小结
第五章 汉盲翻译系统的整体测试
    5.1 引言
    5.2 汉盲翻译系统功能测试
        5.2.1 汉盲翻译系统的人机交互框架
        5.2.2 汉盲翻译系统的界面黑盒测试
        5.2.3 汉盲翻译系统的异常字符处理测试
    5.3 汉盲翻译系统性能测试
        5.3.1 实验平台
        5.3.2 实验数据
        5.3.3 实验过程
        5.3.4 实验结果和分析
    5.4 汉盲翻译结果的应用测试
        5.4.1 翻译结果文件应用原理
        5.4.2 翻译结果文件应用测试
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
附录
    A 汉语拼音字母表
    B 汉语盲文声母表
    C 汉语盲文韵母表
    D 汉语盲文自成音节表
    E 拼音声调和盲文ASCII码对应关系
    F 数字和盲文ASCII码对应关系
    G 英文字母和盲文ASCII码对应关系
    H 标点符号和盲文ASCII码对应关系
    I 汉语盲文ASCII码和盲文点序对照表
攻读硕士学位期间的研究成果和项目参与情况
    发表论文
    申请专利
    参与项目
    获奖竞赛
致谢

(2)中医针灸领域信息抽取关键技术研究(论文提纲范文)

摘要
ABSTRACT
主要符号表
1 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 论文研究的意义
    1.2 国内外研究现状
        1.2.1 领域术语抽取
        1.2.2 实体关系抽取
        1.2.3 事件抽取
        1.2.4 问题分析
    1.3 研究内容
    1.4 论文的组织结构
2 中医针灸领域语料库构建
    2.1 术语抽取实验语料介绍
        2.1.1 术语及其分类
        2.1.2 术语种子集构建
        2.1.3 测试语料集构建
    2.2 实体关系语料库构建
        2.2.1 实体及实体关系类型定义
        2.2.2 实体关系标注语料集构建流程
    2.3 事件标注语料库构建
        2.3.1 事件类型定义
        2.3.2 事件相关概念
        2.3.3 人工标注事件实例
    2.4 本章小结
3 中医针灸术语识别算法模型
    3.1 术语抽取系统的架构
    3.2 领域术语抽取算法模型
        3.2.1 术语构件集生成算法
        3.2.2 候选术语抽取算法
        3.2.3 候选术语过滤规则及算法
        3.2.4 利用分词信息修正术语边界
    3.3 系统性能评价
        3.3.1 实验语料及评测指标
        3.3.2 实验结果分析
    3.4 与其他方法的比较
    3.5 本章小结
4 中医针灸实体关系抽取模型
    4.1 支持向量机
    4.2 基于SVM的实体关系抽取
        4.2.1 实体关系特征模板构造
        4.2.2 实体关系实例向量化
        4.2.3 实体关系分类模型生成
    4.3 实验及结果分析
    4.4 本章小结
5 中医针灸事件触发词抽取模型
    5.1 事件触发词抽取模型架构
    5.2 算法模型
        5.2.1 语料预处理
        5.2.2 候选触发词抽取
        5.2.3 触发词过滤规则
    5.3 实验及结果分析
    5.4 本章小结
6 中医针灸领域知识库建设构想
    6.1 知识库系统平台架构设计
    6.2 中医针灸知识集成
        6.2.1 数据源数据样例
        6.2.2 中医针灸知识抽取
        6.2.3 中医针灸知识管理
    6.3 中医针灸知识库应用
        6.3.1 辅助教学
        6.3.2 辅助诊疗
        6.3.3 知识发现研究
    6.4 本章小结
7 结论与展望
    7.1 结论
    7.2 创新点
    7.3 展望
参考文献
攻读博士学位期间科研项目及科研成果
致谢
作者简介

(3)中文文本校对关键技术研究与应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 查错方法
        1.2.2 纠错方法
        1.2.3 目前市面上的中文校对产品
    1.3 主要研究内容及目的
        1.3.1 主要研究内容
    1.4 论文组织结构
第二章 相关理论与技术研究
    2.1 语言模型
        2.1.1 N-gram语言模型
        2.1.2 神经语言模型
        2.1.3 LSTM神经网络
    2.2 seq2seq模型
        2.2.1 编码器
        2.2.2 解码器
        2.2.3 Attention机制
    2.3 分词技术
        2.3.1 最短路径分词
        2.3.2 N-最短路径分词
        2.3.3 条件随机场(CRF)分词
    2.4 本章小结
第三章 中文文本字词错误校对方法
    3.1 中文文本字词错误特征
        3.1.1 错误来源
        3.1.2 错误分类
        3.1.3 错误分布
    3.2 中文文本字词错误校对存在问题
    3.3 基于LSTM和N-gram的k-最短路径模糊分词校对算法
        3.3.1 准备工作
        3.3.2 模糊词图构建
        3.3.3 基于Bigram的k-最短路径求解
        3.3.4 基于Trigram和LSTM语言模型的句子重排序
    3.4 实验与分析
        3.4.1 实验数据
        3.4.2 评测指标
        3.4.3 实验结果
    3.5 结论
第四章 基于seq2seq的中文语法错误校对方法
    4.1 seq2seq语法校对存在问题
    4.2 基于Conv-seq2seq模型的中文语法错误校对算法
        4.2.1 Conv-seq2seq模型
        4.2.2 预处理
        4.2.3 模型训练
        4.2.4 模型应用
    4.3 实验与分析
        4.3.1 实验数据
        4.3.2 评测指标
        4.3.3 实验过程
        4.3.4 实验结果
    4.4 结论
第五章 校对测试系统设计与实现
    5.1 校对测试系统简介
        5.1.1 开发环境
        5.1.2 系统结构
    5.2 校对知识获取模块设计与实现
        5.2.1 新词发现
        5.2.2 规则总结
    5.3 前端交互模块设计与实现
        5.3.1 在线校对子模块
        5.3.2 网页校对子模块
        5.3.3 上传文件校对子模块
    5.4 预处理模块设计与实现
    5.5 自动校对模块设计与实现
        5.5.1 字词错误校对子模块
        5.5.2 语法错误校对子模块
        5.5.3 标点符号及数字校对子模块
    5.6 系统功能展示
        5.6.1 系统配置
        5.6.2 在线校对
        5.6.3 网页校对
        5.6.4 上传文件校对
    5.7 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 未来展望
致谢
参考文献
攻读硕士期间取得的研究成果

(4)基于统计特征和规则联合的中文文本校对算法研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 中文文本校对的研究现状
        1.2.3 中英文校对难点比较
    1.3 本文的主要工作及创新点
    1.4 本文的主要结构
    1.5 本章小结
第二章 中文文本校对基础方法和模型研究
    2.1 校对的总体框架提出
    2.2 语言模型
        2.2.1 常用语言模型
        2.2.2 数据平滑
    2.3 基于分词技术下的文本检错算法
        2.3.1 分词技术
        2.3.2 基于分词的检错算法
    2.4 语料库
        2.4.1 语料库概述
        2.4.2 校对基础准备
    2.5 建立基于上下语境的N-gram中文校对模型
    2.6 本章小结
第三章 基于统计的形近字检错与校对算法研究
    3.1 基于上下语境的N-gram汉语文本校对模型的总体框架
    3.2 错别字候选字的构造
    3.3 文本校对问题形式化描述
    3.4 文本形近字的检错与校对
        3.4.1 形近字错误特性
        3.4.2 形近字矩阵的建立
        3.4.3 基于文本特征和上下语境的校对
    3.5 实验结果与分析
        3.5.1 实验数据与评测指标
        3.5.2 形近字错别字检错结果与分析
        3.5.3 形近字错别字校对结果与分析
    3.6 本章小结
第四章 基于错误知识库的校对算法研究
    4.1 中文构词错误
    4.2 模糊匹配算法
    4.3 中文构词错误的校对
        4.3.1 长词与易混淆词校对
        4.3.2 文本重字校对
    4.4 实验结果与分析
        4.4.1 实验数据与评测指标
        4.4.2 校对效果与分析
    4.5 本章小结
第五章 综合实验分析
    5.1 校对流程和整体框架
    5.2 举例测试
    5.3 文本综合性能测试
    5.4 本章小结
第六章 总结与展望
    6.1 本文总结
    6.2 展望
致谢
参考文献
附录A:攻读硕士学位期间参与项目及科研成果
附录B:核心程序源代码和实验数据

(5)藏文词向量表示关键技术研究(论文提纲范文)

摘要
Abstract
缩略语目录
第一章 绪论
    1.1 词向量表示概述
    1.2 词向量表示技术
        1.2.1 基于矩阵的分布表示技术
        1.2.2 基于聚类的分布表示技术
        1.2.3 基于神经网络的词向量表示技术
        1.2.4 词向量表示技术对比分析
    1.3 词向量的评价方法
    1.4 藏文词向量表示背景
        1.4.1 藏文词向量表示的意义
        1.4.2 藏文词向量表示现状
    1.5 论文组织结构
第二章 藏文字构件分解
    2.1 藏文字概述
        2.1.1 藏文字结构
        2.1.2 藏文构字原则
        2.1.3 藏文字形分类
    2.2 藏文字构件分解方法
        2.2.1 藏文字构件分解模型
        2.2.2 粗粒度字形的构件分解算法
        2.2.3 细粒度字形的构件分解算法
    2.3 藏文字形分布统计
    2.4 本章小结
第三章 藏文文本分词
    3.1 藏文分词
        3.1.1 分词概述
        3.1.2 藏文分词研究现状
    3.2 藏文分词策略
    3.3 藏文分词算法
        3.3.1 临界库及句分块算法
        3.3.2 主词典库及索引查询算法
        3.3.3 紧缩词识别算法
        3.3.4 未登录词识别及歧义消解
    3.4 本章小结
第四章 藏文词向量评测
    4.1 词向量评测集构建现状
    4.2 藏文词向量评测集构建
    4.3 藏文词向量评测方法
        4.3.1 藏文词向量评测过程
        4.3.2 藏文词向量评测实验
    4.4 本章小结
第五章 藏文词向量表示
    5.1 基于构件的藏文词向量表示
        5.1.1 基于构件的藏文字向量表示模型
        5.1.2 基于规则约束的藏文字向量模型
        5.1.3 基于构件的藏文词向量表示模型
        5.1.4 基于VMTTRC的藏文字拼写检查
    5.2 融合构件和字信息的藏文词向量表示
        5.2.1 融合构件和字信息的藏文词向量表示模型
        5.2.2 实验及数据分析
    5.3 本章小结
第六章 总结与展望
参考文献
致谢
个人简历
攻读博士学位期间研究成果
    1.论文目录
    2.软件着作权登记目录
    3.科研项目目录
    4.获奖目录

(6)基于文档语义识别的石油领域本体构建(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
        1.2.1 文档分词
        1.2.2 语义关系识别
        1.2.3 石油领域本体
    1.3 面临的主要问题及解决思路
        1.3.1 面临的主要问题
        1.3.2 解决思路
    1.4 组织结构
第二章 相关技术介绍
    2.1 文档分词
        2.1.1 基于词典的分词算法
        2.1.2 基于统计的分词算法
        2.1.3 基于理解的分词算法
    2.2 语义关系识别
        2.2.1 基于统计的文本语义分析
        2.2.2 基于语义学理论的文本语义分析
    2.3 本体构建
        2.3.1 领域本体构建遵循的原则
        2.3.2 本体的构建工程思想
        2.3.3 构建领域本体的步骤
第三章 石油领域本体构建
    3.1 文档分词
        3.1.1 文档分词预处理
        3.1.2 改进的自适应隐马尔科夫分词
    3.2 语义关系识别方法
        3.2.1 基于混合策略的领域概念抽取算法
        3.2.2 CBOW-SVM语义关系自动识别算法
    3.3 本体的构建
        3.3.1 本体的概述
        3.3.2 本体描述语言
        3.3.3 本体构建的系统结构分析
        3.3.4 本体合并策略
    3.4 本章小结
第四章 石油领域本体构建原型系统实现及结果分析
    4.1 石油领域本体构建原型系统简介
        4.1.1 系统主要开发工具及实验环境
        4.1.2 原型系统的实现流程
    4.2 实验结果分析
        4.2.1 分词结果及分析
        4.2.2 领域概念抽取结果
        4.2.3 语义关系识别结果及分析
        4.2.4 本体构建结果
    4.3 本章小结
总结与展望
    工作总结
    论文创新点
    不足与展望
参考文献
攻读硕士学位期间取得的学术成果
致谢

(7)汉语命名实体识别研究(论文提纲范文)

摘要
ABSTRACT
目录
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 命名实体定义及分析
        1.2.2 相关国际评测
        1.2.3 前人工作
    1.3 研究内容及全文组织
第二章 基础知识
    2.1 隐马尔可夫模型
    2.2 主动学习
    2.3 条件随机场
    2.4 分类模型
第三章 基于HMM的命名实体识别
    3.1 二阶HMM模型及其解码
        3.1.1 二阶Viterbi解码算法
        3.1.2 二阶后向A~*解码算法
    3.2 HMM模型中的知识利用
        3.2.1 特征表示
        3.2.2 在HMM模型中引入特征信息
        3.2.3 特征选择
    3.3 实验及讨论
    3.4 基于手机短信分析的手机应用程序推荐
    3.5 本章小结
第四章 基于主动学习的NE资源库构建
    4.1 主动学习
    4.2 命名实体选择方法
    4.3 互联网中命名实体分布的一类特性
    4.4 人名实体资源库构建
        4.4.1 种子语料生成
        4.4.2 AL迭代实验
        4.4.3 资源库生成
    4.5 影视类命名实体资源库构建
        4.5.1 种子语料生成
        4.5.2 AL迭代实验
        4.5.3 资源库生成
    4.6 其它类命名实体库的构建
    4.7 本章小结
第五章 基于NE资源的命名实体识别
    5.1 基于资源的人名实体识别
        5.1.1 人名识别子系统
        5.1.2 人名识别规则集
        5.1.3 实验及讨论
    5.2 基于资源的影视类实体识别
        5.2.1 NER分类方法
        5.2.2 特征选择及权值计算
        5.2.3 实验及讨论
    5.3 基于资源的其它实体识别
    5.4 基于资源库的命名实体识别系统
    5.5 本章小结
第六章 命名实体在网页意图识别中的应用
    6.1 相关工作介绍
        6.1.1 关键词抽取
        6.1.2 Ranking SVM
        6.1.3 评测方法
    6.2 特征选择
    6.3 实验及讨论
    6.4 网页意图识别系统
    6.5 本章小结
第七章 总结及展望
    7.1 工作总结
    7.2 展望
参考文献
附1 新词发现
附2 实体资源库
附3 CRF模板
致谢
攻读博士学位其间发表论文

(8)面向领域中文文本信息的潜在语义分析研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究问题的引出
    1.2 研究意义和目标
    1.3 论文研究框架与内容
第2章 国内外研究现状综述
    2.1 中文文本信息处理
    2.2 中文词语切分预处理
    2.3 中文领域术语的识别与提取
        2.3.1 基于语言规则的术语识别与提取
        2.3.2 基于统计的术语识别与提取
        2.3.3 基于机器学习的术语识别与提取
        2.3.4 中文领域术语识别与提取方法总结
    2.4 形式化规范语义知识库构建
    2.5 潜在语义或主题结构挖掘
        2.5.1 基于词语共现的浅层语义分析
        2.5.2 基于矩阵分解的潜在语义分析
        2.5.3 基于主题模型的潜在语义分析
    2.6 总结
第3章 领域中文文本粗分词与词性标注
    3.1 基于多重哈希和改进最短路径算法的中文粗分词方案
        3.1.1 多重哈希结构词典设计
        3.1.2 全切分与全切分有向图构建
        3.1.3 基于全切分有向图的改进K-最短路径搜索
        3.1.4 系统实验与结果分析
    3.2 基于隐马尔科夫模型的粗切分语义单元的词性标注
        3.2.1 隐马尔科夫模型概述
        3.2.2 基于隐马尔科夫模型的词性标注系统的总体框架
        3.2.3 模型参数训练
        3.2.4 词性标注
    3.3 本章小结
第4章 中文领域术语的边界标注与识别提取
    4.1 条件随机场(CRF)模型原理
        4.1.1 基本思想
        4.1.2 特征选择
        4.1.3 模型训练
    4.2 基于条件随机场的中文领域术语识别与提取
        4.2.1 系统总体框架设计
        4.2.2 预处理与原始特征赋值
        4.2.3 特征函数设计与获取
        4.2.4 模型参数估计
        4.2.5 模型应用——术语边界标注
    4.3 实验设计与结果分析
        4.3.1 训练用语料选择
        4.3.2 测试用语料选择
        4.3.3 特征模板设计
        4.3.4 实验结果及分析
    4.4 本章小结
第5章 面向潜在语义分析的术语权重模型
    5.1 术语领域权重模型与面向领域的术语甄选
        5.1.1 术语的术语性
        5.1.2 术语领域相关性
        5.1.3 术语领域一致性
        5.1.4 术语新奇性
        5.1.5 基于区域分类的领域术语甄选
    5.2 术语文档权重模型
        5.2.1 术语文档权重模型概述
        5.2.2 术语局部权重
        5.2.3 术语全局权重
        5.2.4 文档全局权重
    5.3 实验分析
        5.3.1 术语领域权重模型与领域术语甄选的实验分析
        5.3.2 不同组合术语文档权重模型的实验对比分析
    5.4 本章小节
第6章 基于矩阵分解的潜在语义分析
    6.1 潜在语义分析概述
        6.1.1 传统文本信息检索与处理存在的问题
        6.1.2 潜在语义分析(LSA)的内涵
    6.2 基于奇异值分解(SVD)的潜在语义分析
        6.2.1 SVD的基本思想
        6.2.2 与SVD等价的特征值问题
        6.2.3 SVD迭代算法
        6.2.4 基于SVD的潜在语义分析分析的理论解释
        6.2.5 基于Σ调整的潜在语义分析方法——μ-SVD
    6.3 基于半离散矩阵分解(SDD)的潜在语义分析
        6.3.1 SDD的基本思想
        6.3.2 k-SDD的计算
    6.4 基于非负矩阵分解(NMF)的潜在语义分析
        6.4.1 NMF的基本思想
        6.4.2 NMF的概率模型与辅助约束
        6.4.3 稀疏性约束下的NMF
    6.5 实验分析
        6.5.1 应用LSA与不应用LSA的实验对比分析
        6.5.2 基于Σ调整的LSA——μ-SVD实验分析
        6.5.3 不同损失函数定义下的NMF算法实验对比分析
        6.5.4 基于NMF与k-Means的文本聚类实验对比分析
        6.5.5 NMF方法与SVD方法的实验对比分析
        6.5.6 稀疏性约束下的NMF实验对比分析
    6.6 本章小节
第7章 基于主题模型的潜在语义分析
    7.1 概率潜在语义分析(PLSA)模型
        7.1.1 PLSA模型的基本思想
        7.1.2 基于期望最大化(EM)算法的模型拟合
        7.1.3 改进的模型拟合方法——退火期望最大化算法
        7.1.4 PLSA与LSA的关系
    7.2 潜在狄利克雷分配(LDA)模型
        7.2.1 LDA模型的基本思想
        7.2.2 基于变分算法的模型推理
        7.2.3 基于Gibbs采样的模型推理
    7.3 相关主题模型(CTM)
        7.3.1 CTM的基本思想
        7.3.2 基于变分算法的模型推理
    7.4 层次主题模型(hLDA)
        7.4.1 中式餐厅处理(CRP)分布
        7.4.2 hLDA模型的基本思想
        7.4.3 非参数hLDA
        7.4.4 模型推理
    7.5 弹珠机分配模型(PAM)
        7.5.1 PAM的基本思想
        7.5.2 模型推理
        7.5.3 PAM与hLDA比较
    7.6 实验分析
        7.6.1 基于LDA模型的潜在语义分析实验
        7.6.2 基于CTM模型的潜在语义分析实验
        7.6.3 基于PAM模型的层次潜在主题挖掘实验
    7.7 一种加权采样层次主题模型(WS-HTM)的理论框架设计
    7.8 本章小节
第8章 潜在语义分析在领域文本信息处理中的应用
    8.1 面向潜在语义分析的大规模稀疏矩阵实现
    8.2 基于潜在语义分析的领域文本信息检索
        8.2.1 压缩编码过滤
        8.2.2 语义倒排索引构建
    8.3 基于潜在语义分析的领域知识单元关联挖掘
    8.4 基于潜在语义分析的领域文本信息聚类
        8.4.1 一种基于二分k-Means的高效率文本聚类方法
        8.4.2 潜在语义(主题)与聚类类目的等价性分析
    8.5 基于潜在语义分析的领域文本信息可视化
        8.5.1 基于潜在语义降维和坐标轴定位的可视化
        8.5.2 基于层次化主题模型的潜在主题可视化
        8.5.3 基于力导算法的领域知识单元网络化语义关联自适应可视化
    8.6 本章小节
第9章 结束语
参考文献
致谢
攻读博士学位期间参加科研项目及发表论文情况

(9)基于大规模语料的中文新词识别技术研究(论文提纲范文)

摘要
Abstract
图目录
表目录
第1章 绪论
    1.1 课题背景
    1.2 研究意义
    1.3 中文新词识别研究现状
    1.4 研究目标和研究内容
    1.5 论文组织安排
第2章 新词识别技术
    2.1 引言
    2.2 候选新词的提取和过滤
    2.3 新词的词性猜测
    2.4 新词识别技术研究状态
    2.5 本文设计思想
    2.6 论文总体设计
    2.7 本章小结
第3章 基于大规模语料的新词识别框架FNWI
    3.1 引言
    3.2 FNWI 的设计目标
    3.3 新词识别框架的具体描述
        3.3.1 统一建模语言UML
        3.3.2 领域无关的新词识别框架结构
        3.3.3 FNWI 框架中组件的重用
        3.3.4 FNWI 框架的扩展
    3.4 相关研究比较
    3.5 本章小结
第4章 基于逐层剪枝的重复模式快速提取方法
    4.1 引言
    4.2 常用重复模式提取算法
        4.2.1 重复模式提取的形式化描述
        4.2.2 基于递增N-gram 模型的重复模式提取算法
        4.2.3 基于Sequitur 算法的重复模式提取方法
        4.2.4 基于后缀索引的重复模式提取算法
    4.3 大规模语料分割算法
    4.4 一种基于逐层剪枝的重复模式提取方法
        4.4.1 基于低频剪枝字符的低频模式过滤算法
        4.4.2 基于级联剪枝的低频模式过滤算法
        4.4.3 语料划分和重复模式归并
        4.4.4 算法描述
        4.4.5 复杂度分析
    4.5 一种改进的字符串快速排序算法
        4.5.1 基数排序算法描述
        4.5.2 改进的中文字符串排序算法
        4.5.3 改进排序算法性能评价
    4.6 实验及分析
    4.7 相关研究比较
    4.8 本章小结
第5章 基于条件随机域的新词检测方法
    5.1 引言
    5.2 常用新词检测方法
        5.2.1 基于规则方法
        5.2.2 基于统计学习方法
        5.2.3 小结
    5.3 基于统计学习模型的新词检测框架
        5.3.1 条件随机域模型
        5.3.2 条件随机域模型的训练和解码
        5.3.3 条件随机域模型特点
    5.4 新词检测特征选取
        5.4.1 新词的语言知识特征
        5.4.2 新词的统计特征
        5.4.3 一种高效的外部统计特征计算方法
    5.5 重复模式提取策略
        5.5.1 对比实验数据
        5.5.2 一种实用的候选新词遗漏量化模型
        5.5.3 策略使用原则
    5.6 实验和分析
        5.6.1 实验条件
        5.6.2 实验数据分析
    5.7 相关研究比较
    5.8 本章小结
第6章 基于组合特征的新词分类方法
    6.1 引言
    6.2 新词词性分类技术
        6.2.1 词语词性标注方法
        6.2.2 新词词性猜测的困难和当前研究的不足
    6.3 新词词性猜测的形式化模型
        6.3.1 新词词性猜测的形式化描述
        6.3.2 词性猜测问题统计模型的选择
        6.3.3 新词词性猜测的特征选取
    6.4 汉字偏旁作为词性猜测内部特征
        6.4.1 汉字及其偏旁的表意功能
        6.4.2 偏旁作为词性猜测内部特征
    6.5 实验和分析
        6.5.1 实验条件
        6.5.2 实验数据分析
        6.5.3 分析结论
    6.6 相关研究比较
    6.7 本章小结
第7章 结论
    7.1 全文总结
    7.2 后续研究工作
参考文献
致谢
攻读学位期间发表的学术论文与取得的其他研究成果

(10)面向交互式动画创作的儿童故事情节抽取(论文提纲范文)

摘要
ABSTRACT
目录
第一章 绪论
    1.1 问题提出
    1.2 自然语言理解技术在动画领域的应用现状
        1.2.1 故事理解
        1.2.2 动画情节自动抽取
        1.2.3 基于文本的场景自动创建
    1.3 本文研究的意义及内容
    1.4 本文内容安排
第二章 故事情节抽取系统
    2.1 故事情节抽取任务
    2.2 信息抽取概述
    2.3 分词与词性标注
    2.4 故事情节抽取系统框架
    2.5 本章小结
第三章 未登录词识别
    3.1 儿童故事中的未登录词分析
        3.1.1 切词结果分析
        3.1.2 故事文本中的未登录词特征分析
    3.2 未登录词抽取方法
        3.2.1 规则方法
        3.2.2 基于统计的方法
    3.3 面向故事文本的未登录词识别
        3.3.1 极大高频字串抽取
        3.3.2 基于互信息的垃圾串过滤
        3.3.3 基于规则的未登录词筛选
    3.4 实验结果与分析
        3.4.1 未登录词抽取结果
        3.4.2 实验结果分析
    3.5 本章小结
第四章 剧本元素及其抽取方法
    4.1 剧本元素分析
        4.1.1 故事角色
        4.1.2 道具名
        4.1.3 时空词
    4.2 剧本元素抽取方法
        4.2.1 分类技术
        4.2.2 评估方法
    4.3 剧本元素抽取流程
        4.3.1 基于词频的候选词选取
        4.3.2 候选项筛选
        4.3.3 时空词抽取
        4.3.4 指代消解
    4.4 实验结果与分析
    4.5 本章小结
第五章 结构化剧本模型
    5.1 问题提出
    5.2 模型定义
        5.2.1 叙述模型
        5.2.2 剧本模型
    5.3 结构化剧本样例
    5.4 本章小结
第六章 全文总结
    6.1 回顾与总结
    6.2 研究展望
参考文献
致谢
攻读硕士期间已发表或录用的论文
上海交通大学硕士学位论文答辩决议书

四、一种在汉语文本中抽取重复字串的快速算法(论文参考文献)

  • [1]基于未登录词识别的汉盲翻译系统研究[D]. 徐豪杰. 浙江理工大学, 2020(04)
  • [2]中医针灸领域信息抽取关键技术研究[D]. 孙水华. 大连理工大学, 2019(08)
  • [3]中文文本校对关键技术研究与应用[D]. 吴淙. 电子科技大学, 2019(01)
  • [4]基于统计特征和规则联合的中文文本校对算法研究[D]. 王林坪. 昆明理工大学, 2019(04)
  • [5]藏文词向量表示关键技术研究[D]. 才智杰. 青海师范大学, 2018
  • [6]基于文档语义识别的石油领域本体构建[D]. 朱朋海. 中国石油大学(华东), 2018(07)
  • [7]汉语命名实体识别研究[D]. 江会星. 北京邮电大学, 2012(01)
  • [8]面向领域中文文本信息的潜在语义分析研究[D]. 岑咏华. 南京大学, 2010(05)
  • [9]基于大规模语料的中文新词识别技术研究[D]. 张海军. 中国科学技术大学, 2011(09)
  • [10]面向交互式动画创作的儿童故事情节抽取[D]. 程绪文. 上海交通大学, 2010(10)

标签:;  ;  ;  ;  ;  

一种快速提取中文文本中重复字符串的算法
下载Doc文档

猜你喜欢