一、反馈平衡调节自适应机制在搜索引擎中的应用(论文文献综述)
秦川[1](2021)在《面向智能招聘的数据挖掘方法及其应用》文中研究说明在世界经济的快速发展中,人才一直是企业发展的最重要生产力。因此,企业均将人才招聘做为最重要的发展战略之一,并尝试开发智能化招聘系统来高效地吸引、识别、筛选优秀的人才。近年来,招聘网站的出现使得招聘市场从信息不对等偏向企业的卖方市场逐步向信息对等的供求市场演化,从而导致招聘市场上的竞争愈发激烈,给企业人才招聘带来了一系列全新的挑战。与此同时,飞速发展的数字化招聘系统与在线招聘网站积累了大量的招聘数据,这为智能招聘系统的发展提供了新的范式。目前,围绕智能招聘的相关研究方滋未艾,受到计算机、管理学及其相关交叉学科研究者的广泛关注。然而现有研究依旧面临着数据多源异构、算法缺乏可解释性以及相关学科交叉等挑战。为此,本文利用数据挖掘技术并结合管理学等交叉学科知识,围绕人才招聘中人才吸引、人才筛选、人才评估三个核心环节开展了系统性的研究工作。相关工作依托于百度人才智库平台,研究问题和数据源于实际招聘场景,研究成果均在真实招聘业务中部署和验证,具有很好的实际应用价值。本文主要贡献可以概括如下:第一,在人才吸引方面,通过挖掘分析海量招聘数据中岗位文本数据,提出基于能力感知的岗位需求文本自动生成方法,从而可以有效地预测出不同岗位的技能需求,帮助人力资源员工更高效地设计岗位需求文本,助力企业吸引合适的人才。具体地,首先提出了一个能力感知的神经主题模型,实现从海量的招聘数据中蒸馏出丰富的能力信息。然后设计了一个基于编码器-解码器结构的循环神经网络去实现岗位需求文本生成。为了保证生成结果可以全面地覆盖和该岗位相关并具有代表性的能力需求,进一步提出了能力感知下的注意力机制和复制机制来指导岗位需求生成过程。此外,设计了一种能力感知下的策略梯度训练算法来有效地提升生成的岗位需求的合理性和流畅度。最后,在两个采集于真实应用场景的招聘数据集中进行了大量实验,结果验证了所提方法可以有效地生成岗位需求文本,准确覆盖该岗位所需的相关技能,并且具有很好的可解释性。第二,在人才筛选方面,提出了基于技能感知下的人岗匹配模型,从而可以有效地衡量人才和岗位之间的匹配度,提升招聘筛选效率。具体地,首先基于循环神经网络设计了一个对岗位需求文本和求职者工作经历文本的词级别的语义表征模块。并且通过两个特殊设计的基于主题的能力感知下的层级别注意力机制,更为有效地捕捉岗位需求中的重要语义信息,以及评估对于特定岗位需求下不同工作经历的重要性。然后,基于历史招聘记录数据针对所提出的人岗匹配模型进一步设计了一种重训练机制,实现对匹配效果的提升。此外,本文将所提的模型应用到人才初筛和岗位推荐这两个具体的人才招聘任务中。最后,在一个采集于真实应用场景的招聘数据集中进行了大量的实验,其实验结果验证了所提模型在预测人才岗位匹配度上的准确性和预测结果的可解释性。第三,在人才评估方面,提出了专业技能导向的面试题库自动生成和智能检索算法,构建了一个智能面试官辅助工具帮助面试官高效地准备面试试题考察求职者。该系统首先实现了基于在线知识分享社区中蕴含的信息来大规模生成技能导向的面试试题。具体地,提出了一个新颖的远程监督下的技能实体识别方法,实现在少量人为数据标注的情景下对搜索引擎中包含的海量点击数据和网页标题数据高效地识别技能实体。并提出了一种基于神经网络的生成模型来生成技能导向的面试试题,其中设计了一种数据驱动下的高质量训练数据构建算法,以及一种新颖的训练方法来有效地提升面试试题生成的效果。该系统进一步实现基于搜索引擎中的点击搜索日志数据,构建一个推荐系统来帮助面试官检索合适的面试题。这里设计了一种基于图提升的试题推荐算法,从而可以针对面试官检索的一组技能高效地推荐合适的试题。最后,在采集于真实应用场景的数据集上分别有效地验证了所提方法在生成技能导向的面试试题质量和试题检索准确率这两方面的性能。第四,在人才评估方面,进一步提出了基于技能关系图的个性化笔试、面试试题推荐框架,从而实现对候选人能力的有效评估。该框架的核心是构建了一个工作技能的知识图,来全面建模人才评估中应该涉及的相关能力。具体地,首先构建了一个基于双向循环神经网络和条件随机场的模型实现对招聘数据中技能实体的抽取,通过设计了一种门机制来提升抽取效果。随后基于海量的搜索引擎中的点击数据,构建了一个新颖的标签传播算法,进一步提升了抽取到的技能实体的可靠性。然后通过设计一个基于多源内容特征下的分类模型来实现挖掘技能实体之间的上下位关系,来构建技能图。并且基于技能图设计了一种个性化的试题推荐算法,帮助提升人才评估效率。最后,在采集于真实应用场景的招聘数据上进行了大量的实验,其结果验证了所提框架每个组成部分的有效性。
王梅嘉[2](2020)在《基于整子多智能体的社会化搜索引擎模型及关键技术》文中认为Web 2.0时代的到来,在线社交网络应用迅速普及,大量用户涌入在线社交网络平台发表见解、分享生活,产生了大量用户生成内容。这些数据对于提高搜索服务的质量与体验具有重要意义。在此背景下,旨在利用社交网络数据优化搜索结果,提升搜索服务用户满意度的社会化搜索引擎应运而生。然而,已有社会化搜索引擎研究仍然存在4个问题:(1)检索资源大都集中于特定的在线社交网络平台,导致信息检索查全率不高;(2)被动响应用户搜索请求,仅通过用户兴趣、亲密度等知识,研究具体结果排序算法的分析设计,个性化程度并不能令用户满意;(3)忽略了社交网络数据实时变化的特点,无法保证社交网络知识的新鲜度;(4)研究内容局限于算法分析与社会化搜索模式、机理的探讨,缺乏系统模型的设计。因此,针对社会化搜索引擎面临的“检索范围局限、知识应用不足、缺乏社交网络知识的主动更新机制,以及研究碎片化、缺乏模型设计”问题,本文提出了一个面向全网检索资源、支持任务自适应调度、基于整子多智能体的社会化搜索引擎模型,能够利用多种在线社交网络知识优化全网搜索引擎的检索结果,向用户提供个性化的检索结果列表,主动推荐感兴趣的多样化信息。本文的创新性成果主要包含4个方面:(1)提出了一个支持任务自适应调度、面向全网检索资源、基于整子多智能体的社会化搜索引擎模型。本文从任务角度出发,设计了整子多智能体系统符号化模型,在设计Holon结构、建模任务相关信息的基础上,探讨了系统的自适应机制以及任务分配方法。实验结果表明,本文提出的自适应机制能通过对执行单元的竞争力调整以及结构调整,帮助系统适应新的环境需求。该方法尤其适用于解决因部分计算节点失效引起的环境异常,通过调用处于空闲状态或正常状态的执行单元,以协助异常执行单元完成任务,保证任务执行的成功率,提高系统的鲁棒性。(2)设计了一种社交网络数据变化主动感知策略以及社交网络知识主动更新机制。通过分析用户在社交网络平台的行为习惯,设计相应感知规则,主动感知用户社交网络数据变化,考虑到用户行为存在不稳定性,提出的社交网络数据变化感知策略,能够根据用户行为不断学习新的感知规则。在此基础上,为了降低不必要的知识更新引起的系统开销,采用基于阈值的方法判断社交网络数据的变化是否引起知识变化,适时更新相关知识,以保证社交网络知识的新鲜度。实验结果表明,本文提出的方法对于社交网络数据变化的更新率达到了92.6%,社交网络知识的更新率达到了72.5%,能够满足用户的个性化搜索需求。(3)提出了一种基于查询分类的多特征融合结果排序方法。该方法将用户提交的查询词分类处理,针对非导航类查询词,融合用户与网页文档之间的主题相似度,用户兴趣关键词与网页关键词相似度,文档在搜索引擎中返回的位置,成员搜索引擎返回结果的数量等多个特征,为用户提供个性化的检索结果列表。扩展查询词时,在考虑了成员搜索引擎对于文档相关度评分的基础上,融合用户兴趣社团成员的点击记录,以及社团成员在用户兴趣领域的影响力,确定查询伪相关文档,扩展用户提交的查询词,帮助用户更好的表达查询意图。实验结果表明,提出的结果排序方法对于信息类查询词的NDCG均值达到了0.677,对于事务类查询词的NDCG均值带到了0.706,与参照方法相比,具有较高的查准率。(4)提出了一种基于社交网络知识的多样化信息推荐机制。通过为用户提供个性化的结果推荐、热点推荐以及用户推荐服务,建立知识与知识之间的连接,以及知识与人之间的连接。结果推荐方法通过用户的兴趣社团、交互社团、社交社团成员的查询记录,以及社团成员与当前用户的最短路径,为当前用户推荐可能感兴趣的网页文档。热点推荐方法根据用户兴趣的主题分布、用户的兴趣社团成员以及交互社团成员的点击记录向当前用户推荐可能感兴趣的热点。除此之外,提出的信息推荐机制,能够根据用户提交查询的所属领域,帮助用户找到该领域内影响力用户以及非领域用户。实验结果表明,本文提出的结果推荐方法关于信息类查询的MAP值达到了0.743,事务类查询的MAP值达到了0.731;提出的用户推荐方法的相关性分值达到了0.709;提出的热点推荐方法,MAP值达到了0.750。与参照方法相比,本文提出的推荐机制准确率更高,能够主动帮助用户发现所需资源。本文围绕现有社会化搜索引擎存在问题,开展了社会化搜索引擎模型的整体设计及算法、机制、策略等关键技术的研究。所提出的面向全网社会化搜索引擎模型,社交网络知识的主动感知与更新机制,以及基于社交网络知识的结果排序方法与多样化信息推荐机制,能在一定程度上提高社会化搜索引擎的查准率。
姜野[3](2020)在《算法的法律规制研究》文中指出算法在广义上讲就是解决问题的程序,但是由于数据和算力的不断发展,基础数学理论的演进,作为人工智能本质的算法取得了突破性进展,以机器学习为主的多类型算法在新闻推送、搜索引擎、电子商务、信用评分以及司法裁判领域等多个场景当中得到应用。算法性能的提升以及应用的普及提高了社会的运行效率,却又因内部不透明性、有限自主性和难以问责性而可能导致诸多风险。这些特性将算法区别于普通的技术,也为我们带来了规制难题,当自我规制、市场规制和伦理规制并不能够有效应对算法带来的风险与影响,法律规制便成为了最为直接和有效的规制手段。有必要以算法技术的迭代更新为背景,将算法的法律规制作为主要研究对象,突出当前算法呈现出的有限自主性特征,建构符合我国算法应用现状的法律规制体系。伴随互联网络的发展,线上活动在人们日常生活中所占的比重越来越大,算法在为我们提供更加迅捷高效的推送结果的同时也会对我们的视域、判断甚至最终选择产生影响。可以说,网络对于其发展中形成的自生自发的扩展秩序已经形成了路径依赖。显然,算法使用者秉持的技术中立与技术无罪观念已经形成了强大惯性,这种惯性带来的后果不可避免地与公民的权利及社会的有序发展发生抵牾。在此过程中,会形成算法歧视、算法统治甚至消解社会信任等风险,而个人在算法面前逐渐演变成为数据的汇总,难免会被算法规训,隐私保护的难度逐步增大,算法的学习特性还将导致数字鸿沟加剧发展。这些社会风险以及对个人产生的不利影响都需要来自法律的有力回应。在法律规制算法的理论基础方面,需要明确算法只能成为法律规制的对象而不能成为法律本身,应当认清算法的法律属性,将其定位为具有有限自主性的人造物。现阶段,我国对于算法的规制模式仍属于回应型的,重视结果的规制而忽略过程的控制。具体表现为个人数据保护立法较为分散,平台责任规定不够明晰以及规制算法的法律体系性不足。当前,欧盟与美国分别形成了以数据保护和算法责任为中心的算法规制模式,二者能够在一定程度上提供可借鉴的经验却也都存在一定的局限性。因此,我国需要构建系统的法律规制体系。进而以法律治理归化技术治理,将防范风险定位为制度设计所要达到的目标,以科技伦理作为内在指引。法律规制体系的系统建构,覆盖算法应用的全过程,主要包括算法应用前的审查监督,应用过程中的数据保护以及应用后产生后果时的法律问责。首先,在算法审查监督具体规制措施的研究当中,要完善算法的分级分类制度,当前算法的主要应用场景集中在两个领域之中,一个是商业领域一个是公共决策领域。在确定算法的风险等级之后,根据不同等级确定相应的透明度边界,完全不透明的算法会形成黑箱,而完全公开的算法则无法保护算法开发者的创新热情。因此,通过明确算法的透明度建立健全的监督机制能够在算法应用前的阶段有效防止问题的产生。其次,通过对于数据权利体系的研究加强算法应用过程当中的法律保障。明晰数据权属的界定对于限制算法至关重要,没有数据的算法将无法发挥作用。而我国法律对于日益多元的数据形式并未作出明确的界分,数据控制者和数据主体在数据的收集和使用上存在着矛盾。由此,在强调互联网企业对于数据利用的同时,也不能忽略对于个人数据权的保护。赋予数据主体数据可携权以及加强对被遗忘权的保护能够有效应对算法应用带来的数据失控。最后,研究算法应用之后产生的法律后果,以及如何问责的问题。加强算法的可解释性并保护数据主体的算法解释权,能够复盘算法运行的过程,找出法律后果产生的具体原因,合理分配责任完成法律问责。针对算法应用的全过程分别设计的法律规制手段只能解决短期和中期所呈现出的问题,而数字人权的提出能够从更加宏观的角度影响算法,从而达到在源头上规制算法的目的并实现算法规制的长期目标。数字人权要求在数字科技发展的过程当中坚持以人为本,一方面,数字人权保护机制所倡导的价值就是科技发展应当遵循的价值。另一方面,数字人权的覆盖范围极其宽广,面对以算法为代表的数字技术的广泛应用场景都可以通过数字人权进行约束。保护数字人权,要求增强算法开发者的人权理念,强化算法的道德习得能力,提升数字弱势群体的参与以及在全社会培育数字素养和算法认知。数字人权的提出能够引领法律规制体系的构建,引领算法设计的理念。更进一步,结合我国正在推行的人类命运共同体,数字人权可以增强我国在科技立法和数据治理领域的话语权。
鲍军威[4](2019)在《基于知识的自动问答与问题生成的研究》文中认为自动问答系统泛指对于由人类的自然语言描述的问题,依据已有的资源对其进行理解并给出答案的智能体。自动问答系统被广泛应用于现实场景中,如搜索引擎、聊天机器人、私人语音助手、客服机器人等。传统的自动问答系统存在若干问题:首先,其忽略了基于已有的知识对自然语言问题本身的语义进行理解;其次,对于某些特定的领域,例如医疗、购物等,很难获取大规模的有效数据来构建相应的问答系统。针对以上问题,本文首先在第2、3章中提出了三种基于结构化知识图谱与半结构化表格的自动问答系统。这些系统通过对问题进行深度语义理解可以回答复杂问题。近年来,问题生成作为自动问答的对偶问题受到广泛关注。本文在第4、5章中提出了两种基于知识图谱、表格、无结构化文本的问题生成系统。问题生成系统一方面可以为自动问答系统提供必要或额外的数据,另一方面可以与问答系统有机地结合在一起而互相促进。本文第2章研究基于知识图谱的自动问答。知识图谱作为一种经过精细架构设计与大量人工编撰而得到的高精度的结构化数据,成为问答系统的重要背景知识。由于已有的研究知识图谱问答系统的数据集主要包含单关系的简单问题,而对包含多关系及特殊操作的复杂问题涉及较少,致使大多数已有工作未能针对需要理解与推理的复杂问题投入过多的研究。针对此问题,本文提出两种针对复杂问题的知识图谱问答方法。首先,本文提出一种基于翻译的知识图谱问答方法,该方法将语义解析与答案获取统一在一个框架中。该方法基于表式剖析(Chart Parsing)算法,在自底向上的解码过程中先解复杂问题中的子问题,再递归地解外层问题直至最终问题。这种方式能够很好地解决逻辑形式为链状的多跳类型的复杂问题,然而对于逻辑形式为星状的多约束类型的复杂问题的解决能力有限。因此本文提出第二种方法:基于多约束查询图的知识图谱问答。本文系统性地定义了一种适合知识图谱问答的逻辑表达式:多约束查询图,并提出了一种通过对多约束问题进行多约束检测而产生多约束查询图的方法。实验结果表明这两种方法分别提高了问答系统对复杂问题的理解与回答能力。本文第3章研究基于表格的自动问答。知识图谱的构建耗费大量人力成本,且对真实世界中的知识覆盖度相对有限。半结构化的表格作为一种比知识图谱更轻量级、更易获取、对特定领域知识覆盖更全面的一种知识,对自动问答领域来说是极其宝贵的资源。因此,基于表格的问答系统受到越来越多的重视。已有的基于表格的问答研究或通过信息检索的方法解决简单问题,或通过语义解析的方式处理复杂问题。本文提出一种基于信息检索的表格问答方法来解复杂问题,该方法不但提高了对复杂问题的解决能力,也改善了进行语义解析所带来的搜索空间过大的低效能问题。具体而言,本文设计了涵盖常见语言现象与表格结构信息的四大类特征。每个复杂问题与答案候选对被表示成一个低维的特征向量,通过学习到的排序模型可以对答案进行排序与选取。实验结果证明了本文提出的基于信息检索的表格问答方法的有效性。本文第4章研究基于知识图谱与表格的陈述性文本及问题生成。训练基于知识图谱与表格的问答系统往往需要大量的训练数据。然而获取大规模的标注数据往往需要大量的人力成本。作为自动问答的对偶问题,问题生成系统可以基于已有知识自动生成问题来缓解上述问题。本文提出了一种表格到序列(Table2Seq)的神经网络模型来基于知识图谱与表格进行文本与问题生成。由于知识图谱三元组可以转换成两行两列的表格,下文中知识图谱也被称为表格。该模型通过充分考虑了表格结构信息的编码器对表格进行编码,然后利用解码器基于表格的编码进行文本或问题的生成。为了解决传统解码器难以输出稀有词的问题,本文引入了注意力机制与拷贝机制,使得模型可以输出低频的表格单元。此外,为了使模型可以对具有不同属性的表格生成具有不同模式的文本或问题,解码器引入了可以区分不同表格的全局信息与局部信息。四个数据集上的实验结果充分证明了Table2Seq模型的有效性。本文第5章研究基于文本的问题生成。相对于结构化的知识图谱与半结构化的表格,无结构化的文本是更加容易获取、覆盖知识面更广的资源。近年来,为了帮助提升基于无结构化文本的问答系统,如机器阅读理解等,基于无结构化文本的问题生成受到极大关注。针对特定领域无标注数据这一问题,本文提出一种双重对抗网络(DoubAN)来进行文本到问题的生成,该模型可以基于源领域的标注数据与目标领域的无标记数据来进行训练与学习。DoubAN模型包含一个问题生成器(QG),一个领域分类器(DC-Dis),以及一个问答判别器(QA-Dis)。DoubAN通过QG与DC-Dis、QA-Dis的双重对抗过程中,充分利用模型生成的语料,并学习不同领域的通用文本表征来实现目标领域文本到问题的生成。本文在SQuAD与NewsQA上进行了实验与分析,结果表明了DoubAN能够在没有标记数据的目标领域上有效地生成问题。
李娜[5](2016)在《基于垂直搜索引擎的农业信息推荐关键技术研究》文中研究说明互联网已经成为人们获取信息资源的重要渠道,面对浩如烟海的互联网信息,个性化的信息推荐是未来信息服务的发展方向。另一方面,各级政府和部门投入大量资源建立了涵盖农业科技、畜牧、水产、农垦、农机等领域的信息平台,由于农村地区信息基础建设的缺乏,广大农业生产经营者在信息分析、信息处理等方面能力的匮乏,导致这些对农业生产具有重要指导意义的信息却无法有针对性的传播到农业生产经营者手中。涉农人员仅依靠大众媒体、农业信息机构和口头传播的方式,很难获取到个性化的农业信息服务。该研究的目标是将散布在互联网上的大量农业相关信息进行采集、分析和处理,准确把握涉农用户的意愿和需求,主动将需求信息精准的传播到涉农用户手中,提高农业信息的在农业生产过程中的指导作用和社会经济效益。现有的推荐系统在农业领域的应用主要存在三个问题,一是农业领域信息专注度不够;二是涉农用户兴趣过拟合和冷启动问题;三是现有的信息推荐系统未根据农业的属性特色实现涉农用户个性化的分类和推荐问题。针对以上问题,本研究对农业信息推荐系统的数据源、用户兴趣模型、推荐算法三个重要部件的关键技术进行了深入的研究。主要包括:农业信息采集与分析、用户兴趣模型构建、推荐模型构建和推荐算法改进、软件自主决策机制等关键技术,为个性化农业信息推荐服务的实现提供技术支撑。论文的主要研究工作概括如下:1.通过对搜索引擎功能和搜索效果的比较研究,设计了基于Nutch的农业垂直搜索引擎,实现互联网农业信息的采集、过滤和分析,构建了农业信息推荐资源库。针对垂直搜索在农业领域的应用特点和面临的不足,采用字标注分词技术和参考农业专业术语语料库识别新词的方法改进了搜索引擎的分词模块,实验表明,该分词模块的分词效果与其他分词系统相比,对农业领域文本信息的分词准确度有所提高,结合对种子URL质量的控制,增强农业相关网页的抓取精度和深度。2.针对农业网络资源存在的空间属性表示不统一、显性表达缺失的问题,研究农业领域空间属性信息提取方法,提出了一种借助行政区划本体库对农业领域空间属性的辨别和抽取方法,设计了显性空间属性抽取算法和基于通用搜索引擎的隐性空间属性抽取算法,采用卡方检验的方法解决了隐性空间属性抽取方法中返回空间属性不唯一的问题。两种抽取算法可有效标注网页信息中的空间属性信息,实现用户和项目地域特征的提取,为涉农用户兴趣模型中地域标签的建立和基于地域特征的个性化农业信息推荐模式的实现提供必要的信息。3.采用问卷调查的方法对涉农人员的农业信息需求情况和获取信息方式进行了研究,针对现有的农业信息服务方式无法实现个性化服务的现状,构建了全面反映涉农用户兴趣的模型ATBUIM。选定涉农用户的显式和隐式信息来源,研究了用户背景、浏览行为对用户兴趣度的估算方法和权重,构建了基于互信息和农业领域资源分类标签的贝叶斯网络涉农用户兴趣模型,将农业领域标签间的互信息作为节点条件概率,采用结构学习的方法实现模型的更新和优化。该模型将用户兴趣信息进行加权处理,体现不同类型信息的在模型构建中的比重,更加全面和准确的反映涉农用户的兴趣领域,为实现精准、有效的农业信息推荐算法奠定基础。4.分析和比较了三种推荐算法,针对传统推荐算法存在的冷启动和数据稀疏问题,提出了解决方法和策略,设计了高效的组合推荐算法模型。提出添加特征标签改进算法相似度的方法,解决了传统基于内容推荐算法中新用户无法推荐的问题。针对协同过滤算法中存在的数据稀疏性问题,提出了结合涉农用户的评分、特征因素与农业项目的评分、特征因素的协同过滤算法,算法中目标用户和目标项目的预测评分均为最近邻居综合了评分相似度和特征相似度的结果,加权结合两项预测评分获得最终推荐结果,经实验表明,改进的协同过滤算法在相同数据稀疏度的环境下平均绝对值偏差更小,推荐精度表现更好。针对单推荐算法存在的不足,基于泛函网络提出了一种组合推荐算法,构建了组合推荐模型。实验表明,组合推荐算法计算用户对项目的预测评分更接近用户对项目的实际评分。5.针对信息推荐服务模式在新的网络环境下能够主动调整自身结构、状态和行为的服务需求,提出了一种面向农业领域的软件自主决策机制。基于本体将农业网络信息中的领域知识、消息和服务信息等信息构建模型,设计了面向农业领域知识的思维决策模型AKDM,将环境信息转换成信念、愿望和意图集合,并利用信念-愿望-意图之间的决策推理关系指导Agent完成农业信息推荐行为。分析和实验表明,该机制在农业领域知识和规则的约束下,实现了自主思维决策过程,完成了农业信息的推荐。综上所述,论文对互联网农业信息的有效搜索、涉农用户兴趣模型构建、农业信息精准推荐算法和软件自主决策机制做出的研究,可以为农业领域信息个性化推荐服务的实现提供技术支撑。
赵杨鑫[6](2020)在《直播场景下音视频抖动消除的研究与实现》文中研究表明近年来,实时音视频领域快速发展,WebRTC作为一个高质量且开源的实时音视频通信解决方案,得到了广泛应用,延迟、流畅性和清晰度是实时音视频系统的三大关键指标。由于复杂的网络环境,经常出现丢包和延迟抖动,WebRTC通过在接收端设置抖动缓冲区并在音频引擎、视频引擎下各设计一套自适应抖动缓冲算法,用以缓解其对音视频质量造成的影响。自适应抖动缓冲算法的目标在于合理地调节缓冲延时,从而消除延迟抖动,在延迟和流畅性之间获取平衡。然而,观察算法在真实直播场景下的表现,并对算法设计进行深入分析之后,我们发现在音频引擎下的自适应抖动缓冲算法,不适用于丢包重传机制开启模式,导致开启重传后,在网络质量不好的环境下,虽然音质明显提升,但是缓冲延时大幅增长;视频引擎下的自适应抖动缓冲算法,在计算视频帧大小对缓冲延时的影响时,方法过于保守,导致即使在网络质量极佳的情况下,有时也会出现一定的延时感。为此,本课题分析了淘宝直播平台的数据,并获取了 33989场直播频道的网络数据,在搭建WebRTC音视频通话测试平台后,验证了上述问题。进而本课题在音频算法中引入了延时越界预防机制,在高丢包弱网环境下,既能维持音质的提升效果又控制了缓冲延时的增长量,实现了音质和缓冲延时之间的平衡。在视频算法中引入了JTB-ψ机制,自适应调节乘性下降因子,使得缓冲延时合理的快速下降,平均延时降低了 41.5%,减少不必要的图像延迟。依托本课题所提出的方法,缓冲延时调节更加合理,音视频性能更加突出,更适合直播场景,也对其他音视频应用的优化具有一定参考价值。
吴雨晨[7](2020)在《基于差分演化的大数据搜索引擎优化研究》文中提出20世纪90年代起,大数据搜索引擎开始出现并不断发展。随着时间推移和技术积累,大数据与人工智能技术被陆续应用在智能搜索领域中,搜索引擎的性能方面已有明显改善,能够实现在全局搜索过程中的动态跟踪。但现有智能搜索引擎的搜索流程框架和智能追踪引导两方面仍没有太大改进,无法为用户提供高智能的搜索结果。因此,如何在当前大数据信息繁杂、密度低下的情况下快速检索出对用户最有价值的结果,并且能够使用新的基础框架与技术为用户提供更加个性化的服务。当前所面临的一个关键问题是选取工程领域内高收敛速度、高适用性的优化方法应用于大数据搜索引擎的优化。本文首先对大数据搜索引擎在国内外的研究情况以及取得的显着成果进行了分析,总结出现有大数据搜索引擎存在的实现困难、框架复杂、处理步骤繁多等特点。其次,本文针对现有搜索引擎无法动态跟踪并分析用户请求、缺乏个性化精准服务等问题,提出一种基于Hadoop和i Map Reduce的分布式智能搜索引擎框架,并利用差分演化算法对搜索路径进行优化。随后详细介绍了如何选取差分演化算法的参数因子以及对非结构化数据进行爬取、处理和存储的过程,建立了基于差分演化的大数据搜索引擎模型。本文以大规模天气领域信息下的天气搜索引擎为例,实现了一个基于改进差分演化算法的天气大数据搜索引擎。最后,本文将设计的天气大数据搜索引擎进行实验对比,以验证差分演化算法对大数据搜索引擎的优化效果,同时验证迭代式i Map Reduce对搜索精度与搜索速度的优化效果。实验结果表明,本文所使用的搜索优化与算法优化相结合的策略十分有效,使大数据搜索引擎的检全率及检准率得到显着提高。其中检全率、检准率对比初始模型分别提升7%、5%。搜索速度对比初始模型提升94%,对比开源引擎ES提升20%。最终证明本文提出的优化方法应用于大数据搜索引擎的优化是可行的、高效的。
朱哲哲[8](2020)在《基于流式计算的搜索数据分析研究与系统实现》文中研究表明互联网的高速发展,涌现出大量的数据分析需求。传统的数据处理方式只能在数据积累后在磁盘中计算,并且运算时效长,数据量有限。以传统的大数据离线批处理为代表的的分析方法已经不能满足越来越复杂多样的数据处理需求。另外在通用型搜索引擎后时代,针对某个单一领域的搜索被更广泛的使用,但是垂直领域的搜索往往不会针对该领域提供搜索数据的分析,导致对于该领域的搜索数据行为无法有效观测,以致无法制定针对性的搜索策略。为了解决这些问题,本文研究了流式计算下的垂直搜索数据分析实现,利用流式计算技术解决实时性数据流需求,同时针对系统性能问题提供不同的优化方案,提高数据处理效率。另外考虑到数据分析后的结果缺乏关联性,可视化展示过于刻板等问题,提出了利用搜索来优化数据分析后结果的方案,将数据分析后的结果导入搜索引擎建立索引,建立各个分析模块之间的关联。本文研究了在流式计算条件下的搜索数据分析过程,同时设计了搜索数据分析的系统实现,该系统为不同领域数据的分析提供通用解决方案,提升数据管理能力。本文的主要研究工作如下:第一,研究了流式计算过程,从计算模型、任务管理等方面详细梳理了流式计算的实现。另外研究了流式计算过程的性能优化,针对具体场景提供优化解决方案,提高系统性能。第二,提出了利用搜索来优化数据分析后结果的方案,解决数据分析结果缺乏关联性、分析指标混乱等问题,利用搜索引擎对数据分析后的结果进行检索和分类,降低分析结果检索的难度。第三,设计了以流式计算为基础,结合离线批处理的垂直搜索数据分析系统,针对搜索数据特点以及数据量需求,研究实现了本系统需要的大数据架构和系统架构。另外在系统实现的基础上,梳理了搜索日志分析的指标,从搜索和用户等方面提供动态实时的数据分析以及可视化展示。
李静[9](2020)在《基于语义和兴趣的图像/视频检索与认证技术研究》文中进行了进一步梳理随着互联网、社交媒体以及移动多媒体终端的迅猛发展,文本、图像、音频、视频等多媒体数据越来越深入地融入到人们的生活、工作、学习中。特别是,随着多媒体应用的日益增多,以图像和视频为主体的多媒体数据的生成、获取、处理和传播变得越来越普及,人们获取信息的载体从传统的文本形式,扩展到了现在以图像和视频为主的多样化的多媒体形式。在当今的信息社会中,图像和视频已经成为了最主要的信息载体,图像和视频检索也逐渐成为人们获取信息的主流途径之一。自从上世纪七十年代图像检索兴起以来,图像和视频检索就一直是信息检索理论研究和实际应用领域中的热点。近年来,随着多媒体技术和各类多媒体应用的蓬勃发展,用户对检索在性能和体验方面的需求不断提升,精准、高效、安全和个性化的检索已经逐渐成为用户的刚性需求。对于一个检索系统来说,从用户确定检索目的、形成查询输入搜索引擎,到检索系统根据查询进行数据的比对匹配,最后检索系统再将数据反馈给用户,构成一个完整、闭合的过程。在整个检索过程中,每一个环节的信息损失和失配都会对检索性能造成影响;因此,本文从目前制约检索性能提升的关键因素出发,针对搜索引擎与数据之间的“语义鸿沟”、用户与查询之间的“意图鸿沟”和数据(或搜索引擎)与用户之间的“信任鸿沟”等三个影响检索性能的关键问题,探讨了解决思路并分别提出了解决方法。从“语义鸿沟”到“意图鸿沟”再到“信任鸿沟”的研究,是满足用户不断提升的检索需求的需要。“语义鸿沟”是指图像和视频的视觉特征与用户对图像和视频理解的语义之间的距离,弥补“语义鸿沟”的目的是能够精准和高效地检索到在主题上与查询匹配的结果。随着用户对检索结果的个性化需求越来越高,对于检索的评价开始从“主题”扩展到“意图”维度上;也就是说,用户希望检索到能够符合其内在搜索意图或者个人兴趣的结果。弥补用户内在的搜索意图与其提交给检索系统的查询之间存在的“意图鸿沟”,就成为了进一步提升检索质量的关键。同时,随着图像和视频的编辑技术越来越普及,图像和视频的伪造和篡改现象越来越严重,致使检索结果的可信性问题逐渐凸显出来。人们对检索结果的信任度与媒体数据自身的可信度之间的差距,即“信任鸿沟”,成为了图像和视频检索领域不得不解决的问题;对检索结果进行可信性认证十分必要。本文针对图像和视频检索中存在的“语义鸿沟”、“意图鸿沟”以及“信任鸿沟”等三个关键问题展开研究,创新性成果主要包括:1、针对“语义鸿沟”问题,以对视频特征的语义表达能力和区分能力要求更高的视频拷贝检测为关注点,提出了一种基于3D CNN的视频拷贝检测方法。该方法采用三维卷积神经网络3D CNN同时捕捉视频空域和时域两个方面的特征,并在降低3D CNN训练过程复杂度和解决数据资源不足两个方面进行了研究。为了降低网络的构建难度和计算复杂度,降低对硬件配置的要求,提出了一种3D CNN组成的并行体系结构,将多分类任务分解为多个二分类任务的组合。由于该并行体系结构中的每个3D CNN仅用作一个二分类器,使得对CNN的训练难度和数据量的要求大大降低。此外,并行3D CNN的网络结构具有对未知类别数据进行分类的能力,并且可以随着新类别的加入而扩展。为了解决数据资源不足的问题,采用等间隔采样的分段方法对视频数据进行了增强处理,保证每个视频段均能最大化呈现视频内容;在测试阶段,只需输入少数视频段就能达到较高的识别率,大大节省了识别时间,为视频分类的实时处理提供了参考。实验表明,该方法在拷贝检测中得到了很好的效果,所提取的视频特征具有很强的语义表达能力。2、针对“意图鸿沟”问题,以对用户意图和兴趣具有高度依赖的电影推荐系统为参考,提出了一种基于电影推荐的用户兴趣计算方法。该方法根据IMDB以图文并茂的形式进行电影介绍的特点,结合面向图文检索的跨媒体学习方法,构建能够同时体现电影图文信息的特征向量;在进行用户兴趣计算的过程中,在用户评分矩阵的基础上,引入时间因子,在综合用户长期兴趣与短期兴趣对兴趣计算影响的基础上,进行用户兴趣的初始化;然后,将电影的特征向量与初始化用户的兴趣向量进行迭代,获得优化后的用户兴趣;最终,根据计算得到的用户兴趣,通过基于用户的协同过滤的评分预测机制进行电影推荐,采用对电影推荐的评价实现对用户兴趣计算性能的评价。通过在Movielens数据集上的电影推荐进行验证表明,该方法在预测用户兴趣的准确性和收敛性上都有明显的提高,有望在缓解图像和视频检索中的“意图鸿沟”问题方面得到应用。3、针对“信任鸿沟”问题,采用主动认证的方式对图像/视频进行内容完整性和真实性认证,提出了一种保证图像质量的认证水印方法。该方法基于人类视觉系统在视觉感知过程中对不同方向的感知灵敏度差异,利用三个低频系数提取包括图像中水平、垂直和对角线信息的复杂方向特征图。同时,利用每个图像DCT块的直流系数和三个低频交流系数分别生成亮度和纹理特征图,将上述三个特征图进行融合,得到最终的视觉显着图。根据该视觉显着图对JND模型进行优化,将优化后的JDN模型应用于调控认证水印的视觉质量。实验结果表明,提出的水印方案在认证方面有较好的性能。
白笑笑[10](2020)在《基于网络搜索数据的冰箱销量预测研究》文中研究指明随着人们生活水平的不断提升,人们对冰箱的需求逐渐发生变化,冰箱产业也开启了新一代智能化改革,因此合理预测市场需求并依此对厂商物料采购、生产计划、市场规划等进行决策就非常重要。然而目前关于冰箱销量预测的研究却很少,仅有的研究大多都采用传统的灰色网络或时间序列模型进行预测,特征选取较宽泛,预测结果精度不高,无法满足现代化企业快速变化的发展需求。随着互联网时代的日益成熟,搜索引擎跟每个人的生活紧密联系,基于搜索指数的预测研究在多个领域被应用并取得不错的效果;另外,随着电商的兴起,使网上购物也成为一种主流的消费方式,网购产生的大量在线评论成为人们购买商品的重要依据之一。综上,本文以冰箱为研究对象,以包含百度指数及情感指数的网络搜索数据为基础,基于四种特征选择方法筛选出对冰箱销量影响最优的特征子集,并构建多种机器学习算法模型预测月度冰箱销量。本文研究内容主要包括以下方面:(1)基于消费者购买决策理论分析消费者在购买冰箱时的决策行为,提出包含百度指数及情感指数的网络搜索数据,并构建网络搜索数据与冰箱销量的关联框架模型,从理论上分析网络搜索数据对冰箱销量的预测能力;(2)分别获取网络搜索数据中的百度指数及情感指数并验证两者与冰箱销量的相关关系,为后文的预测研究奠定了数据基础;(3)基于传统的Wrapper启发式方法及本文提出的自适应遗传算法,将不同的机器学习算法作为基模型对网络搜索数据进行特征选择,筛选出对冰箱销量预测影响最优的特征子集,为后续建立模型做好准备工作;(4)基于传统的时间序列模型及随机森林和支持向量机两种机器学习算法,结合四组特征子集,同时以特征子集中是否包含情感指数为对比,共建立17组冰箱销量预测模型,比较分析不同模型的预测能力。结果表明,将随机森林作为基模型的自适应遗传算法进行特征选择得到的特征子集整体表现最好,且基于随机森林构建的预测模型各类指标评价更优,最小误差率MAPE为2.33%,较前人研究最优结果5.2%[73]提高了2.87%。
二、反馈平衡调节自适应机制在搜索引擎中的应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、反馈平衡调节自适应机制在搜索引擎中的应用(论文提纲范文)
(1)面向智能招聘的数据挖掘方法及其应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 本研究工作面临的主要挑战 |
1.3 国内外发展现状 |
1.3.1 人才吸引 |
1.3.2 人才筛选 |
1.3.3 人才评估 |
1.4 研究内容与主要贡献 |
1.5 组织结构 |
第2章 基于技能预测的岗位需求文本自动生成 |
2.1 引言 |
2.2 相关工作 |
2.2.1 招聘分析 |
2.2.2 自然语言生成 |
2.2.3 概率主题模型 |
2.3 问题定义 |
2.4 基于技能预测的岗位需求自动生成框架(Cajon) |
2.4.1 能力感知下的神经主题模型(CANTM) |
2.4.2 能力感知下的岗位需求生成神经模型(CANJRG) |
2.4.3 能力感知下的策略梯度训练算法(CAPGTA) |
2.5 实验分析 |
2.5.1 实验数据 |
2.5.2 训练参数与环境设置 |
2.5.3 基准算法 |
2.5.4 评价指标 |
2.5.5 实验结果及分析 |
2.5.6 生成示例研究与讨论 |
2.6 本章小结 |
第3章 基于技能感知的人岗匹配 |
3.1 引言 |
3.2 相关工作 |
3.2.1 人岗匹配分析 |
3.2.2 基于深度学习的文本分类与匹配 |
3.2.3 基于文本信息的推荐算法 |
3.3 问题定义 |
3.4 基于技能感知的人岗匹配框架(TAPJFNN)描述 |
3.4.1 词级别招聘文本表征 |
3.4.2 基于主题的技能感知的层级别表征 |
3.4.3 人岗匹配预测 |
3.5 人岗匹配的应用 |
3.5.1 人才初筛 |
3.5.2 岗位推荐 |
3.6 实验分析 |
3.6.1 实验数据 |
3.6.2 训练参数与环境设置 |
3.6.3 基准算法 |
3.6.4 评价指标 |
3.6.5 人才初筛实验结果及分析 |
3.6.6 岗位推荐实验结果及分析 |
3.6.7 引入非文本特征的结果与讨论 |
3.6.8 案例分析与讨论 |
3.7 本章小结 |
第4章 专业技能导向的面试题库自动生成和试题检索 |
4.1 引言 |
4.2 相关工作 |
4.2.1 智能面试辅助 |
4.2.2 技能实体识别 |
4.2.3 文本生成 |
4.3 技能导向试题生成框架描述 |
4.3.1 远程监督下的技能识别 |
4.3.2 面试试题生成 |
4.4 技能导向的试题检索算法描述 |
4.4.1 技能推荐 |
4.4.2 面试试题检索 |
4.5 技能导向试题生成实验结果分析 |
4.5.1 技能实体识别的性能分析 |
4.5.2 问题生成的性能分析 |
4.6 技能导向检索算法实验结果分析 |
4.6.1 技能推荐的性能分析 |
4.6.2 试题检索的性能分析 |
4.6.3 案例分析和讨论 |
4.7 本章小结 |
第5章 基于技能关系图的个性化笔试、面试试题推荐 |
5.1 引言 |
5.2 相关工作 |
5.2.1 智能人才评估 |
5.2.2 实体抽取和关系抽取 |
5.3 DuerQuiz框架描述 |
5.3.1 技能实体抽取 |
5.3.2 技能实体过滤 |
5.3.3 技能关系抽取 |
5.3.4 个性化问题推荐 |
5.4 技能图构建性能分析 |
5.4.1 技能实体抽取的性能分析 |
5.4.2 技能实体过滤的性能分析 |
5.4.3 技能关系抽取的性能分析 |
5.5 试题推荐的性能分析 |
5.6 案例分析和讨论 |
5.7 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来研究展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(2)基于整子多智能体的社会化搜索引擎模型及关键技术(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 现有研究存在问题分析 |
1.3 研究内容与研究目标 |
1.3.1 研究内容 |
1.3.2 研究目标 |
1.4 论文结构 |
第二章 相关工作 |
2.1 社会化搜索引擎 |
2.1.1 社会化搜索引擎概念与特点 |
2.1.2 社会化搜索引擎研究现状 |
2.2 整子多智能体系统 |
2.2.1 整子多智能体系统概念与特点 |
2.2.2 整子多智能体系统研究现状 |
2.3 Agent在社会化搜索、社会化推荐中的应用 |
2.4 本章小结 |
第三章 基于HMAS的社会化搜索引擎模型 |
3.1 基于任务角度的HMAS组织结构模型 |
3.2 HMAS自适应机制 |
3.2.1 竞争力调整机制 |
3.2.2 结构调整机制 |
3.3 基于竞争力的任务分配策略 |
3.4 基于HMAS的社会化搜索引擎体系结构 |
3.5 本章小结 |
第四章 数据获取与感知策略 |
4.1 在线社交网络数据获取方法 |
4.2 搜索数据获取方法 |
4.2.1 搜索引擎数据获取方法 |
4.2.2 结果处理方法 |
4.2.3 查询记录获取方法 |
4.3 数据主动感知策略 |
4.4 本章小结 |
第五章 在线社交网络知识获取与更新机制 |
5.1 社交网络知识获取方法 |
5.1.1 用户兴趣知识获取 |
5.1.2 用户影响力知识获取 |
5.1.3 用户社团知识获取 |
5.2 社交网络知识更新机制 |
5.2.1 知识感知方法 |
5.2.2 知识更新机制 |
5.3 本章小结 |
第六章 基于社交网络知识的搜索优化策略 |
6.1 结果排序机制 |
6.1.1 查询扩展方法 |
6.1.2 结果排序方法 |
6.2 信息推荐机制 |
6.2.1 结果推荐方法 |
6.2.2 热点推荐方法 |
6.2.3 用户推荐方法 |
6.3 本章小结 |
第七章 实验设计与结果分析 |
7.1 结果排序机制 |
7.2 查询扩展方法 |
7.3 信息推荐机制 |
7.3.1 结果推荐方法 |
7.3.2 用户推荐方法 |
7.3.3 热点推荐方法 |
7.4 社交网络知识的主动更新机制 |
7.5 自适应机制 |
7.5.1 竞争力调整机制 |
7.5.2 结构调整机制 |
7.6 系统性能 |
7.7 参数选择 |
7.7.1 结果排序参数α设置 |
7.7.2 社交社团划分参数θ的确定 |
7.7.3 结果推荐参数μ_1、μ_2的确定 |
7.7.4 知识感知方法阈值T_1、T_2、T_3、T_4的确定 |
7.8 本章小结 |
第八章 总结与展望 |
8.1 研究工作总结 |
8.2 下一步工作 |
参考文献 |
致谢 |
作者简介 |
(3)算法的法律规制研究(论文提纲范文)
中文摘要 |
abstract |
绪论 |
一、选题的背景和意义 |
二、研究现状 |
三、论文的基本框架 |
四、研究方法 |
第一章 算法应用的主要场景及规制困境 |
一、算法的广泛应用与争议 |
(一)新闻推荐场景 |
(二)搜索引擎排序 |
(三)电子商务领域 |
(四)个人信用评分 |
(五)司法裁判领域 |
二、算法的独特性质 |
(一)算法的不透明性 |
(二)算法的有限自主性 |
(三)算法的难以问责性 |
三、传统路径难以进行有效规制 |
(一)自我规制路径缺乏内在动力 |
(二)市场规制无力对抗垄断局面 |
(三)伦理规制难以有效融入算法 |
第二章 法律规制算法的法理证成 |
一、算法应用产生的社会风险 |
(一)算法歧视加剧社会不公 |
(二)算法权力形成算法统治 |
(三)深度伪造消解社会信任 |
二、算法决策对个人的不利影响 |
(一)算法分析侵害数据主体隐私权 |
(二)算法规训妨碍个人的自由意志 |
(三)算法学习加剧数字鸿沟的发展 |
三、法律规制算法的理论基础 |
(一)法律与科技的法理思考 |
(二)厘清算法的法律与法律的算法 |
(三)算法的法律属性探究 |
第三章 法律规制模式的反思与预设 |
一、我国规制算法的模式与不足 |
(一)数据保护的相关立法 |
(二)算法规制的直接条款 |
(三)当前规制模式的不足 |
二、域外规制算法的经验及局限 |
(一)以数据保护为中心的欧盟方案 |
(二)以算法责任为中心的美国路径 |
(三)欧美规制算法路径的比较分析 |
三、法律规制算法的应然选择 |
(一)以法律治理归化技术治理 |
(二)将风险防范作为规制目标 |
(三)将科技伦理作为内在指引 |
第四章 法律规制体系的系统构建 |
一、算法应用前的审查监督 |
(一)完善算法分级分类制度 |
(二)算法的透明度及其边界 |
(三)建立健全算法监督机制 |
二、算法应用中的法律保障 |
(一)明晰数据权属的界定 |
(二)赋予数据主体数据可携权 |
(三)加强对被遗忘权的保护 |
三、算法应用后的法律问责 |
(一)算法的可解释性 |
(二)算法解释权的概念及证成 |
(三)构建合理的法律问责体系 |
第五章 未来展望:以数字人权引领算法规制 |
一、人类生存状态的数字化重塑 |
二、算法技术背景下的数字人权 |
(一)数字人权中的自由命题 |
(二)数字人权中的平等命题 |
(三)数字人权中的安全命题 |
三、数字人权的保护机制 |
(一)将人权理念融入算法开发 |
(二)强化算法的道德习得能力 |
(三)提升数字弱势群体的参与 |
(四)培育数字素养与算法认知 |
结论 |
参考文献 |
作者简介及攻读博士学位期间发表的学术成果 |
后记 |
(4)基于知识的自动问答与问题生成的研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题的背景和意义 |
1.2 自动问答的研究现状 |
1.2.1 基于知识图谱的自动问答 |
1.2.2 基于表格的自动问答 |
1.3 问题生成的研究现状 |
1.3.1 基于知识图谱与表格的陈述性文本及问题生成 |
1.3.2 基于文本的问题生成 |
1.4 本文的研究内容和主要贡献 |
第2章 基于知识图谱的自动问答 |
2.1 知识图谱问答的定义 |
2.2 基于翻译的知识图谱问答 |
2.2.1 基于翻译的知识图谱问答模型概述 |
2.2.2 搜索空间的生成 |
2.2.3 问题翻译 |
2.2.4 模型的特征设计与训练 |
2.2.5 实验 |
2.3 基于多约束查询图的知识图谱问答 |
2.3.1 多约束问题数据集构建 |
2.3.2 多约束查询图的定义 |
2.3.3 基于多约束查询图的问答模型 |
2.3.4 实验 |
2.4 本章小结 |
第3章 基于表格的自动问答 |
3.1 引言 |
3.2 表格问答的定义 |
3.2.1 表格的定义 |
3.2.2 表格问答的定义 |
3.3 基于信息检索的表格问答 |
3.3.1 锚点单元检测 |
3.3.2 答案单元表示 |
3.3.3 答案单元排序 |
3.4 实验 |
3.4.1 表格问答的实验数据 |
3.4.2 实验设置及评价指标 |
3.4.3 实验结果及分析 |
3.4.4 错误分析 |
3.5 本章小结 |
第4章 基于知识图谱与表格的陈述性文本及问题生成 |
4.1 引言 |
4.2 表格到文本生成的定义 |
4.3 序列到序列的神经网络模型 |
4.4 表格到序列的神经网络模型 |
4.4.1 单行表格到序列模型 |
4.4.2 多行表格到序列模型 |
4.4.3 模型的训练与推理 |
4.5 实验 |
4.5.1 WIKITABLETEXT数据集 |
4.5.2 实现细节与评价指标 |
4.5.3 WIKITABLETEXT上的表格到文本的生成 |
4.5.4 WIKIBIO数据集上信息框到人物传记的生成 |
4.5.5 SIMPLEQUESTIONS数据集上事实到问题的生成 |
4.5.6 真实的"表格-查询"数据集上表格到查询的生成 |
4.6 本章小结 |
第5章 基于文本的问题生成 |
5.1 引言 |
5.2 文本到问题生成的定义 |
5.3 基于双重对抗的神经网络问题生成模型 |
5.3.1 双重对抗网络模型的概述 |
5.3.2 双重对抗网络的生成器 |
5.3.3 双重对抗网络的领域适应判别器 |
5.3.4 双重对抗网络的问答判别器 |
5.3.5 双重对抗网络的训练框架 |
5.4 实验 |
5.4.1 实验数据 |
5.4.2 实现细节及评价指标 |
5.4.3 文本到问题生成的基准方法 |
5.4.4 双重对抗网络的变体 |
5.4.5 实验结果 |
5.4.6 分析与讨论 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(5)基于垂直搜索引擎的农业信息推荐关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 农业网络资源 |
1.2.2 农业信息推荐技术 |
1.2.3 搜索引擎技术概述 |
1.2.4 推荐方法 |
1.3 论文主要内容 |
第二章 基于字标注分词方法的农业垂直搜索引擎设计 |
2.1 垂直搜索引擎分析 |
2.1.1 垂直搜索的特点 |
2.1.2 垂直搜索引擎关键技术 |
2.2 基于Nutch的农业垂直搜索引擎 |
2.2.1 农业垂直搜索引擎设计流程 |
2.2.2 Nutch |
2.2.3 Nutch的架构 |
2.2.4 Nutch的参数配置 |
2.3 基于字标注的中文分词技术 |
2.3.1 中文分词方法 |
2.3.2 中文分词关键技术 |
2.3.3 基于字标注的中文分词器设计 |
2.3.4 实验结果分析 |
2.4 本章小结 |
第三章 农业领域空间属性抽取方法研究 |
3.1 农业信息抽取方法概述 |
3.1.1 信息抽取 |
3.1.2 农业信息抽取方法评估标准 |
3.1.3 农业领域空间属性标注流程和方法 |
3.1.4 农业领域本体 |
3.2 农业领域空间属性抽取算法研究 |
3.2.1 显性农业领域空间属性抽取算法 |
3.2.2 隐性农业领域空间属性抽取算法 |
3.2.3 基于χ~2检验的空间属性抽取算法 |
3.3 实验结果分析 |
3.4 本章小结 |
第四章 基于农业资源分类标签的贝叶斯网络用户兴趣模型研究 |
4.1 用户兴趣建模关键技术 |
4.1.1 用户信息的来源 |
4.1.2 用户信息的识别 |
4.1.3 用户信息的收集 |
4.1.4 用户模型的表示 |
4.1.5 用户建模技术的类型 |
4.1.6 涉农用户信息需求调查 |
4.1.7 涉农用户兴趣模型 |
4.2 涉农用户浏览行为的兴趣度估算研究 |
4.2.1 浏览行为对涉农用户兴趣的体现 |
4.2.2 间接行为与涉农用户兴趣度相关性分析 |
4.2.3 基于浏览行为的涉农用户兴趣度估算 |
4.3 基于农业资源分类标签的贝叶斯网络用户兴趣模型ATBUIM研究 |
4.3.1 ATBUIM的组成结构 |
4.3.2 ATBUIM的表示方法 |
4.3.3 ATBUIM的初始化 |
4.3.4 ATBUIM的更新和优化 |
4.4 本章小结 |
第五章 基于泛函网络和特征因素的组合推荐算法研究 |
5.1 基于内容的推荐算法研究 |
5.1.1 基于内容的推荐算法流程 |
5.1.2 基于ATBUIM的推荐算法 |
5.2 基于关联规则的推荐算法研究 |
5.2.1 关联规则的挖掘 |
5.2.2 关联规则算法 |
5.2.3 产生关联推荐 |
5.2.4 关联规则推荐算法的局限性 |
5.3 协同过滤推荐算法研究 |
5.3.1 协同过滤算法的推荐流程 |
5.3.2 协同过滤算法优劣分析 |
5.3.3 综合涉农用户和项目特征因素评分的推荐算法 |
5.3.4 实验结果分析 |
5.4 泛函网络模式下的组合推荐算法 |
5.4.1 泛函网络概述 |
5.4.2 基于泛函网络的组合推荐算法 |
5.4.3 实验结果分析 |
5.5 本章小结 |
第六章 面向农业领域知识的自适应决策模型研究 |
6.1 引言 |
6.2 自适应决策过程 |
6.3 AKDM决策模型 |
6.3.1 环境建模 |
6.3.2 知识建模 |
6.3.3 服务与消息建模 |
6.4 AKDM转换函数设计 |
6.5 面向农业领域的自适应决策模型应用 |
6.6 本章小结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 论文展望 |
参考文献 |
致谢 |
攻读学位论文期间发表文章 |
(6)直播场景下音视频抖动消除的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.3 主要研究内容 |
1.4 论文结构 |
第二章 相关技术 |
2.1 WebRTC系统框架 |
2.1.1 WebRTC架构 |
2.1.2 WebRTC通信模型 |
2.1.3 WebRTC协议栈 |
2.1.4 直播场景的会话流程 |
2.2 WebRTC音视频抖动缓冲算法 |
2.2.1 音频自适应抖动缓冲算法 |
2.2.2 视频自适应抖动缓冲算法 |
2.2.3 QoS保障技术 |
2.3 本章小结 |
第三章 问题分析及测试平台搭建 |
3.1 真实应用网络环境数据的分析 |
3.2 WebRTC抖动缓冲算法的现有问题分析 |
3.3 WebRTC音视频会话测试平台的实现 |
3.3.1 开发环境 |
3.3.2 平台架构及实现 |
3.3.3 实验环境设置 |
3.4 本章小结 |
第四章 算法问题定位及优化 |
4.1 问题复现及定位 |
4.2 WebRTC抖动缓冲优化算法的设计 |
4.2.1 音频越界预防机制的设计及实现 |
4.2.2 视频JTB-Ψ的设计及实现 |
4.3 本章小结 |
第五章 优化方案性能验证 |
5.1 音频优化方案的性能测试 |
5.2 视频优化方案的性能测试 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(7)基于差分演化的大数据搜索引擎优化研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究目的及意义 |
1.2 研究现状 |
1.2.1 大数据搜索引擎的研究现状 |
1.2.2 智能优化算法的研究现状 |
1.3 论文的研究内容及结构 |
1.3.1 课题主要研究内容 |
1.3.2 论文组织结构 |
2 相关基本理论介绍 |
2.1 大数据搜索引擎 |
2.1.1 大数据分析与处理技术 |
2.1.2 智能搜索引擎 |
2.1.3 搜索引擎的构成要素 |
2.1.4 搜索引擎的评价因素 |
2.2 分布式数据文件存储与处理 |
2.2.1 Hadoop大数据平台 |
2.2.2 i Mapreduce迭代式计算框架 |
2.2.3 Mongo DB数据库 |
2.2.4 网络爬虫技术 |
2.3 差分演化算法 |
2.3.1 差分演化算法的原理 |
2.3.2 差分演化算法的流程 |
2.3.3 差分演化算法的特点 |
2.4 小结 |
3 大数据搜索引擎模型 |
3.1 天气数据分析 |
3.1.1 天气领域数据 |
3.1.2 天气搜索引擎建模(数学) |
3.2 搜索引擎模型建模 |
3.2.1 分布式Scrapy爬虫 |
3.2.2 搜索分词 |
3.2.3 数据存储 |
3.3 小结 |
4 差分演化算法优化大数据搜索引擎 |
4.1 算法优化 |
4.1.1 问题描述 |
4.1.2 优化原理 |
4.1.3 参数因子选择 |
4.1.4 基于差分演化的大数据搜索引擎模型 |
4.2 i Mapreduce优化差分演化算法 |
4.2.1 差分演化常规计算过程 |
4.2.2 iMapReduce引入 |
4.2.3 iMapreduce优化 |
4.3 小结 |
5 天气领域搜索引擎实验分析 |
5.1 实验准备 |
5.1.1 实验评价标准 |
5.1.2 实验环境与平台 |
5.1.3 实验数据 |
5.2 实验结果分析 |
5.2.1 检全率对比 |
5.2.2 检准率对比分析 |
5.2.3 搜索时间对比分析 |
5.3 小结 |
6 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及成果 |
致谢 |
(8)基于流式计算的搜索数据分析研究与系统实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 选题背景与研究意义 |
1.2 国内外研究现状 |
1.3 本文研究工作 |
1.4 论文组织结构 |
第2章 关键技术介绍 |
2.1 大数据处理技术 |
2.1.1 数据收集Flume |
2.1.2 消息队列Kafka |
2.1.3 数据分析Spark |
2.2 WEB与可视化技术 |
2.2.1 JSON Web Token |
2.2.2 RESTful架构 |
2.2.3 前后台技术 |
2.3 本章小结 |
第3章 流式计算过程研究与优化 |
3.1 流式计算研究 |
3.1.1 计算模型 |
3.1.2 任务管理 |
3.1.3 容错处理 |
3.2 性能问题与优化 |
3.3 粘性轮询分区优化 |
3.3.1 问题分析 |
3.3.2 粘性轮询分配 |
3.4 自适应SHUFFLE优化 |
3.4.1 数据倾斜 |
3.4.2 算法设计 |
3.5 优化效果 |
3.6 本章小结 |
第4章 基于搜索的分析结果优化 |
4.1 问题分析 |
4.2 数据集定制 |
4.3 搜索实现 |
4.4 数据分析指标 |
4.4.1 全局统计分析 |
4.4.2 数据统计分析 |
4.4.3 用户统计分析 |
4.4.4 行为统计分析 |
4.5 本章小结 |
第5章 系统设计与实现 |
5.1 架构设计 |
5.1.1 前后端分离架构 |
5.1.2 lambda架构 |
5.2 模块设计 |
5.2.1 数据收集模块 |
5.2.2 数据缓存模块 |
5.2.3 数据分析模块 |
5.3 系统实现 |
5.3.1 系统环境搭建 |
5.3.2 数据收集与分析 |
5.4 系统效果 |
5.4.1 数据统计展示 |
5.4.2 行为统计展示 |
5.4.3 用户统计展示 |
5.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间所发表的学术论文 |
致谢 |
(9)基于语义和兴趣的图像/视频检索与认证技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景及意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 图像和视频检索面临的挑战 |
1.2.1 语义鸿沟 |
1.2.2 意图鸿沟 |
1.2.3 信任鸿沟 |
1.3 研究内容和贡献 |
1.4 论文的组织结构 |
第二章 图像和视频检索中的关键问题 |
2.1 概述 |
2.2 语义鸿沟的弥补 |
2.2.1 基于单模态媒体的方法 |
2.2.2 基于多模态媒体的方法 |
2.3 意图鸿沟的弥补 |
2.3.1 基于相关反馈的方法 |
2.3.2 基于用户信息收集的方法 |
2.4 信任鸿沟的弥补 |
2.4.1 主动的认证方法 |
2.4.2 被动的认证方法 |
2.5 本章小结 |
第三章 基于3D CNN的视频拷贝检测 |
3.1 概述 |
3.2 拷贝检测 |
3.3 视频特征提取 |
3.3.1 静态特征 |
3.3.2 运动特征 |
3.4 所提出的方法 |
3.4.1 3D CNN |
3.4.2 并行3D CNN |
3.4.3 视频数据集 |
3.5 实验与分析 |
3.5.1 对完整视频和子视频的分类 |
3.5.2 对未知类别视频的分类 |
3.5.3 对不同结构的性能比较 |
3.6 本章小结 |
第四章 基于电影推荐的用户兴趣计算 |
4.1 概述 |
4.2 用户意图与兴趣 |
4.2.1 意图识别 |
4.2.2 兴趣计算 |
4.3 电影 |
4.3.1 电影预告片 |
4.3.2 电影描述 |
4.3.3 电影属性 |
4.3.4 电影情感的估计 |
4.4 所提出的方法 |
4.4.1 电影特征向量建模 |
4.4.2 用户兴趣向量的建立 |
4.5 实验与分析 |
4.5.1 数据集介绍 |
4.5.2 实验结果评价方法 |
4.5.3 参数的影响 |
4.5.4 与基于电影推荐的兴趣计算方法比较 |
4.6 本章小结 |
第五章 基于数字水印的图像内容认证 |
5.1 概述 |
5.2 传统的伪造方法 |
5.3 深度伪造的方法 |
5.4 数字认证水印 |
5.4.1 数字认证水印的基本特性 |
5.4.2 现有方法介绍 |
5.5 所提出的方法 |
5.5.1 视觉显着性模型 |
5.5.2 基于视觉显着性的JND模型 |
5.5.3 基于JND的水印量化 |
5.6 实验与分析 |
5.6.1 质量评价标准 |
5.6.2 鲁棒性实验 |
5.6.3 认证实验 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
攻读博士学位期间发表的学术论文和授权的发明专利 |
攻读博士学位期间承担和参与的科研项目 |
致谢 |
参考文献 |
(10)基于网络搜索数据的冰箱销量预测研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究内容及方法 |
1.2.1 研究内容 |
1.2.2 主要研究方法 |
1.3 研究特色及创新点 |
2 理论综述 |
2.1 搜索引擎指数 |
2.1.1 搜索引擎指数在经济领域的应用 |
2.1.2 搜索引擎指数在社会领域的应用 |
2.2 在线评论 |
2.2.1 在线评论有用性的研究综述 |
2.2.2 在线评论情感分析的研究综述 |
2.2.3 在线评论对商品销量预测的研究综述 |
2.3 消费者购买决策理论 |
2.4 机器学习与特征选择 |
2.4.1 特征选择原理 |
2.4.2 机器学习算法 |
2.5 冰箱销量预测 |
3 基于消费者购买决策理论构建网络搜索数据与冰箱销量的关联框架模型 |
3.1 基于消费者购买决策理论分析消费者购买冰箱的决策行为 |
3.2 网络搜索数据与冰箱销量的关联框架模型 |
3.3 概念界定与数据来源 |
3.3.1 冰箱销量数据来源 |
3.3.2 百度指数数据来源 |
3.3.3 情感指数数据来源 |
4 百度指数的获取及数据预处理 |
4.1 核心关键词获取 |
4.2 拓展核心关键词 |
4.3 百度指数获取及数据预处理 |
4.4 百度指数的时差相关性分析 |
4.4.1 百度指数的相关性分析 |
4.4.2 百度指数的时差相关分析 |
5 冰箱在线评论的情感指数获取 |
5.1 在线评论的获取及预处理 |
5.1.1 在线评论的获取 |
5.1.2 在线评论的预处理 |
5.2 新词发现 |
5.2.1 冰箱领域专业词汇 |
5.2.2 基于互信息及左右熵的新词发现 |
5.3 分词、停用词处理及词性标注 |
5.3.1 分词处理及词性标注 |
5.3.2 去除停用词 |
5.4 情感词典的构造 |
5.4.1 构造通用情感词典 |
5.4.2 构造冰箱领域情感词典 |
5.4.4 小节 |
5.5 计算情感指数 |
5.5.1 冰箱情感指数的计算 |
5.5.2 情感指数的时差相关性分析 |
6 基于网络搜索数据的冰箱销量预测 |
6.1 基于网络搜索数据的特征选择 |
6.1.1 基于Wrapper的启发式递归变量选取 |
6.1.2 基于自适应遗传算法的特征选择 |
6.2 冰箱销量的多模型预测分析 |
6.2.1 基于传统时间序列的预测模型建立 |
6.2.2 基于支持向量机的预测模型建立及优化 |
6.2.3 基于随机森林的预测模型建立及优化 |
6.3 结果分析与讨论 |
7 总结与展望 |
7.1 研究总结 |
7.2 研究应用与推广建议 |
7.3 研究不足及展望 |
致谢 |
参考文献 |
四、反馈平衡调节自适应机制在搜索引擎中的应用(论文参考文献)
- [1]面向智能招聘的数据挖掘方法及其应用[D]. 秦川. 中国科学技术大学, 2021(09)
- [2]基于整子多智能体的社会化搜索引擎模型及关键技术[D]. 王梅嘉. 西安电子科技大学, 2020(02)
- [3]算法的法律规制研究[D]. 姜野. 吉林大学, 2020(08)
- [4]基于知识的自动问答与问题生成的研究[D]. 鲍军威. 哈尔滨工业大学, 2019(01)
- [5]基于垂直搜索引擎的农业信息推荐关键技术研究[D]. 李娜. 沈阳农业大学, 2016(01)
- [6]直播场景下音视频抖动消除的研究与实现[D]. 赵杨鑫. 北京邮电大学, 2020(05)
- [7]基于差分演化的大数据搜索引擎优化研究[D]. 吴雨晨. 西安工业大学, 2020(04)
- [8]基于流式计算的搜索数据分析研究与系统实现[D]. 朱哲哲. 北京工业大学, 2020(06)
- [9]基于语义和兴趣的图像/视频检索与认证技术研究[D]. 李静. 山东师范大学, 2020(08)
- [10]基于网络搜索数据的冰箱销量预测研究[D]. 白笑笑. 西安理工大学, 2020(01)