基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)新整理

2021-04-25 13:25:24本页面

基于用户行为与本体的查询词扩展研究(陈少明硕士毕业论文)新整理


【正文】

基于用户行为与本体的查询词扩展研究 密级: 硕士学位论文 基于用户行为与本体的查询词扩展研究 西华大学硕士学位论文 作者姓名:陈少明 学科、专业:计算机软件与理论 学号:212007081202006 指导教师:杜亚军教授 完成日期:2010年4月 ClassifiedIndex: UDC: 密级: XihuaUniversity MasterDegreeDissertation ResearchofQueryExpansionBasedonUser BehaviorandOntology Candidate:ChenShaoming Major:ComputerSoftwareTheory StudentID:212007081202006 Supervisor:Prof。

DuYajun April,2010 西华大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:指导教师签名: 日期:日期 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。

(保密的论文在解密后遵守此规定) 学位论文作者签名:指导教师签名: 日期:日期 西华大学硕士学位论文 摘要 在信息检索技术中,查询词扩展是一种能够有效提高查询效率的技术。因此,通过充分发挥查询词扩展技术的优越性可以大大提高搜索引擎在搜索精确度方面的效率。查询词扩展技术通过将与用户查询词相近、相关的词扩展到用户查询词中的方法,更准确地描述用户的信息需求,去除用户查询词的多义性,从而更精确地查询用户所需信息。 为了更好地实现查询词扩展,解决传统查询词扩展技术缺少智能性以及主题性差的问题,结合形式概念分析与用户行为(搜索日志)、本体(Ontology)进行查询词扩展,可以综合三者的优点。

形成一套基于形式概念分析、用户行为、本体的查询词扩展方法,从而提高搜索引擎的查询准确率。 本文的主要研究内容归纳如下: 1.提出了一种基于用户搜索行为的查询词扩展源的抽取方法。分析用户的搜索历史和点击网页历史以及他们之间的潜在相关性,同时考虑搜索返回网页顺序和用户点击网页顺序,从网页中抽取出能表达用户搜索意图、用户兴趣的相关词作为查询扩展词,将网页和抽取出的查询扩展词分别作为概念的对象和属性并构造概念格,将其作为查询词扩展源。实验表明使用本文方法抽取的查询词扩展源优于使用传统方法抽取的扩展源。 2.提出一种构建用户本体的方法。从WordNet中抽取出查询词与查询扩展源的相等、相似、ISA、partof等语义关系。

利用本体的构建方法,把查询词、查询词扩展源以及它们之间的语义构建成用户本体。 3.提出了一种基于本体的查询词扩展方法。利用本体的相似、相等、上义、下义和PartOf语义关系,提出一个基于本体的查询词与概念相似度计算的新方法。通过这种查询词与概念相似度的量化,可以很好的找到与查询词最相关概念进行查询词扩展,从而提高用户搜索准确率。实验通过把本文方法的查询词扩展结果与目前其它方法的查询词扩展结果对比,表明了本文提出的方法是具有可行性的。 关键词:搜索引擎;查询词扩展;用户搜索行为;本体;形式概念分析 I Abstract Queryexpansiontechnologycaneffectivelyimprovethequeryefficiencyininformationretrieval。

SoThroughtakingtheadvantagesofqueryexpansiontechnologycangreatlyimprovethesearchengine’sefficiencyofsearchaccuracy.Queryexpansiontechnologycandescribetheusersinformationneedsbyaddingthewordsrelatedtotheusertotheuser’soriginalquery.Itcanremovethequeryambiguityandpreciselysearchtheuser’srequiredinformation。

InordertoimprovetheQueryExpansionandovercomeshortcomingsofthetraditionalQueryExpansiontechnology,suchasbadsemanticandbadtopicality,thisdissertationadvanceanewQueryExpansionmethodbasedontheuserbehavior,combinedwithOntologyandFormalConceptAnalysis.Threeadvantagescanbeintegratedtoformasetofqueryexpansiontechnologybasedonformalconceptanalysis、userbehaviorandontology。

ItcangreatlyimproveSEsearchaccuracy. Themainresearchworksofthedissertationaresummarizedasfollowing: 1.Advanceanovelmethodofextractingthequeryexpansiontermsbasedonuser’ssearchbehavior.Aqueryexpansionmechanismbasedonuser’ssearchbehaviorisproposed.Themethodanalyzestheirpotentialrelevanceoftheuserssearchhistoryandclickhistory。

Thesearchreturnsequenceandtheuserclickssequenceareconsideredaswell.Sowecanextracttermswhichcandepicttheuser’srequirements.Aconceptlatticeisbuiltbyusingthewebextractedterms.Weconsiderthelatticethequeryexpansionsource.Anexperimentillustratesthatourmethodcaneffectivelyextracttherelevanttermsandimprovesthequality。

2.Proposeamethodofbuildinguserontology.Extractingsemanticrelations(equal,similar,ISAandpartof)ofqueryandquerysource.Buildinguserontologywithquery,querysourceandrelationsusingthemethodofontologybuilding. 3.ProposeanovelQueryExpansionmethodbasedontheDomainOntology.Byusingthesemanticofontology,suchassynonymous。

equal,ISAandpartof,wepresentanewmethodtocalculatethesimilaritybetweenthenewqueryandconceptsinFormalConceptLatticebasedonontology.Anewconcept,whichismostrelatedtotheuser,canbefoundtoexpandthequerybythequantitativemethod.Soitcanimprovethesearchaccuracy.Comparingthequeryexpansionresultsofmymethodandtheotherordinalmethods。

theexperimentindicatesmymethodisfeasible. KeyWords:SearchEngine;QueryExpansion;Userbehavior;Ontology;FormalConceptAnalysis V 目录 摘要 I Abstract II 1绪论 1 1.1查询词扩展技术研究现状 2 1.1.1全局分析 2 1.1.2局部分析 3 1.1.3局部上下文分析 4 1.1.4基于用户日志 4 1.1.5基于词表 4 1.2本体研究现状 5 1.3查询词扩展技术存在的问题 7 1.4本文的主要内容与结构 8 2基于用户搜索行为的查询扩展源生成方法 10 2。

1用户搜索日志 10 2.2停用词 10 2.3共现词分析 11 2.4提取方法 13 2.5提取算法 16 3基于WordNet的用户本体构建方法 18 3.1本体的介绍 18 3.1.1本体的定义 18 3.1.2领域本体与用户本体 19 3.2WordNet 19 3.3基于WordNet的用户本体构建方法 22 4基于用户本体的查询词扩展方法 26 4.1形式概念分析 26 4.2提出的查询词与概念相似度计算方法 28 4.3扩展方法 32 4.4算法 33 5实验与结果分析 35 5.1系统实现 35 5.1.1开发环境和接口 35 5.1.2核心数据结构及算法 36 5。

2实验过程 43 5.2.1基于用户搜索行为的扩展源提取 43 5.2.2基于用户本体的查询词扩展 46 5.3结果分析 50 5.3.1参数值的设置评价 50 5.3.2效果对比 53 结论 57 参考文献 58 攻读硕士学位期间学术论文及科研情况 63 致谢 64 西华大学硕士学位论文 1绪论 近年来互联网技术的快速发展不仅改变了人类的生产和生活方式,而且极大地变革了人类获取、存储、传播和利用信息的方式,对传统的信息服务模式提出了挑战,成为推动全球经济一体化的主要动力。人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会。 随着互联网不断发展并日益普及,网上的信息量正在以爆炸式的速度增长。

当前Internet已经成为人们日常生活的主要信息来源。《第25次中国互联网络发展状况统计报告》显示,截2009年12月30日止,中国网民规模达到3.84亿人,普及率达到28.9%,超过全球平均水平;网民规模较2008年底增长8600万人,年增长率为28.9%,中国网民规模依然保持快速增长之势。搜索引擎是网民在互联网中获取所需信息的基础应用,目前搜索引擎的使用率为73.3%,在各互联网应用中位列第三。目前搜索引擎用户规模达到2.8亿人,年增长率为38.6%[1]。但是,面对着如此巨大的网络信息和搜索引擎应用的普及,网民却碰到了棘手的难题。迅速增长的网页虽然可以给人们提供更多的信息,但是广大网民面对如此浩渺的信息海洋。

医学论文相关推荐  
三九文库 www.999doc.com
备案图标苏ICP备2020069977号