位置:成果数据库 > 期刊 > 期刊详情页
基于ontology抽取优化初始选择的检索结果聚类
  • ISSN号:0372-2112
  • 期刊名称:《电子学报》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院信息检索研究室,黑龙江哈尔滨150001
  • 相关基金:国家自然科学基金重点项目(No.60435020);国家自然科学基金面上项目(No.60503072)
中文摘要:

本文针对互联网的数据量的不断增加,准确搜索引擎的作用日益困难的问题,为了提高搜索引擎返回结果结构化聚类的效果,让信息的定位更迅速,本文采用基于标签的聚类算法,并使用自然语言处理技术中的依存句法分析和词典资源,深度挖掘语义结构,提出基于优化初始选择的K均值聚类方法.本文深入分析K均值聚类算法特点,并利用类别标签技术对该算法进行有效改进.实验证明该算法不仅在效果上优于一般聚类算法,对结果描述也有很大帮助,在效率上也得到很大提高.

英文摘要:

Along with the constant development of the Internet and the ever-increasing amount of data,the role of search engines has become increasingly evident.More users rely on search engines to find the information needed.In order to more effectively cluster the search results,thus facilitating the positioning of information among the original unstructured results,a new label-based clustering algorithm is introduced in this paper.The key idea is to use the dictionary resource and Dependency Syntax Parsing in NLP to extract the ontologies related to the query. These extracted ontologies will further guide the choosing of centroids in K-means clustering. Furthermore, the various features of K-means algorithm have been fully investigated, and a way of improvement is proposed by using the cluster labels. Experiments show that this algorithm not only yields more effective cluster results but also provides more informative descriptions of the results;meanwhile,the efficiency has also been largely improved.

同期刊论文项目
期刊论文 38 会议论文 15
同项目期刊论文
期刊信息
  • 《电子学报》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:郝跃
  • 地址:北京165信箱
  • 邮编:100036
  • 邮箱:new@ejournal.org.cn
  • 电话:010-68279116 68285082
  • 国际标准刊号:ISSN:0372-2112
  • 国内统一刊号:ISSN:11-2087/TN
  • 邮发代号:2-891
  • 获奖情况:
  • 2000年获国家期刊奖,2000年获国家自然科学基金志项基金支持,中国期刊方阵“双高”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:57611