位置:成果数据库 > 期刊 > 期刊详情页
基于边权重的主题核心术语抽取
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001, [2]哈尔滨工程大学图书馆,哈尔滨150001
  • 相关基金:国家自然科学基金重点项目(61133012);国家自然科学基金面上项目(61273321); 国家863前沿技术研究项目(2015AA015407)
中文摘要:

术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的方法显著优于前人的相关工作。

英文摘要:

Term extraction is a primary subtask of hierarchy construction. Existing studies for term extraction mainly focus on text corpora and indiscriminately mix numerous topics,which may lead to a knowledge acquisition bottleneck and misconception. To deal with these problems,this paper proposes a method of topic key term extraction based on edge weight to extract topic key term from folksonomy. In view of semantic association characteristics of folksonomy,the edge weight which combines the local co- occurrence in a specific topic with the global semantic similarity over all the topic dimensions in the whole collection considered is proposed. The new edge weight can decompose a traditional random walk into multiple random walks specific to various topics,and each of these walks outputs a list of terms ordered on the basis of importance score. Then,the top- ranking terms are extracted as the topic key terms for each topic. Experiments show that the proposed method outperforms other state- of- the- art methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651