位置:成果数据库 > 期刊 > 期刊详情页
基于N—gram复合分词的领域概念自动获取方法研究
  • ISSN号:1000-7490
  • 期刊名称:《情报理论与实践》
  • 时间:0
  • 分类:G250.73[文化科学—图书馆学]
  • 作者机构:[1]南京理工大学经济管理学院信息管理系,江苏南京210094
  • 相关基金:本文为国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(项目编号:11&ZD152)和总装技术基础研究课题“领域知识获取方法及应用研究”(项目编号:G20121QB05)的成果.
中文摘要:

文章提出一种基于N-gram复合分词的领域概念自动获取方法,在中文分词的基础上进行N元复合切分,通过建立一系列过滤规则,提取候选领域概念;然后以改进的TF—IDF作为衡量领域相关性的统计特征值,计算候选概念的领域相关性;最后进行人工辅助判断与筛选。以航空发动机领域语料为样本进行了实践探索,实验结果表明该方法能有效抽取专业领域概念,具有较强的实用性。

英文摘要:

This paper presents a method to acquire domain concepts automatically based on N-gram composite word segmenta- tion, which implements N-element composite word segmentation on the basis of Chinese word segmentation, and extracts the candi- date domain concepts by establishing a series of filtering rules. Then, an improved TF-IDF is used as a statistical feature value for the measurement of domain relevance to calculate the domain relevance of candidate concepts. Finally, the artificial auxiliary judg- ment and filtering will be taken. The paper carries out a practical exploration with the corpus in the aero engine field as the sample, and the experimental results show that this method can effectively extract the concepts in the professional domain and has stronger practicability.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报理论与实践》
  • 北大核心期刊(2011版)
  • 主管单位:中国兵器工业集团公司
  • 主办单位:中国国防科学技术信息学会 中国兵器工业集团第二一零研究所中国兵器工业第二一0研究所
  • 主编:王忠军
  • 地址:北京2413信箱10分箱
  • 邮编:100089
  • 邮箱:ita@onet.com.cn
  • 电话:010-68961793 68963306
  • 国际标准刊号:ISSN:1000-7490
  • 国内统一刊号:ISSN:11-1762/G3
  • 邮发代号:82-436
  • 获奖情况:
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:26785