位置:成果数据库 > 期刊 > 期刊详情页
一种改进的基于《知网》的词语语义相似度计算
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:84-89
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京信息科技大学中文信息处理研究中心,北京100101, [2]北京拓尔思信息技术股份有限公司,北京100101
  • 相关基金:国家863计划重点资助项目(2006AA010105);国家自然科学基金资助项目(60772081);北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676);北京市教委科技发展计划项目(KM200710772010)
  • 相关项目:基于语义的中文文本聚类研究
中文摘要:

中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如“美丽”与“贼眉鼠眼”的相似度为0.814815,与“优雅”的相似度为0.788360,“深红”与“粉红”的相似度仅为0.074074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。

英文摘要:

Word similarity computing based on the "HorNet" of Liu Qun is a representative method to compute the word similarity. But it is found that some words with contrastive or contradictive meanings are computed with high similarity compared those true synonymous. To resolve this defect for the word polarity analysis, we confine the value of word similarity between [-1, +1] in this paper, and enhance the word similarity computation on the basis of Liu's paper by employing sememes' depth information, the antonym and definition information of the sememe. This method produces a good performance in the word polarity recognition experiment, achieving 99.07 % in accuracy and 99.11% in recall.

同期刊论文项目
期刊论文 13 会议论文 5
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136