位置:成果数据库 > 期刊 > 期刊详情页
无词典抽词的RMMFS和BMMFS方法及其比较研究
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:H164[语言文字—汉语]
  • 作者机构:[1]大连理工大学系统工程研究所,大连116024
  • 相关基金:本文得到国家自然科学基金(项目编号:70271046)资助.
中文摘要:

针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS).这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词.实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果.

英文摘要:

To solve the problem of automatic word extraction which is the basis of Chinese information processing, this paper presents two new methods reverse maximum matching and frequency statistics(RMMFS) and bidirectional maximum matching and frequency statistics( BMMFS). RMMFS and BMMFS count string frequency by reverse and bidirectional matching longer strings first respectively and obtain co-occurrence patterns of Chinese characters. Refined and filtered by introducing rules and support criteria, special semantic strings, phrases and words, including unknown words like proper nouns and terms, can be extracted in real time without using dictionary, without previous study and without constructing Chinese characters index. The effect of rules and the accuracy distribution of word extraction of RMMFS and BMMFS in different text size and word frequency are studied. Experiments show that BMMFS can get better result.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778