位置:成果数据库 > 期刊 > 期刊详情页
可并行中文同主题词聚类新算法
  • 期刊名称:北京邮电大学学报, 2009, 32(4): 122-127. (国内期刊,EI收录)
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京邮电大学网络与交换技术国家重点实验室,北京100876
  • 相关基金:国家自然科学基金项目(60872051;60432010);国家重点基础研究发展计划项目(2007CB307100)
  • 相关项目:移动网络服务中智能化用户需求模型研究
中文摘要:

提出了一种高效的自动按照主题对中文词进行聚类的算法.该算法利用顿号(、)切分抽取语料库句子中的并列中文词,并以抽取出的中文词为节点构建一个共引用图;然后对每个中文词节点产生若干个locality sensitiveHashing(LSH)签名组合;最后将至少有1个相同LSH签名组合的任意2个中文词标记为同一个主题类.实验表明,该算法运算速度快,且易并行实现,在海量语料库的支持下,执行效率高,聚类效果较好.

英文摘要:

A simple but powerful algorithm for automatically clustering Chinese co-topic words is presented. The method first uses punctuation '、' to split and extract paratactic Chinese words within sentences from a corpus and constructs a co-citation graph by treating Chinese words as nodes. Second, the method generates several locality sensitive Hashing (LSH) signature combinations for each node in the co-citation graph. Those nodes shared at least one LSH signature combination, are grouped together and most of them may belong to the same topic. The main advantages of the algorithm are the fast speed of calculation and high convenience of implementation in parallel. Experimental results indicate the high efficiency and good clustering effect.

同期刊论文项目
期刊论文 62 会议论文 44 专利 14
同项目期刊论文