位置:成果数据库 > 期刊 > 期刊详情页
基于词聚类特征的统计中文组块分析模型
  • ISSN号:0372-2112
  • 期刊名称:《电子学报》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001, [2]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080
  • 相关基金:基金项目:国家自然科学基金(No.60435020;No.60673037);国家863项目(No.2006AA01Z197;No.2007AA01Z172)
中文摘要:

提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中。词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇。在聚类过程中,设计了优化算法节省聚类时间。用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统。实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能。

英文摘要:

An entropy-based hierarchical word clustering algorithm is proposed. Word clusters generated by the clustering algorithm were used as features in Chinese chunking model. Based on words' chunk tags and the theory of entropy, a binary hierarchical clustering algorithm was applied to the words in Chinese chunking corpus. An accelerating algorithm was employed to save the clustering time. With the recognition of name entity and factoid, the new Chinese chunking system was constructed based on maximum entropy Markov models, while part-of-speech features were replaced with the entropy-based word clustering features. Experimental results show that the algorithm increases the efficiency of the word clustering, and the entropy-based word clustering features improve the performance of Chinese chunking effectively.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《电子学报》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:郝跃
  • 地址:北京165信箱
  • 邮编:100036
  • 邮箱:new@ejournal.org.cn
  • 电话:010-68279116 68285082
  • 国际标准刊号:ISSN:0372-2112
  • 国内统一刊号:ISSN:11-2087/TN
  • 邮发代号:2-891
  • 获奖情况:
  • 2000年获国家期刊奖,2000年获国家自然科学基金志项基金支持,中国期刊方阵“双高”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:57611