位置:成果数据库 > 期刊 > 期刊详情页
基于相似度的词聚类算法和可变长语言模型
  • ISSN号:1000-1220
  • 期刊名称:小型微型计算机系统
  • 时间:0
  • 页码:912-915
  • 语言:中文
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江西财经大学信息学院数据与知识工程江西省重点实验室,江西南昌330013, [2]中南大学信息科学与工程学院,湖南长沙410083
  • 相关基金:国家自然科学基金项目(60763001,60663007)资助;中南大学博士后科学基金项目(2007)资助;
  • 相关项目:文本自动分类中维数约简方法研究
作者: 袁里驰|
中文摘要:

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vail—gram)的生成方法.

英文摘要:

Cluster-based statistic language model is an important method to solve the problem of sparse data. Conventional statistical clustering methods usually base on greedy principle. The common Metric for evaluating a clustering algorithm is the likelihood function or perplexity of the corpus. Conventional clustering algorithms often converge to a local optimum, so global optimum is not guaranteed,and initial choices can influence final result. The author tries to solve above problems in this paper, and presents a definition of word similarity by utilizing mutual information. Based on word similarity, a bottom-up hierarchical clustering algorithm is proposed. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance. At the same time, a new method to create the vari-gram language model is presented.

同期刊论文项目
期刊论文 31 会议论文 6 著作 1
期刊论文 33 会议论文 14 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212