位置:成果数据库 > 期刊 > 期刊详情页
基于改进K -均值聚类的汉语语块识别
  • ISSN号:0367-6234
  • 期刊名称:《哈尔滨工业大学学报》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001, [2]东北林业大学信息与计算机工程学院,哈尔滨150080
  • 相关基金:国家自然科学基金资助项目(60302021);科技部政府间国际合作项目(CI-2003-03);哈尔滨市青年科学基金资助项目(2005AFQXJ020).
中文摘要:

为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.

英文摘要:

An improved k-means clustering method is proposed avoiding data sparseness and taking think of the relationship of to identify Chinese phrases with the purpose of neighbor part of speech and the cohesion of all part of speeches within one phrase. The proposed method regards each phrase as a cluster whose kernel is headword, which richly used the constituent disciplinarian of one phrase. It also integrates supervised statistical method and unsupervised clustering method by setting the original center of each class according the data from small Chinese corpus, which not only improves the accuracy of clustering but also avoids data sparseness. Through testing on Chinese Penn Treebank, the F score of seven types of Chinese phrase achieves to 92. 94%. So, it is effective for Chinese text chunking.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《哈尔滨工业大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工业大学
  • 主编:冷劲松
  • 地址:哈尔滨市南岗区西大直街92号
  • 邮编:150001
  • 邮箱:
  • 电话:0451-86403427 86414135
  • 国际标准刊号:ISSN:0367-6234
  • 国内统一刊号:ISSN:23-1235/T
  • 邮发代号:14-67
  • 获奖情况:
  • 2000年获黑龙省科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27329