位置:成果数据库 > 期刊 > 期刊详情页
维吾尔文Bigram文本特征提取
  • ISSN号:1002-8331
  • 期刊名称:计算机工程与应用
  • 时间:2015.3.1
  • 页码:216-221
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆大学网络与信息技术中心,乌鲁木齐830046, [2]新疆大学信息科学与工程学院,乌鲁木齐830046, [3]新疆多语种信息技术重点实验室,乌鲁木齐830046
  • 相关基金:国家自然科学基金(No.61363064,No.61163028)
  • 相关项目:维吾尔文手写签名识别与验证的关键技术研究
中文摘要:

文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。

英文摘要:

Text representation is the most important phase in automatic text categorization. In the vector space model based text representation, the selection of feature granularity has the direct impact on the text categorization performance.The word features don't have the good representative power to represent the Uyghur texts in text categorization. To solve this problem, the CHIMI based Uyghur Bigram extraction method is proposed and the Uyghur text categorization experiments are conducted using support vector machine algorithm based on the extracted Bigrams as text features. The experimental results show that the Bigram based Uyghur text categorization achieves higher classification precision and recall compared to the word based categorization and experiments demonstrate the effectiveness of the proposed algorithm.

同期刊论文项目
期刊论文 12 会议论文 8 著作 1
同项目期刊论文
期刊信息
  • 《计算机工程与应用》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:怀进鹏
  • 地址:北京市海淀区北四环中路211号北京619信箱26分箱
  • 邮编:100083
  • 邮箱:ceaj@vip.163.com
  • 电话:
  • 国际标准刊号:ISSN:1002-8331
  • 国内统一刊号:ISSN:11-2127/TP
  • 邮发代号:82-605
  • 获奖情况:
  • 1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:97887