位置:成果数据库 > 期刊 > 期刊详情页
基于内容相似度的文摘自动评测方法及其有效性分析
  • ISSN号:1002-0470
  • 期刊名称:《高技术通讯》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学语言语音教育部-微软重点实验室,哈尔滨150001
  • 相关基金:国家自然科学基金(60302021)和黑龙江省自然科学基金(F2004-04)资助课题
中文摘要:

随着Internet以及Intranet中大量可利用信息的爆炸式增长,文水分类成为处理和组织大量文档数据的关键技术之一。该文提出一种术体论和统计方法相结合的混合语言模型,用以解决自动文本小分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言木体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言木体知识库分别获得对文档的评价值,并以所获得的最高计价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文术分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。

英文摘要:

With the volume of information available increase, text classification has become one of the key on the Internet and corporate intranets continues to technology in organizing and processing large amount of document data. This paper gives a novel method of Chinese text categorization based on a combination of ontology with statistical method. In this study, first, linguistic ontology knowledge bank will be respectively acquired by learning training corpus for various classes to determine the various categorizations. For a actual document, the evaluation value will respectively be gotten by various linguistic ontology knowledge bank and the categorization will be judged by the highest evaluation value. This method is compared with Bayes, k-nearest neighbor and support vector machine, The primary experimental results show that the method outperforms that previous work.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《高技术通讯》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国科学科技部
  • 主办单位:中国科学技术信息研究所
  • 主编:赵志耘
  • 地址:北京市三里河路54号
  • 邮编:100045
  • 邮箱:hitech@istic.ac.cn
  • 电话:010-68514060 68598272
  • 国际标准刊号:ISSN:1002-0470
  • 国内统一刊号:ISSN:11-2770/N
  • 邮发代号:82-516
  • 获奖情况:
  • 《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:12178