位置:成果数据库 > 期刊 > 期刊详情页
基于朴素贝叶斯的文本分类研究综述
  • ISSN号:1007-7634
  • 期刊名称:《情报科学》
  • 时间:0
  • 分类:G254.9[文化科学—图书馆学]
  • 作者机构:南京大学信息管理学院,江苏南京210023
  • 相关基金:国家社会科学基金重大招标项目(12&ZD221);国家科技支撑计划子课题(2011BAH30B01-04)
中文摘要:

文本自动分类是自然语言处理领域的重要分支之一,已经形成了大量的模型以及算法,其中基于朴素贝叶斯的相关研究是该领域持续的热点。本文对基于朴素贝叶斯的文本自动分类研究进行了系统的综述。探讨了多项式模型和多元伯努利模型等经典的朴素贝叶斯分类方法。重点分析了经典的特征选择方法以及包括ALOFT等在内的多种改进的特征选择方法。论文还对从加权、避免平滑等视角的NB改进算法进行了梳理。最后,提出了进一步改进NB的主要思路。

英文摘要:

Automatic text classification is an important branch of natural language processing, and has already been formed amounts of models and algorithms, included Naive Bayes which is one of sustained research focus in this field. This article summarizes researches on automatic text classification based on Naive Bayes systematically,and discusses classic Naive Bayes methods, including multinomial model and multivariate Bernoulli model. This analyses on classical feather selection methods and some improved methods including ALOFT. And improved NB algorithms are sorted from avoiding smoothing and weighted aspects. Finally, this work presents main idea for NB further improved.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930