东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

贝叶斯文本分类中特征词缺失的补偿策略

ISSN号：0367-6234
期刊名称：《哈尔滨工业大学学报》
时间：0
分类：TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学管理学院哈尔滨150001, [2]哈尔滨工业大学计算机科学与技术学院哈尔滨150001
相关基金：国家自然科学基金资助项目（70572023）;黑龙江省自然科学基金资助项目（GC05A116）.

关键词：文本分类, 贝叶斯分类, 特征词缺失, 数据平滑, text classification, naive Bayes classification, unseen feature words, data smoothing

中文摘要：

为了解决朴素贝叶斯分类器在处理文本分类任务时，往往存在的特征词缺失问题，即由于语料库中的词语出现分布情况遵循Zipf定律，仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题．引入统计语言模型中的数据平滑算法，通过从已出现词中“折扣”出一定的概率再分配到未出现词中去，来计算缺失特征词的补偿概率，以此克服数据稀疏问题带来的影响，评测数据在去掉停用词的分类过程开放测试中，引入Good-Turing算法的分类性能比Laplace原则提高了3．05％，比Lidstone方法提高1．00％．而在交叉熵选择特征词的算法中，增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1．95％．通过这种数据平滑的算法，有助于克服因数据稀疏而引发的特征词缺失问题．

英文摘要：

When applied to deal with text classification task, naive Bayes is always suffered from the unseen feature words problem. Moreover, this problem is hardly to be solved by expanding the corpora for there is the sparse data problem in the corpora, in which the distribution of words complies with Zipf law. Inspired by statistical language model, a novel approach is proposed, which applies the smoothing algorithms to naive Bayes for text classification task to overcome the unseen feature words problem. The experimental corpora come from the data in National 863 Evaluation on text classification, and in the open test with removing the stop words, the naive Bayes performance with Good-Turing algorithm is 3.05% higher than that with Laplace, and 1.00% higher than that with Lidstone. And in the experiment with cross entropy extracting feature words, the performance of naive Bayes with Good-Turing algorithm is even 1.95% higher than that of Maximum Entropy model. The smoothing algorithm is helpful to solve the unseen feature words problem due to the sparse data.

同期刊论文项目

面向采购的网上招投标理论方法及系统研究

期刊论文 40 会议论文 17

同项目期刊论文

基于云与或树的复杂决策问题规约研究

基于云理论的群体复杂决策中不确定知识的表示

基于关联规则分析的组合拍卖竞胜标确定算法研究

基于偏好约束锥DEA模型的供应商综合评价方法

基于自动议价系统的消费者议价行为研究.

Negotiating Agent: Concept, Architecture and Communication Model. Lecture Notes in Artificial Intell

Research on Project Management- oriented Collaborative Knowledge Management and System.

面向电子商务的一对多谈判支持模型.

基于DEA模型的电子商务网站综合评价与质量诊断

不确定信息条件下电子商务网站综合评价方法研究

基于粗糙案例推理在线自我学习决策方法

基于移动Agent技术的自动拍卖模拟研究

基于关系模型的不确定性知识表示与推理及其在KMS中的应用

Issues in automated negotiation: protocol and ontology

基于Agent的谈判模型研究

面向B2B的竞争性电子采购机制设计

面向政府采购的多属性电子拍卖机制设计.

密封电子拍卖RHT加密协议

科技项目在线协同评审工作流系统设计与实现.计算机应用研究

面向Agent的供应链谈判模型研究

基于定性仿真的谈判模型研究

基于灰色趋势关联度分析的一对多谈判解支持算法

基于粗糙证据合成的群决策方法

面向政府采购的多属性电子拍卖机制设计

基于关联规则分析的组合拍卖竞胜标决定算法

层次交互式多属性电子拍卖中标人选择方法

基于软约束满足理论的用户偏好建模方法

基于支持向量机的在线拍卖成交价格预测方法

逆向多属性拍卖投标策略及收益性分析

在线逆向拍卖供应商投标决策支持模型

ERP系统与业务流程匹配的结构化分析方法

基于Agent的协同感知控制体系与通信机制

期刊信息

《哈尔滨工业大学学报》
中国科技核心期刊

主管单位:中华人民共和国工业和信息化部
主办单位:哈尔滨工业大学
主编：冷劲松
地址：哈尔滨市南岗区西大直街92号
邮编：150001
邮箱：
电话：0451-86403427 86414135

国际标准刊号：ISSN：0367-6234
国内统一刊号：ISSN：23-1235/T
邮发代号:14-67

获奖情况:
2000年获黑龙省科技期刊评比一等奖,中国期刊方阵“双效”期刊

国内外数据库收录:
美国化学文摘（网络版）,美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:27329