东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

文本分类中粗分类数据噪声修正的网络算法

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] F713.52[经济管理—市场营销;经济管理—产业经济]
作者机构：[1]大连理工大学系统工程研究所,大连116023
相关基金：国家自然科学基金重点项目（70431001）,国家自然科学基金重大国际合作项目（70620140115）,国家自然科学基金资助项目（70271046,70301009）

关键词：噪声数据修正, 模块度优化, 文本分类, 集团结构, noise texts revision, modularity optimization, text categorization, community structure

中文摘要：

在文本分类的实际应用中经常使用粗略分类的数据来训练分类器，但是这种数据中经常会包含类别标记有误的数据，这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法，首先建立文档关联网络，把文档上标记的类别作为在网络上划分的集团结构，并用模块度衡量集团结构的质量，通过优化模块度指标把噪声数据调整到合适的类别中，从而提高数据质量。实验结果表明，本文所提算法能够有效修正粗分类数据中的噪声，且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理，或作为辅助技术用于文献库建设等工作。

英文摘要：

Training data is necessary to train the classifiers in Text Categorization. In fact, there are always some documents distributed to a wrong category in training text corpus, which are named noise texts. If we use noise texts in text mining applications directly, the efficiency of the text mining will be influenced. This paper proposes a revision algorithm for noise texts based on network. Firstly, document-similarity network （DSN） is constructed. The categories constitute the corresponding community structure in the network, and modalarity is used to evaluate the quality of the categories. The noise texts can be revised through modularity optimization. The experimental results indicate the efficiency and robustness of the algorithm. This algorithm can be used in the preprocessing of text mining or taxonomy building.

同期刊论文项目

项目管理中项目关联分析与立项决策支持系统研究

期刊论文 19

知识集成与知识创新的基础理论研究

期刊论文 48

企业（组织）知识管理若干基础科学问题研究

期刊论文 65

应用于B2B电子商务的语义Web Services适应性分散

期刊论文 7 会议论文 8

同项目期刊论文

专业知识交流及其可视化支持工具研究

国际能源技术前沿热点领域演进的可视化

按流失度对组织知识分类的超网络模型

纳米技术研究前沿及其演化的可视化分析

基础研究项目分类的新方法

用信息可视化方法分析科研领域发展状况

国际科学技术政策关键节点文献演进的可视化分析

美国专利商标局10个高被引专利的计量分析

我国大学科学学的学科建设和人才培养

基于扩展邻居的协同过滤算法

基于概念相关性度量的语义Web服务匹配：模型及匹配器原型

基于信息可视化的组织行为领域前沿演进分析

中国专利研究现状的计量分析

国际专利研究现状分析

现代工程前沿图谱与中国自主创新策略

Q-测度法在合作网络性别研究中的应用

国际工程伦理的知识聚类及其前沿演进研究

系统集成创新与知识的集成和生成

新巴斯德象限：高科技政策的新范式

元决策：支持决策科学化与民主化的手段

超网络初探

企业隐性知识导航方法研究

基于知识图谱的国际生物科学与工程前沿计量研究

文本粗分类数据中噪声的快速修正算法

TOWARD COLLECTIVE INTELLIGENCE OF ONLINE COMMUNITIES： A PRIMITIVE CONCEPTUAL MODEL

科研领域知识的网络表示模型及应用研究

专业知识交流及其可视化支持工具研究

应急决策知识发现的推理方法研究

国际能源技术前沿热点领域演进的可视化

基于ICA的时间序列聚类方法及其在股票数据分析中的应用

基于PCA的复杂网络社区结构分析方法

一种改进的禁忌搜索算法及其在选址问题中的应用

具有无尺度拓扑与小世界效应的Sierpinski网络

科研领域关联网络的社团结构分析

基于变分不等式的网络广告资源分配的超网络模型

纳米技术研究前沿及其演化的可视化分析

基础研究项目分类的新方法

用信息可视化方法分析科研领域发展状况

国际科学技术政策关键节点文献演进的可视化分析

美国专利商标局10个高被引专利的计量分析

我国大学科学学的学科建设和人才培养

基于扩展邻居的协同过滤算法

基于概念相关性度量的语义Web服务匹配：模型及匹配器原型

基于本体的急救知识移动问答研究

一种基于加权超网络模型的组织知识搜索定位方法

基于潜在语义索引的SVM文本分类模型

基于句子的文本表示及中文文本分类研究

一种基于范畴论的应急决策概念建模方法

基于信息可视化的组织行为领域前沿演进分析

基于规则与统计的本体概念自动获取方法研究

基于主题地图的文献组织方法研究

基于加权超网络模型的组织知识存量表示方法

基于词序方法的文本相似度计算模型

中国专利研究现状的计量分析

国际专利研究现状分析

现代工程前沿图谱与中国自主创新策略

发明者合作网络中心性对科研绩效的影响

模拟植物生长算法与知识创新的几点思考

一种设计层次支持向量机多类分类器的新方法

基于改进线图分析算法的浅层汉语句法分析器的设计与实现

无词典中文特征词自动抽取的桥接模式滤除算法

基于本体的项目和领域专家匹配原型系统

客户知识管理——概念与量表开发

Q-测度法在合作网络性别研究中的应用

三螺旋接口组织与创新机制

基于共被引率分析的期刊分类研究

企业内部知识传播的系统动力学模型研究

技术转移中隐性知识转化的影响因素研究

转型企业技术能力再造的路径分析与战略选择

国际工程伦理的知识聚类及其前沿演进研究

谁在关注中国？——SSCI、A＆HCI中国主题文献计量分析

三螺旋创新模式下的全球学术界专利竞争

国际氢能研究的文献计量学分析

基于产品技术链的发展中国家企业技术追赶研究

系统集成创新与知识的集成和生成

基于文本聚类的客户知识获取和应用研究

新巴斯德象限：高科技政策的新范式

元决策：支持决策科学化与民主化的手段

基于加权知识网络的个人知识存量表示与度量方法

超网络初探

企业隐性知识导航方法研究

基于实践论的隐性知识获取模型研究

国际科技政策研究高产国家与机构合作网络

BA演化模型的一种扩展

基于模糊核聚类的SVM多类分类方法

一种支持向量集合的精简算法

基于知识图谱的国际生物科学与工程前沿计量研究

文本粗分类数据中噪声的快速修正算法

TOWARD COLLECTIVE INTELLIGENCE OF ONLINE COMMUNITIES： A PRIMITIVE CONCEPTUAL MODEL

创建知识系统工程学科

A Modified Ant-based text clus

科研领域关联网络的社团结构分析

基于概念相关性度量的语义Web服务匹配：模型及匹配器原型

自动提取含字母词语的领域新术语的研究

无词典抽词的RMMFS和BMMFS方法及其比较研究

无词典中英文混合术语抽取及算法研究

基于长度递减与串频统计的文本切分算法

项目关联分析与宏观知识挖掘

一种基于加权超网络模型的组织知识搜索定位方法

基于规则与统计的本体概念自动获取方法研究

基于加权超网络模型的组织知识存量表示方法

基于改进线图分析算法的浅层汉语句法分析器的设计与实现

无词典中文特征词自动抽取的桥接模式滤除算法

基于加权知识网络的个人知识存量表示与度量方法

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778