东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种结合主动学习的半监督文档聚类算法

ISSN号：1000-9825
期刊名称：软件学报
时间：2012.6.1
页码：1486-1499
分类：TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]湘潭大学信息工程学院,湖南湘潭411105, [2]西北师范大学数学与信息科学学院,甘肃兰州730070, [3]中国科学院计算技术研究所智能信息处理重点实验室,北京100190
相关基金：国家自然科学基金（6110505z,61070232）;湖南省自然科学基金（11JJ4051）;湖南省教育厅一般项目（10C1262）;湘潭大学博士启动基金（10QDZ42）;中国科学院计算技术研究所智能信息处理重点实验室开放基金（IIP2010-6）;西北师范大学青年教师科研能力提升计划骨干项目（NWNU-LKQN-10-1）
相关项目：基于云计算平台Hadoop的海量数据聚类研究

关键词：半监督聚类, 文档聚类, 主动学习, 成对约束, semi-supervised clustering, document clustering, active learning, pairwise constraint

中文摘要：

半监督文档聚类，即利用少量具有监督信息的数据来辅助无监督文档聚类，近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题，由于获取大量监督信息费时费力，因此，国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息．提出一种结合主动学习的半监督文档聚类算法，通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能，得到一种半监督文档聚类算法Cons．DBSCAN．通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析，提出了一种启发式的主动学习算法，能够选取含信息量大的成对约束集，从而能够更高效地辅助半监督文档聚类．实验结果表明，所提出的算法能够高效地进行文档聚类．通过主动学习算法获得的成对约束集，能够显著地提高聚类性能．并且，算法的性能优于两个代表性的结合主动学习的半监督聚类算法．

英文摘要：

Semi-Supervised document clustering and employing limited prior knowledge to aid in unsupervised clustering, have recently become a topic of significant interest to data mining and machine learning communities. Because receiving supervised data may be expensive, it is important to attain the most informative knowledge to improve the clustering performance. This paper presents a semi-supervised document clustering algorithm with active learning for pairwise constraints, aiming at getting improved clustering performance. The semi-supervised document clustering algorithm is a constrained DBSCAN （cons-DBSCAN） algorithm, which incorporates pairwise constraints to guide the clustering process in DBSCAN. Basing on measure of constraint set utility and analysis of DBSCAN algorithm, an active learning approach is proposed to select informative document pairs for obtaining user feedbacks. Experimental results show that this proposed approach is effective in document clustering. The clustering performance of active Cons-DBSCAN has dramatically improved with selected pairwise constraints. Moreover, the proposed approach performs better than the two representative methods.

同期刊论文项目

基于模型检测的不确定规划的状态可达性及其应用研究

期刊论文 22 会议论文 6

基于云计算平台Hadoop的海量数据聚类研究

期刊论文 11 会议论文 9

同项目期刊论文

基于空间变异性的IDW矿石品位估值改进方法

不确定规划中一种观察信息高效约简算法

基于实测边界线的地下巷道三维建模方法

模糊系统的微粒群并行聚类算法

On the security of arbitrated quantum signature schemes

不确定可逆规划的强循环规划解

模型检测规划中的状态之间的可达关系研究

求解带软时间窗车辆路径问题的融合算法

一种求解最小权值强规划的方法

求强规划解的快速状态分层算法

动态Kriging优化算法求解昂贵约束优化问题

基于非负矩阵分解的双重约束文本聚类算法

A nonnegative matrix factorization framework for semi-supervised document clustering with dual const

Topic modeling for cluster analysis of large biological and medical datasets.

Combining Generative/Discriminative Learning for Automatic Image Annotation and Retrieval

全信息差异进化粒子群优化算法

Namenode单点故障解决方案研究

一种新的复杂地质体采矿工程剖面图自动生成方法

正向搜索方法求强规划解

分层法求强循环规划解

不确定规划中状态循环可达关系的求解方法

确定树求强规划解

不确定规划中非循环可达关系的求解方法

强循环规划的观察信息约简

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609