东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

使用“分裂-合并”策略改进文本聚类集成算法的研究

ISSN号：1002-0470
期刊名称：《高技术通讯》
时间：0
分类：TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工程大学模式识别与自然计算研究室,哈尔滨150001, [2]盐城工学院计算机工程系,盐城224051, [3]哈尔滨工业大学智能技术与自然语言处理实验室,哈尔滨150001
相关基金：863计划（2007AA012172）,国家自然科学基金（60975042,60603092）和高等学校博士学科点专项科研基金（20070217043）资助项目.

作者：卢志茂[1], 徐森[2], 刘远超[3], 顾国昌[1]

关键词：聚类集成, 谱聚类, 文本聚类, 分裂-合并(DM), 标准化互信息(NMI), cluster ensemble, spectral clustering, document clustering, divide and merge （DM）, normalized mutual information （NMI）

中文摘要：

探讨了“分裂-合并”（DM）策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值（SKM）算法r次，每次生成较多的文本子簇，并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇，得到r个聚类成员，随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验，使用DM策略的两个聚类集成算法获得的平均标准化互信息（NMI）分别比改进前的算法提高了4．6和7．9个百分点，证明了DM策略可以有效提高文本聚类集成算法的聚类质量。

英文摘要：

The influence of the divide and merge （DM） strategy on document cluster ensemble algorithms was explored. Firstly, the spherical K-means （SKM） algorithm utilizing the DM strategy was performed for r times in the ensemble member generation phase, and each time more document sub-clusters were obtained and the agglomerative hierarchical method was used to merge these sub-clusters according to their similarity to attain r ensemble members. Then, two fast spectral clustering algorithms were performed to ensemble the r clusterings. The experiments on six real-world document sets showed that the DM strategy increased the normalized mutual information （NMI） of the two cluster ensemble algorithms by 4.6 and 7.9 percentage in average, respectively. These results prove that DM strategy can effectively improve the performance of document cluster ensemble algorithms.

同期刊论文项目

基于谱聚类的文本聚类集成方法研究

期刊论文 44 会议论文 12

基于语义范畴扩展的汉语词义消歧方法研究

期刊论文 31 会议论文 15 专利 1

同项目期刊论文

改进近邻传播聚类的彩色图像分割

一种基于均值更新的分类模型

数据结构课程教学方法初探

基于特征帧构建的运动目标检测方法

基于HHT和OSF的复杂环境语音端点检测

结合K均值和非负矩阵分解集成文本聚类算法

基于主动学习的短语翻译对获取

基于希尔伯特-黄变换的低信噪比语音端点检测

使用“分裂-合并"策略改进文本聚类集成算法的研究

使用证据累积的文本聚类谱算法

基于亮度划分MSR的视觉图像增强

基于极值域均值模式分解的语音增强方法

A manually-editing tool of translation templates based on automatic evaluation

二次分水岭和Ncut相结合的彩色图像分割方法

基于矩阵谱分析的文本聚类集成算法

使用谱聚类算法解决文本聚类集成问题

面向词义消歧的指示词扩展技术

基于快速谱聚类的图像分割算法

结合K均值与Laplacian的聚类集成算法

基于相似度矩阵的谱聚类集成图像分割

基于对等模式的汉-英译文调序

一种使用证据累积的文本聚类谱算法

一种去抖动的运动目标检测方法

一种HHT谱矩阵的车内噪声语音端点检测

近邻传播的文本聚类集成谱算法.

Phrase alignment based on combination of multiple strategies

Clustering by data competition

A Noval Spectral Clustering Algorithm Using Low-Rank Approximation

行人步态的特征表达及识别综述

基于均值漂移的自适应跟踪算法

一种创建关键帧的核密度估计运动目标检测

改进的基于模糊C-均值聚类的图像分割算法

基于改进K均值的图像分割算法

近邻传播的文本聚类集成谱算法

六维分数阶Lorenz-duffing系统仿真

Clustering method based on data division and partition

使用证据累积的文本聚类谱算法

Study on Optimization Technology in Computing Ordinal Number

基于矩阵谱分析的文本聚类集成算法

结合 K 均值和非负矩阵分解集成文本聚类算法

使用“分裂 - 合并”策略的文本聚类集成算法

基于希尔伯特 - 黄变换的低信噪比语音端点检测

一种使用证据累积的文本聚类谱算法一种使用证据累积的文本聚类谱算法

基于可拓学理论的汉语词义消歧

使用谱聚类算法解决文本聚类集成问题

面向词义消歧的指示词扩展技术

词义刻画与词义识别

数学公式基线结构分析及识别算法研究

一种新的入侵检测方法

解决文本聚类集成问题的两个谱算法

文本聚类集成问题中的谱算法

基于粗约简的数据流增量聚类算法

基于角点的蛇模型在图像分割中的研究

新的联合三角形法和经验模态分解的水下目标回波检测

六维分数阶Lorenz-duffing系统仿真

一种基于网格的增量聚类算法

基于影子显示位图技术的GIS图形部分的实现

Web日志中时态约束浏览模式挖掘算法研究

一种基于规则网格的地形简化算法

决文本聚类集成问题的两个谱算法

虚拟校园漫游系统优化算法研究

中文文本分类中特征选择方法的研究

改进活动轮廓模型的仿真及能量变化分析

基于信息增益改进贝叶斯模型的汉语词义消歧

期刊信息

《高技术通讯》
北大核心期刊（2011版）

主管单位:中华人民共和国科学科技部
主办单位:中国科学技术信息研究所
主编：赵志耘
地址：北京市三里河路54号
邮编：100045
邮箱：hitech@istic.ac.cn
电话：010-68514060 68598272

国际标准刊号：ISSN：1002-0470
国内统一刊号：ISSN：11-2770/N
邮发代号:82-516

获奖情况:
《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源

国内外数据库收录:
美国化学文摘（网络版）,荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,英国英国皇家化学学会文摘

被引量:12178