东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种改进的基于广义后缀树的文本聚类算法

ISSN号：1002-0411
期刊名称：《信息与控制》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]河北工业大学信息工程学院,天津300401
相关基金：国家自然科学基金资助项目（60673087,60377020）.

作者：杜红斌[1], 夏克文[1], 刘南平[1], 吴涛[1]

关键词：文本聚类, WEB挖掘, 广义后缀树, 后缀树聚类(STC), text clustering, web mining, generalized suffix tree, suffix tree clustering （STC）

中文摘要：

分析了基本STC算法存在的三个缺点，即不能有效处理包含文本数目差距较大但具有包含关系的节点，不能有效处理包含文本相似但主题不同的节点，缺乏有效的类别标识提取算法．针对以上问题，在综合考虑主题相似性以及文本包含相似性的基础上，给出了改进的用于基类合并的相似度公式，并提出了基于信息增益的类别标识提取算法．为了进一步提高聚类效率，给出了一种简单有效的用于基类选择的测度，用来排除一些无意义的广义后缀树节点．实验结果表明，所提算法不仅可以有效提高STC算法的聚类准确度，而且可以对聚类结果进行有效的类别标识．

英文摘要：

The original suffix tree clustering （STC） algorithm can not effectively process the nodes with text documents that differ greatly in quantity but hold a relation of inclusion, neither the nodes that are similar in text but different in topic, and it lacks an effective algorithm for class label extraction. To solve these problems, an improved similarity formula is presented for base cluster merging based on both the similarity of topic and the included texts, and a class label extraction algorithm based on information gain is proposed. To improve the clustering efficiency, a simple but reasonable measure for base cluster selection is presented to exclude some generalized suffix tree nodes which contribute less tO the clustering. Experiment is made and the results prove that the presented clustering algorithm can efficiently increase the precision of text clustering and perform effective labeling for the clustering result.

同期刊论文项目

高维空间海量数据快速聚类算法关键技术的研究

期刊论文 48 会议论文 2

新型短程透镜-二元光栅型集成光波导波分复用器研究

期刊论文 11 著作 1

同项目期刊论文

网页特征获取方法及其在网页搜索中的应用(英文)

基于引力的边界点检测算法

基于网格熵的边界点检测算法

基于统计信息的聚类边界模式检测算法

基于网格梯度的边界点检测算法的研究

一种基于网格核密度的自适应边界点检测算法

一种新的快速混合聚类算法

基于扩展粗糙集理论的信用风险分析

基于WMQPSO算法的慢波结构优化设计

A Boundary Points Detection Algorithm based on Entropy of Grid

基于密度可达的多密度聚类算法

基于相交划分的动态网格聚类算法

航天员呼吸强度的时序模式相似性比较研究

一种编辑距离算法及其在网页搜索中的应用

提取有效规则的关联分类算法

一种改进的关联分类算法

Feature selection algorithm based on association rules

Boundary points detection algorithm based on coefficient of variation

An effective nonparametric grid-based clustering algorithm

基于关联规则的特征选择算法

一种改进的Grover量子搜索算法

一种增量式文本软聚类算法

A parallel hierarchical clustering algorithm for PCs cluster system

一种基于边界识别的聚类算法

基于移动技术的动态网络聚类算法

基于EM算法的文本聚类优化研究

无参数聚类边界检测算法的研究

一种改进的LS-SVM算法及其应用

基于模糊层次分析法综合评判工会竞赛成绩

基于网格和密度权值的模糊c均值聚类算法

基于局部密度和动态生成网格聚类算法

基于变异系数的边界点检测算法

基于移动技术的动态网格聚类算法

基于多核多线程的排序算法优化和实现

一种DWT的提升实现及其图像编码应用

基于颜色特征的图像检索方法

基于概念格的查询扩展词推荐

一种改进的层次聚类算法

基于模型检测的内存泄露静态测试方法

卫星通信发展动态

基于QPSO算法的信道分配方法

一类双正交插值小波的参数化构造及图像编码应用

网页特征获取方法及其在网页搜索中的应用

基于WMQPSO算法的慢波结构优化设计

光波导短程透镜加工容限误差研究

基于神经网络的冠心病智能诊断系统

一种改进的LS-SVM算法及其应用

透射型亚波长二元闪耀光栅的数值模拟与分析

基于LM算法的神经网络语音识别

基于RBFNN的数据通信业务收入发展预测

线偏光闪耀反射光栅衍射特性研究

恶性多形性腺瘤及其周围正常组织的FTIR光谱研究

良性与恶性多形性腺瘤组织结构的FTIR光谱研究

期刊信息

《信息与控制》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国自动化学会中国科学院沈阳自动化研究所
主编：王天然
地址：沈阳市南塔街114号
邮编：110016
邮箱：xk@sia.cn
电话：024-23970049

国际标准刊号：ISSN：1002-0411
国内统一刊号：ISSN：21-1138/TP
邮发代号:

获奖情况:
全国优秀期刊三等奖,中科院优秀期刊三等奖,辽宁省优秀期刊一等奖

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:12960