东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

Web搜索结果多层聚类方法研究

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]广东外语外贸大学国际工商管理学院,广州510006, [2]广东外语外贸大学信息学院,广州510006
相关基金：国家自然科学基金项目（60673191）; 广东省自然科学基金项目（9151026005000002）; 广东省高等学校自然科学研究重点项目（06Z012）

作者：庞观松[1], 蒋盛益[2], 张黎莎[2], 区雄发[2], 赖旭明[2]

关键词：文本聚类, 多层聚类, 类别关键词提取, 加权函数, text clustering, multi-level clustering, extracting keyword, weighting function

中文摘要：

为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略：提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。

英文摘要：

In order to facilitate the browse of the search results produced by search engines,this paper proposed a TFIDF-based new method to calculate the similarity of the documents and Web search results multi-level clustering by using one-pass clustering algorithm with linear time complexity.At the same time,we proposed a strategy to extract cluster keyword from multi-texts：selected noun or noun phrase as candidate cluster keywords,and took term frequency,the position of term occurring,the length of term and text into consideration to set a weighting function to compute every words weights of the search results,then automatically extracted the weightiest candidate keyword for each cluster generated by multi-level clustering without the intervene of human and the assistance of corpus.Experimental results on Baidu,ODP corpus and user investigation show the efficient and acceptance of our algorithm.

同期刊论文项目

面向数据流的异常挖掘算法研究

期刊论文 53 会议论文 21 著作 1

同项目期刊论文

基于代价敏感的朴素贝叶斯不平衡数据分类研究

基于聚类的电信客户细分

一种近似等频离散化方法

基于聚类和信息熵的特征选择算法

混合属性相关度计算方法研究

基于情感的音乐检索综述

Chameleon算法的改进

基于区间值Vague集的多属性模糊决策方法

我国反洗钱问题综述

基于机器学习的上市公司财务预警模型的构建

基于 Vague 双向近似推理的系统决策方法

A note on interval-valued fuzzy rough sets and interval-valued intuitionistic fuzzy sets

基于竞争协同进化的改进遗传算法

基于聚类和Ripper的稀有类分类方法

协同进化在遗传算法中的应用述评

初始码字间距最大化的矢量量化码书设计算法

存储网络高可用系统设计关键技术研究

一种高效异常检测方法

模糊马尔可夫链预测模型及其应用

双机高可用系统设计与性能分析

存储网络自适应容错协议和算法的研究

一种改进的BIRCH聚类算法

存储网络自适应容错技术研究

分布式式安全存储技术研究

A note on information entropy measures for vague sets and its applications

基于变异的紧凑遗传算法

基于新的空胞腔策略的矢量量化码书设计方法

应用协同进化的图像矢量量化码书设计方法

基于聚类的特征选择方法

NASSN: A NAS-based storage network

基于 IP 的高可用海量网络存储系统设计

一种新型的全局优化算法——细胞膜优化算法

一种高效混合属性离群检测算法

硬实时系统中基于任务同步及节能的动态调度算法

多处理器环境中基于节能及容错的实时动态调度算法

能量限制下基于效用获取的实时节能调度算法

On Weighted Possibilistic Mean, Variance and Correlation of Interval-valued Fuzzy Numbers

基于IP的高可用海量网络存储系统的研究

面向分类特征的无监督特征选择方法研究

个性化跨语言学术搜索技术研究

一种基于名词短语的检索结果多层聚类方法

基于模式与规则寻找的数据挖掘研究

一种基于支持向量机的模糊分类器

一种基于模糊核超球感知器的模糊分类模型

概率后缀树在入侵检测中的应用研究

音乐情感自动分析研究

两个无证书代理签名方案的密码学分析

基于混沌置乱和混沌加密的DCT域数字水印算法

一种门限多代理多签名方案的内部攻击

我国反洗钱问题研究

Research on the Bit Computation Model for Time Variable Channel Bandwidth

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778