东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于改进k-medoids算法的XML文档聚类

ISSN号：1000-3428
期刊名称：《计算机工程》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]厦门大学信息科学与技术学院,福建厦门361005
相关基金：国家自然科学基金资助项目（61303004）;国家社会科学基金资助重大项目（13＆ZD148）;福建省自然科学基金资助项目（2013J05099）.

关键词： XML文档聚类, 遗传算法, 模糊聚类, k-medoids聚类, 聚类个数, 聚类中心, XML documents clustering, Genetic Algorithm（GA） , fuzzy clustering, k-medoids clustering, clusteringnumber, clustering center

中文摘要：

XML文档由于其自身的可扩展性、半结构化和自描述性等特点，已成为数据表示和交换的数据格式标准。一个高效、快速的XML文档聚类机制能够大幅缩短信息检索时间，提高数据查询的效率，挖掘出潜在的信息价值。为此，提出一种改进的k—medoids算法对XML文档进行聚类。运用模糊聚类方法确定聚类个数，利用遗传算法的全局最优的搜索能力求解最佳聚类中心点或质心，从而提高大规模XML文档集的聚类质量。实验结果表明，与基于传统k—medoids算法的聚类方法相比，改进的聚类方法具有较高的聚类准确性和收敛度。

英文摘要：

Due to extensibility, semi-structured and ability of self-description and other characteristics, eXtensible Markup Language（XML） has been the standard of data representation and exchange. An efficient, fast XML clustering mechanism, will greatly shorten the information retrieval time, improve the efficiency of data query and find out the potential information value. In order to improve the clustering quality of massive XML document collections, a novel XML document clustering method is proposed based on the study of structure and the similarity in the XML documents, according to the improved k-medoids clustering algortihm. The analyses of experimental results show that the proposed method has satisfactory clustering convergence and accuracy.

同期刊论文项目

　大数据与统计学理论的发展研究

期刊论文 28

基于关键词的关系数据库查询技术研究

期刊论文 5

同项目期刊论文

机会传感器网络中基于优先级的查询分发和处理算法

关系数据库中的关键词查询结果动态优化

PipelineJoin:一种新的基于MapReduce的多表连接算法

我国城乡居民收入影响因素研究——基于省际面板分位数回归分析

大数据的整合分析方法

Logistic回归的双层变量选择研究

高维数据下群组变量选择的惩罚方法综述

大数据时代下数据分析理念的辨析

基于Sai-GA-SVR的我国IPO制度与新股市场特征研究

大数据时代对传统统计学变革的思考

底线公平:机关事业单位养老保险制度改革的价值取向

基于集成学习和分层结构的多分类算法

底线公平:社会保障制度建设的内在根据

大数据时代宏观经济仿真系统的框架构造

基于自适应权重的函数型数据聚类方法研究

中国各地区火电行业经营能力与环境能力的评价与比较

基于网络结构Logistic模型的企业信用风险预警

金融危机前后中信行业指数联动效应及其社团结构比较

随机死亡率模型的改进与预测

中国创新能力区域差异的静态与动态分析—基于拓展聚类模型层级划分的角度

基于模糊影响因素的台湾人口死亡率估计

G20国家货币控制效应转移研究——基于狭义货币口径的面板平滑转移模型

中国碳金融市场风险度量研究

2000-2010年福建省人口死亡统计分析

学术论文的数量特征与文本趋势

数据科学的统计学内涵

Analytics： The Real-World Use of Big Data in Financial Services Studying with Judge System Events

Logistic模型对非平衡数据的敏感性：测度、修正与比较

基于自适应迭代更新的函数型数据聚类方法研究

基于博弈关系与碳排放约束的中国省际能源效率评价

基于拉格朗日松弛的预约调度模型与算法

期刊信息

《计算机工程》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华东计算技术研究所上海市计算机学会
主编：游小明
地址：上海市桂林路418号
邮编：200233
邮箱：ecice06@ecict.com.cn
电话：021-64846769

国际标准刊号：ISSN：1000-3428
国内统一刊号：ISSN：31-1289/TP
邮发代号:4-310

获奖情况:
1999～2000、2001～2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:84139