东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于信息论的潜在概念获取与文本聚类

期刊名称：李晓光、于戈、王大玲、鲍玉斌，基于信息论的潜在概念获取与文本聚类，软件学报，19(9)，2276-2
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]辽宁大学信息学院,辽宁沈阳110036, [2]东北大学信息科学与工程学院,辽宁沈阳110004
相关基金：Supported by the National Natural Science Foundation of China under Grant Nos.60703068, 60573090（国家自然科学基金）
相关项目：面向新一代搜索引擎的用户动机推演模型的研究

关键词：潜在概念, 主题, 文本聚类, 信息论, latent concept, topic, text clustering, Information theory

中文摘要：

针对词、潜在概念、文本和主题之间的模糊关系，提出一种基于信息论的潜在概念获取与文本聚类方法，方法引入了潜在概念变量和主题变量，根据信息论中熵压缩编码理论,定义了一个全局目标函数，给出一种类似于确定性退火算法的求解算法，用以获得概念层次树以及在不同层次概念上的文本聚类结果，是一种双向软聚类方法．方法通过基于最短描述长度原则的概念选择方法，最终确定概念个数和对应的文本聚类结果．实验结果表明，所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法．

英文摘要：

To emphasize the fuzzy relation among words, latent concepts, text and topics, an information theory based approach to latent concept extraction and text clustering is proposed. Latent concept variable and topic variable are introduced to reveal such relation, and a global objective function is defined in the theme of rate-distortion theory. An anneal-like algorithm is designed to extract the hierarchical tree of latent concept, and to group the texts under corresponding concept hierarchy at the same time. Furthermore, it determines the number of concept and text clustering result with a concept selection method based on minimal description length criteria. It is a soft co-clustering method and outperforms the ones based on the word space, and current text hard co-clustering method based on latent concept by experiments.

同期刊论文项目

面向新一代搜索引擎的用户动机推演模型的研究

期刊论文 54 会议论文 15

基于图的XML非完全结构查询技术研究

期刊论文 31 会议论文 7 著作 1

同项目期刊论文

一种池分区的RFID复合事件探测方法dpool

NFS XML查询引擎的设计与实现

Pseudo Period Detection on Time Series Stream with Scale Smoothing

基于K-近邻法及移动agent技术的垃圾邮件检测系统研究

基于小波的时间序列流伪周期检测方法

基于滑动多窗口的时间序列流趋势变化检测

L(k)-index：一种支持标签路径的高效k双拟结构索引

面向多领域资源的汉英双语语料库构建的研究

DLRD:一种支持动态负载均衡的P2P网格资源发现机制

GPE:一种基于图模型的NFS有意义结果确定模型

一种面向周期性概念漂移的数据流分类算法

一种基于标签编码的Deep Web查询接口识别方法

一种基于虚拟工作空间的有状态网格服务副本复制方法

低冗余主动测量IP级Internet拓扑的一种数据修正方法

基于双边界楔形区的时间序列流高效过滤查询算法

多媒体播放中的动态双门限自适应调整算法

物联网海量数据的分布式存储算法

模拟电路故障的分布式诊断算法

一种改进的多速率组播拥塞控制协议DAMCC

电子商务管理预定会议室系统的设计

基于小世界的物联网中副本定位算法

物联网中LEACH算法的研究与改进

数据流挖掘研究及其进展

引入卡尔曼滤波的RFID数据清洗方法

可能世界内数值型不确定数据匹配模型

基于PLSA方法的用户兴趣聚类

一种基于CD-Tree的高效聚类算法

面向用户的排序算法研究

一种高效的基于图的MLCA求解方法

支持个性化检索的User Profile研究概述

一种优化的基于网格的聚类算法

An Algorithm of Document Refinement Based on Sentence Similarity Computation

基于用户行为模型的搜索引擎的研究

一种基于内容特性的文本聚类方法

面向层次类型变量的相异度量及聚类算法

BestBiblio: An Effective Web Bibliography Retrieval Tool

基于滑动窗口的支持泛在应用的流聚类挖掘算法

一种在线互相似流群发现方法

A PLSA-Based Approach Constructing User Profile for Personalized Search.

Study on Framework and Algorithms of Anomaly-Based Detecting for Semantic Web Service Security

An Approach of Word Sense Disambiguation in Contextless Queries

User-Oriented Web Search based on PLSA

基于楔的时间序列流双向封装过滤查询算法

基于页面Block的Web档案采集和存储

模糊形式概念分析与模糊概念格

IncSNN——一种基于密度的增量聚类算法

有效的非完全结构XML查询

基于用户搜索意图的Web网页动态泛化

3个原型系统

基于混合语言模型的文档相似性计算模型

支持多约束的K-匿名化方法

A Probabilistic Text Clustering Algorithm Based on Dirichlet Mixture Model and Bayesian Discriminant

Study and Implementation of A New SQL-Based ETL Approach

基于句法结构特征分析及分类技术的答案提取算法

分布式专家系统中时序控制的研究与设计

基于最长顺序频繁词组的Web文献检索结构

一种基于划分的孤立点检测算法

基于双边界楔形区的时间序列流高效过滤查询算法

基于用户行为模型的搜索引擎

事务级入侵容忍数据库的控制和修复策略

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

Extracting Result Schema Based on Query Instances in the Deep Web

An Efficient Multi-Keyword Query Processing Strategy on P2P Based Web Search

基于灰度-单元差分共生矩阵的医学图像的检索与分类

基于兴趣点特征提取的医学图像分类

基于双层网格索引的移动对象KNN查询算法

Data Integration Strategy for Database Grids Based on P2P Framework

基于PLSA的面向用户的网络搜索