东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于混合语言模型的文档相似性计算模型

期刊名称：中文信息学报. 20(4): 14-215. 2006.
时间：0
分类：TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东北大学信息科学与工程学院,辽宁沈阳110004
相关基金：国家自然科学基金资助项目（60573090,60503036,60473073）
相关项目：以数据为中心的无线传感器网络查询处理与查询优化技术研究

关键词：人工智能, 自然语言处理, 文档相似性, 统计语言模型, 混合模型, EM算法, artificial intelligence, natural language processing, document similarity, statistic language model, finite mixture model, EM

中文摘要：

为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点，本文在统计语言模型的基础上，提出了一种基于混合语言模型（Mixture Language Model，MLM）文档相似性计算模型。MLM利用统计语言模型描述文档特征，将相关影响因素作为模型的潜在子模型，文档语言模型由各子模型混合构成，从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素，并以此构建相应文档描述模型，因此具有很强的灵活性和扩展性。在MLM的基础上，本文给出了一个基于文档主题内容相似性的实例，在TREC9数据集上的实验表明MLM优于向量空间模型（VSM）。

英文摘要：

To overcome the incompleteness of modeling document characteristics and the lack of theory for current document similarity models, this paper puts forward to utilize mixture language model （MLM） to evaluate document-to- document similarity. In MLM, the characteristic of a document is described based on statistic language model, and the factors of influencing its characteristic are viewed as the latent models, and then the document language model is a mixture model combined with each latent models. MLM not only models document characteristics more perfectly, but it is flexible and scalable to be implemented with respect to applications. Within the framework of MLM, a document similarity method is presented from the viewpoint of document content. The experimental results over the TREC9 dataset indicate that MLM outperforms VSM.

同期刊论文项目

支持嵌入式计算的非线性实时数据流管理技术的研究

期刊论文 58 会议论文 15 获奖 4

以数据为中心的无线传感器网络查询处理与查询优化技术研究

期刊论文 55 会议论文 20 获奖 4 著作 1

面向新一代搜索引擎的用户动机推演模型的研究

期刊论文 54 会议论文 15

同项目期刊论文

数据流挖掘研究及其进展

面向无线传感器网络的流数据压缩技术

一种数据流上基于截止期的多查询过载预测模型

A Filter-based Uniform Algorithm for Optimizing Top-k Query in Distributed Networks

无线传感器网络中网关处的数据获取与处理

WSN 中带有分布式入侵检测的分簇路由协议

Choosing Meaningful Structure Data for Improving Web Search

无线传感器网络能量有效的实时查询处理方法

An Algorithm for Optimizing Multidimensional K-NN Queries in Wireless Sensor Networks

支持截止期敏感应用的数据流任务调度方法

数据流处理中确定性QoS的保证方法

数据发布中面向多敏感属性的隐私保护方法

支持多约束的K-匿名化方法

关系数据库中支持语义的Top-K关键字搜索（英文）

一种基于过滤器的无线传感器网络复杂查询优化算法

一种数据流上截止期敏感的滑动窗口处理策略

支持无线传感器网络的实时查询技术研究

无线传感器聚簇网络中基于多属性的时空关联异常节点检测技术

传感器聚簇网络中一种面向感知数据的变长窗口动态调整技术

移动传感器网络中基于区域理想覆盖的传感器重定位技术

无线传感器网络中一种基于历史数据分组的感知查询技术

无线传感器网络中一种基于权重模型的高效事件检测技术

MIS：无线传感器网络中一种基于多级映射索引的存储方法

数据发布中维护敏感数据高可用性的隐私保护方法

一种基于过滤器的无线传感器网络近似K-NN查询优化算法

数据流上基于扩展窗口模型的连接维护算法

一种无线传感器网络中基于时空关联模型的高效实时事件检测技术

无线传感器网络中基于模式序列分类的分布式数据流过滤方法

动态的分布式查询下的top-k查询计算

一种数据流上统计性查询QoS的保证方法

Adaptive Correlation Analysis in Stream Time Series with Sliding Windows

一种无线传感器网络中基于缓冲区管理的查询处理方法

Efficient Secure Data Publishing Algorithms for Supporting Information Sharing

Answering Form-Based Web Queries using the Data-Mining Approach

Adaptive Maintenance for Classified Sliding Window Joins over Data Streams

Design and Implementation of File Access and Control System Based on Dynamic Web

Continually Answering Constraint k-NN Queries in Unstructured P2P Systems

基于历史数据的轮廓聚合查询

无线传感器网络中一种基于窗口的近似连续查询的处理技术

分布式专家系统中时序控制的研究与设计

数据流中一种快速启发式频繁模式挖掘方法

基于最长顺序频繁词组的Web文献检索结构

动态的分布式环境下Top-k查询计算

面向无线传感器网络多连接的数据卸载策略

结构化网络中聚合Top-K查询优化技术

一种基于过滤器的无线传感器网络近似kNN查询优化算法

无线传感器网络中基于确定度的安全路由协议的研究

一种无线传感器网络中的多维K-NN查询优化算法

无线传感器网络中基于模式序列分类的分布式数据流过滤技术

用于改善web搜索的结构化数据抽取技术

关系数据库中支持语义的Top-K关键字搜索

A Filter-based Uniform Algorit

An algorithm for optimizing mu

一种基于CD-Tree的高效聚类算法

IncSNN——一种基于密度的增量聚类算法

A Filter-based Uniform Algorithm for Optimizing Top-k Query in Distributed Networks

无线传感器网络能量有效的实时查询处理方法

支持截止期敏感应用的数据流任务调度方法

数据流处理中确定性QoS的保证方法

无线传感器网络中一种基于历史数据分组的感知查询技术

无线传感器网络中一种基于权重模型的高效事件检测技术

MIS：无线传感器网络中一种基于多级映射索引的存储方法

一种无线传感器网络中基于时空关联模型的高效实时事件检测技术

一种数据流上统计性查询QoS的保证方法

分布式专家系统中时序控制的研究与设计

基于最长顺序频繁词组的Web文献检索结构

MIS：无线传感器网络中一种基于

An Indexed Non-Equijoin Algori

一种数据流上截止期敏感的滑动窗

面向无线传感器网络的流数据压缩

数据流上基于扩展窗口模型的连接

无线传感器网络中一种基于权重模

Adaptive Maintenance for Class

数据流滑动窗口上的一种多聚集查

一种数据流上基于截止期的多查询

数据流查询处理中一种共享的分级

一种适用于数据流梗概计算的小波

数据流管理系统中适应性查询机制

一种无线传感器网络中基于时空关

无线传感器网络中一种基于历史数

一种基于过滤器的无线传感器网络

一种面向多目标的数据流操作符调

一种支持嵌入式实时应用的数据流

数据流中一种快速启发式频繁反模

一种事件驱动的数据流查询模型

数据库流挖掘研究及其进展

一种支持实时性查询的数据流操作

面向无线传感器网络多连接的数据

无线传感器网络能量有效的实时查

一种数据流上统计性查询QoS的保

一种支持多目标的数据流操作语言

一种支持截止期敏感应用的高效数

数据流处理中确定性QoS的保证方

数据流分析与挖掘技术现状与发展

一种基于划分的孤立点检测算法

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

Extracting Result Schema Based on Query Instances in the Deep Web

An Efficient Multi-Keyword Query Processing Strategy on P2P Based Web Search

支持多领域动态数据集成的数据库网格系统

一种基于过滤器的无线传感器网络近似kNN查询优化算法

无线传感器网络中基于确定度的安全路由协议的研究

一种无线传感器网络中的多维K-NN查询优化算法

数据流上的一种适应性调度策略MultiFactor

基于多尺度的乳腺图像中星形肿块检测方法

A Potential Approach of Internet Worm Propagation Based on P2P

An Indexed Non-Equijoin Algorithm Based on Sliding Windows over Data Streams

文本分类通用代理服务器的设计与实现

数据流挖掘研究及其进展

可能世界内数值型不确定数据匹配模型

基于信息论的潜在概念获取与文本聚类

基于PLSA方法的用户兴趣聚类

一种基于CD-Tree的高效聚类算法

面向用户的排序算法研究

一种高效的基于图的MLCA求解方法

支持个性化检索的User Profile研究概述

一种优化的基于网格的聚类算法

An Algorithm of Document Refinement Based on Sentence Similarity Computation

基于用户行为模型的搜索引擎的研究

一种基于内容特性的文本聚类方法

面向层次类型变量的相异度量及聚类算法

BestBiblio: An Effective Web Bibliography Retrieval Tool

基于滑动窗口的支持泛在应用的流聚类挖掘算法

一种在线互相似流群发现方法

A PLSA-Based Approach Constructing User Profile for Personalized Search.

Study on Framework and Algorithms of Anomaly-Based Detecting for Semantic Web Service Security

An Approach of Word Sense Disambiguation in Contextless Queries

User-Oriented Web Search based on PLSA

基于楔的时间序列流双向封装过滤查询算法

基于页面Block的Web档案采集和存储

模糊形式概念分析与模糊概念格

IncSNN——一种基于密度的增量聚类算法

有效的非完全结构XML查询

基于用户搜索意图的Web网页动态泛化

3个原型系统

支持多约束的K-匿名化方法

A Probabilistic Text Clustering Algorithm Based on Dirichlet Mixture Model and Bayesian Discriminant

Study and Implementation of A New SQL-Based ETL Approach

基于句法结构特征分析及分类技术的答案提取算法

分布式专家系统中时序控制的研究与设计

基于最长顺序频繁词组的Web文献检索结构

一种基于划分的孤立点检测算法

基于双边界楔形区的时间序列流高效过滤查询算法

基于用户行为模型的搜索引擎

事务级入侵容忍数据库的控制和修复策略

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

Extracting Result Schema Based on Query Instances in the Deep Web

An Efficient Multi-Keyword Query Processing Strategy on P2P Based Web Search

基于灰度-单元差分共生矩阵的医学图像的检索与分类

基于兴趣点特征提取的医学图像分类

基于双层网格索引的移动对象KNN查询算法

Data Integration Strategy for Database Grids Based on P2P Framework

基于PLSA的面向用户的网络搜索