东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于高质量反馈源的XML查询扩展

ISSN号：1000-0135
期刊名称：情报学报
时间：2013.6.1
页码：610-617
分类：TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]江西财经大学信息学院数据与知识工程江西省重点实验室,江西南昌330013
相关基金：国家自然科学基金（No.61262035）; 江西省自然科学基金（No.2010GZS0072,20122BAB201033）; 江西省教育厅科技项目（No.GJJ12271）
相关项目：基于用户反馈的Web数据集成中的数据质量管理

关键词：句法分析模型, 平滑算法, 中心词驱动句法分析, 聚类算法, parsing model, smoothing algorithm, head-driven parsing, clustering algorithm

中文摘要：

解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.

英文摘要：

Solving the data sparseness problem is an important problem about head-driven parsing,cluster-based statistic language model is an important method to solve the problem of sparse data.Based on the analysis of the classical smoothing technology,this paper proposes a word clustering algorithm by utilizing mutual information and semantic dependency,and an absolute weighted difference method was presented and was used to construct vari-gram language model which has good predictable ability,then proposes an improved head-driven parsing model based on word cluster and vari-gram model.Experiments are conducted for the refined statistical parser,it achieves 84.53% precision and 82.41% recall,F measure is improved 2.02% comparing with the head-driven parsing model introduced by Collins.

同期刊论文项目

基于用户反馈的Web数据集成中的数据质量管理

期刊论文 44 会议论文 8 获奖 1

词汇化句法分析若干关键技术研究

期刊论文 3

　基于WEB挖掘的网络水军伪舆情识别及防范研究

期刊论文 8

同项目期刊论文

基于用户反馈的Web多媒体数据源的选取

A Query-oriented XML Text Summarization for Mobile Devices

Weighting Tags and Paths in XML Documents According to Their Topic Generalization

Exploiting Structures in Keyword Queries for Effective XML Search

Web数据源选择技术

网络金融信息与上市公司财务状况的关系研究

基于结点权重模型的XML片段检索策略

多用户关键词合取密文搜索方案

基于检索结果聚类的XML伪相关文档查找

考虑Web金融信息的上市企业财务危机预测模型研究

面向混合类型关键词查询的非合作结构化深网数据源选择

基于较高质量扩展源和局部词共现模型的XML查询词扩展

非合作结构化深网数据源摘要的动态更新

Synonyms Weighted LDA for Product Aspects Extraction

LINQ: A Framework for Location-aware Indexing and Query Processing

Semantics Oriented Inference of Keyword Search Intention over XML Documents

一种词聚类LDA的商品特征提取算法

基于行为与内容的科技产品虚假评论识别

基于层次依赖的Markov网络信息检索扩展模型

XML关键词搜索结果的多样化

社会化短文本自动摘要研究综述

基于语义分析的评价对象-情感词对抽取

基于句法语义特征的中文实体关系抽取

基于用户反馈的深网数据源选择

基于内容与结构语义相融合的XML检索结果聚类

基于词性标注和依存句法的Web金融信息情感计算

基于伪反馈的有效XML查询扩展

基于模拟退火的花朵授粉优化算法

一种改进的新型元启发式花朵授粉算法

一种基于复合形法的花朵授粉算法

空间关键词搜索研究综述

面向旅游人文信息集成的Web数据源选择

基于族群机制的花朵授粉算法

QWS-Rank：一种新颖的XML关键词搜索结果排序方法

基于萤火虫群的网络状态故障检测算法研究

基于量子行为的花朵授粉算法

基于语义约束LDA的商品特征和情感词提取

IBLUE：一种新的主动队列管理算法

基于特征词权重的文本分类

中文微博情感词提取：N-Gram为特征的分类方法

基于统计的句法分析方法

融合语义类信息的句法分析统计模型

网络金融信息与上市公司财务状况的关系研究

基于结点权重模型的XML片段检索策略

基于词性标注和依存句法的Web金融信息情感计算

互联网产品评论信息中垃圾评论的识别方法浅析

基于特征词权重的文本分类

基于关联规则挖掘和极性分析的商品评论情感词典构建

中文微博情感词提取：N-Gram为特征的分类方法

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778