位置:成果数据库 > 期刊 > 期刊详情页
基于高质量反馈源的XML查询扩展
  • ISSN号:1000-0135
  • 期刊名称:情报学报
  • 时间:2013.6.1
  • 页码:610-617
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江西财经大学信息学院数据与知识工程江西省重点实验室,江西南昌330013
  • 相关基金:国家自然科学基金(No.61262035); 江西省自然科学基金(No.2010GZS0072,20122BAB201033); 江西省教育厅科技项目(No.GJJ12271)
  • 相关项目:基于用户反馈的Web数据集成中的数据质量管理
中文摘要:

解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.

英文摘要:

Solving the data sparseness problem is an important problem about head-driven parsing,cluster-based statistic language model is an important method to solve the problem of sparse data.Based on the analysis of the classical smoothing technology,this paper proposes a word clustering algorithm by utilizing mutual information and semantic dependency,and an absolute weighted difference method was presented and was used to construct vari-gram language model which has good predictable ability,then proposes an improved head-driven parsing model based on word cluster and vari-gram model.Experiments are conducted for the refined statistical parser,it achieves 84.53% precision and 82.41% recall,F measure is improved 2.02% comparing with the head-driven parsing model introduced by Collins.

同期刊论文项目
期刊论文 44 会议论文 8 获奖 1
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778