位置:成果数据库 > 期刊 > 期刊详情页
基于评论主题的个性化评分预测模型
  • ISSN号:0479-8023
  • 期刊名称:《北京大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州科技学院电子与信息工程学院,江苏苏州215011, [2]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金(61373095)
中文摘要:

统计机器翻译一般采用启发式方法训练翻译模型.但启发式方法的理论基础不够完善,因此,会导致翻译模型规模庞大以及模型参数精确率不高.针对以上两个问题,该文提出一种基于变分贝叶斯推理的模型训练方法,形成更精确的精简翻译模型.该方法首先通过强制解码对齐语料,然后利用变分贝叶斯EM算法获得模型参数.该文的实验语料为NIST汉英翻译任务数据,实验结果显示,基于句法(基于短语)的统计机器翻译中,超过95%(76%)的规则被剪枝,且BLEU值显著提高.

英文摘要:

SMT usually learns translation models with heuristics, which leads to large models and potentially less accurate model parameters due to the poor theoretical justification of heuristics. This paper presents a variational Bayesian inference-based training method to address these two issues, targeting to learn a compact translation model with more accurate translation probabilities. It is achieved by translation model parameter estimation using variational Bayesian EM over alignments obtained by forced decoding. Experimental results on the Chinese-English NIST translation data shows that our proposed method is very effective, resulting in more than 95% (76%) rule pruned out with significant performance improvement in Bleu score for syntax-based SMT and phrase-based SMT. Key words., machine translation; rule pruning~ semi-forced decoding; variational bayesian

同期刊论文项目
期刊论文 6 会议论文 7 著作 1
同项目期刊论文
期刊信息
  • 《北京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:教育部
  • 主办单位:北京大学
  • 主编:赵光达
  • 地址:北京海淀区海淀路52号
  • 邮编:100871
  • 邮箱:xbna@pku.edu.cn
  • 电话:010-62756706
  • 国际标准刊号:ISSN:0479-8023
  • 国内统一刊号:ISSN:11-2442/N
  • 邮发代号:2-89
  • 获奖情况:
  • 1997年第二届全国优秀科技期刊评比一等奖,1999年教育部“优秀自然科学学报一等奖”,1999年获首届国家期刊奖,中国期刊方阵“双高”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,英国科学文摘数据库,英国动物学记录,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:18270