位置:成果数据库 > 期刊 > 期刊详情页
基于Web的查询翻译中OOV译文挖掘优化
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所,北京100190, [2]中国科学院大学计算机与控制学院,北京100190, [3]国家计算机网络应急技术处理协调中心,北京100029
  • 相关基金:国家自然科学基金(No.61232010); 国家973计划基金(No.2014CB340401); 国家242计划基金(No.2013F099)
中文摘要:

基于Web的未登录词(Out-of-Vocabulary,OOV)译文挖掘过程主要包含双语摘要获取、候选多词单元提取、最佳译文提取等步骤。通过改进候选多词单元提取方法和最佳译文选择方法以获取更高的译文挖掘准确率。在候选多词单元提取方面,在层次迭代的对数似然比(LLR)基础上提出了基于内部信息层次化过滤的对数似然比方法,相比LLR方法降低了噪音比且准确率提高了5%。在最佳译文选择方面,提出了基于左右熵(LRE)邻接信息过滤候选多词集合,同时将频度-距离模型(F-D)和基于LLR的词对关联度模型相结合使译文挖掘的召回率同比提高了5%~10%。

英文摘要:

Web-based OOV(Out-of-Vocabulary)translation mining includes:collecting bilingual summary,extracting multi-word lexical units and selecting best candidate words.By improving the method of multiword lexical unit extracts and best candidate words selection,the better performance of OOV translation mining,was got.In term of multi-word lexical unit extracts,the method of hierarchical filtering based on internal information was introduced by using hierarchical iteration of Log-Likelihood Ratio(LLR),which got lower noise ratio and improved the accuracy by five percentages.In the aspect of best candidate words selection,the author used adjacency information based on Left-Right Entropy(LRE)to filter candidate multi-word set.Moreover,the method which combined Frequency-Distance(F-D)model and Word-pair Correlation model improved recall ratio of OOV translation mining to 5%~10%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651