东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于短语相似度的统计机器翻译模型

期刊名称：高技术通讯
时间：0
页码：337-341
语言：中文
分类：TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]中国科学院计算技术研究所中国科学院智能信息处理重点实验室,北京100190, [2]中国科学院研究生院,北京100049
相关基金：863计划（2006AA010108）和国家自然科学基金（60573188,60603095,60736014）资助项目.
相关项目：融合语言知识与统计模型的机器翻译方法研究

作者：林守勋|何中军|刘群|

关键词：相似度, 基于短语的统计机器翻译, 基于实例的机器翻译, similarity, phrase-based statistical machine translation, example-based machine translation

中文摘要：

针对基于短语的统计机器翻译（SMT）模型中由于采用精确匹配策略导致的短语稀疏问题，提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时，对于训练语料库中未出现过的短语，通过计算源语言短语之间的相似度，采用模糊匹配策略从短语表中查找相似的实例短语，并根据实例短语为其构造翻译。与精确匹配策略相比，利用相似度进行模糊匹配增加了对短语表的利用程度，缓解了短语稀疏问题。实验表明，该模型能够明显地提高统计机器翻译的质量。效果超过了当前最好的短语系统“摩西（Moses）”。

英文摘要：

In consideration of the phrase sparseness problem caused by the exact matching strategy in phrase-based statistical machine translation （SMT） models, the paper presents a phrase similarity-based SMT model. The model introduces the example-based method into SMT. During decoding, when facing source phrases which do not appear in the training corpus, the model firstly computes the similarity between source phrases and finds similar examples from the phrase table by fuzzy matching. Then the model produces translations for these source phrases according to the examples. Compared to the exact matching strategy, fuzzy matching can increase the utilization rate of the phrase table, and to some extent, solves the problem of phrase sparseness. The experiments show that the phrase similarity-based model outperforms the state-of-the-art phrase-based SMT system ＂Moses＂ and achieves significant improvements.

同期刊论文项目

基于短语结构转换模板的统计机器翻译方法研究

期刊论文 16 会议论文 17 著作 1

基于Web的大规模双语语料库挖掘及翻译知识自动获取

期刊论文 9 会议论文 13

融合语言知识与统计模型的机器翻译方法研究

期刊论文 77 会议论文 94 专利 4 著作 2

同项目期刊论文

基于序列标注模型的分层式依存句法分析方法

词汇相似度约束的短语抽取

动态多文档文摘模型

汉英双语命名实体识别与对齐的交互式方法

基于网络的动态多文档文摘系统框架

汉英词语对齐规范

基于短语模糊匹配和句子扩展的统计翻译方法

英汉术语翻译中的组合性不对称现象

统计机器翻译中多分词结果的融合

Joint decoding of multi-confusion-network in MT system combination

基于WordNet词义消歧的系统融合

Improve the Statistical Machine Translation Performance by Refining the Word Alignments

Improvement of Machine Translation Evaluation by Simple Linguistically Motivated Features

基于句法的统计机器翻译模型与方法

口语对话中冗余词汇识别方法研究

基于特征组合的中文语义角色标注

Improvement of machine translation evaluation by simple linguistically motivated feaures

Chinese-English Translation of Company Names and Addresses in a Large –Scale Database

中文词法分析与句法分析融合策略研究

一种考虑对齐不一致的短语翻译概率估计方法

维吾尔语中汉族人名的识别及翻译

基于最大熵短语重排序模型的特征抽取算法改进

题录信息的机器翻译方法

利用依存限制抽取长距离调序规则

面向移动终端的统计机器翻译解码定点化方法

模糊匹配在树到串翻译模型中的应用

多策略的增量TER指导系统融合

基于Web的双语平行句对自动获取

RM-structure alignment based statistical machine translation model

基于句法的统计机器翻译综述

基于信息检索方法的统计翻译系统训练数据选择与优化

基于双语约束的蒙古语无监督依存分析

蒙古语有向图形态分析器的判别式词干词缀切分

最大熵和规则相结合的藏文句子边界识别方法

面向形态丰富语言的多粒度翻译融合

基于结构对齐的统计机器翻译模型

基于同步树序列替换文法的机器翻译模型

机器翻译研究新进展

基于统计语言模型的蒙古文词切分

一种基于短语的汉蒙统计机器翻译与调序模型

一种基于同步树替换文法的统计机器翻译模型

人机互助的交互式口语翻译方法

层次短语翻译中基于Markov随机场的层次切分模型

头驱动句法分析中的直接插值平滑算法

机器翻译系统融合技术综述

统一语言学中的类几何变换函数

多语言机译系统中高质量语义单元库形成方法

Lucene的全文检索的研究与应用

相似度质心多层过滤策略的动态文摘方法

基于Bagging算法和遗传BP神经网络的负荷预测

英汉语义对应中弯曲现象实证研究

机器翻译及其评测技术简介

遗传算法在多目标柔性Job—Shop调度中应用

基于遗传算法和模糊聚类的文本分类研究

基于Tabu搜索的粗糙集属性约简算法

基于模糊粗糙集的Web文本分类

关于模糊C-均值（FCM）聚类算法的改进

基于禁忌搜索的自适应粒子群算法

英语人体隐喻的识别与汉译

第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介

Web日志挖掘中数据预处理技术的研究

基于混沌神经网络的股票分析及其预测

面向层次短语翻译的词汇化调序方法研究

异种语料融合方法：基于统计的中文词法分析应用

以机器翻译技术为核心的多语信息处理研究

依存树到串模型中引入双语短语的三种方法

EDR日中翻译辞典的建设以及辅助工具的设计

中文词法分析与句法分析融合策略研究

一种有效的基于Web的双语翻译对获取方法

基于Web的双语平行句对自动获取

基于信息检索方法的统计翻译系统训练数据选择与优化

中文词法分析与句法分析融合策略研究

基于Web的双语平行句对自动获取

基于句法的统计机器翻译综述

基于信息检索方法的统计翻译系统训练数据选择与优化

一种能量均衡的无线传感器网络分簇算法

统计机器翻译中短语切分的新方法

单纯形算法在统计机器翻译Re-ranking中的应用

Introduction to HTRDP evaluations on Chinese information processing and intelligent human-machine in

无线Ad Hoc网络中动态的带宽管理

无线传感器网络密钥预分配蜂窝模型

基于加权公平性的Ad Hoc网络带宽分配

基于实例的汉蒙机器翻译