位置:成果数据库 > 期刊 > 期刊详情页
最大熵和规则相结合的藏文句子边界识别方法
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:39-44
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京100190, [2]青海师范大学计算机学院,青海西宁810008
  • 相关基金:国家自然科学基金重大研究计划培育项目(90920004) 国家自然科学基金重点资助项目(60736014)
  • 相关项目:融合语言知识与统计模型的机器翻译方法研究
中文摘要:

句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。

英文摘要:

Sentence boundary identification is a fundamental work in the field of Tibetan information processing.This paper proposes a maximum entropy and rules approach to identifying Tibetan sentence boundaries.First,the Tibetan boundary vocabulary based detector identifies the ambiguous sentence boundaries.Second,the maximum entropy model based detector identifies the ambiguous sentence boundaries which the former detector can't identify.By making use of Tibetan sentence boundary rules,this approach further reduces the number of the incorrect sentence boundary identified by maximum entropy model owing to the sparse and inferior training corpus.The experiments show that this approach has a good performance in terms of 97.78% F1-measure.

同期刊论文项目
期刊论文 77 会议论文 94 专利 4 著作 2
同项目期刊论文