位置:成果数据库 > 期刊 > 期刊详情页
基于高斯混合模型的生物医学领域双语句子对齐
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学信息检索研究室,辽宁大连116024
  • 相关基金:国家自然科学基金资助项目(60373095 60673039); 国家863高科技计划资助项目(2006AA01Z151); 教育部留学人员归国科研启动基金项目(教外司留[2007]118号); 国家社科基金资助项目(08BTQ025)
中文摘要:

双语术语词典在生物医学跨语言检索系统中有着非常重要的地位,而双语句子对齐是构建双语词典的第一步工作。为了构想面向生物医学领域的双语词典,该文将分类思想和迁移学习方法引入汉英句子对齐任务中,将句子对齐任务看成一个多类分类任务,考虑生物医学领域双语摘要的锚信息,利用高斯混合模型完成分类目标。同时,在模型训练过程中,该文引入了迁移学习的思想,结合无噪音的《新概念英语》双语语料对模型的句子长度特征进行训练,使得模型在测试语料上句子对齐的正确率得到较大提高。

英文摘要:

A bilingual lexicon of biomedical terms plays an important role in biomedical cross-language information retrieval.Sentence alignment is the first step to build a bilingual lexicon.The Gaussian mixture model and transfer learning are applied to align sentences.The basic idea is to consider the sentence alignment as a classification task,which can be solved by the Gaussian mixture model classifiers based on the anchor information included in medical literature abstracts.At the same time,the sentence alignment model is built by combining biomedicine literature abstracts with New Concept English corpora,and it aims at applying transfer learning to train the length features and transfer them to the model.The experiments show it improves the performance of the sentence alignment model.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136