位置:成果数据库 > 期刊 > 期刊详情页
跨语言信息检索中的双语主题相关模型
  • ISSN号:1000-1220
  • 期刊名称:小型微型计算机系统
  • 时间:0
  • 页码:-
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江西财经大学现代教育技术中心,南昌330013, [2]江西财经大学信息管理学院,南昌330013, [3]江西师范大学计算机信息工程学院,南昌330022
  • 相关基金:国家自然科学基金项目(60963014,61272212)资助;江西省教育厅科技项目(GJJl0116)资助.
  • 相关项目:基于潜在语义对偶空间的跨语言信息检索理论和算法研究
中文摘要:

如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义.双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关.本文首先将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出一种新的双语主题模型,即双语偏最小二乘主题相关模型.新模型克服了跨语言潜在语义索引模型没有充分考虑双语语义联系的不足.在中英双语新闻语料集上实验结果显示,新模型的文档配对搜索和伪查询跨语言检索性能明显优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能.

英文摘要:

How to extract cross-language semantic meaning from bilingual parallel documents is important to improve cross-lingual in- formation retrieval. Bilingual parallel documents share the same topics, which are semantically correlative. The paper proposes a new bilingual partial least squares topic correlation model ( BiPLS ). The model views the parallel documents as two different lingual repre- sentations for the same semantic contents and builds a single topic space for each language from bilingual parallel corpus. Cross-lin- gual information retrieval is conducted in these new topic spaces. The new model overcomes the deficiency of the Cross-lingual latent semantic indexing (CL-LSI) that doesnot fully take into account bilingual semantic relationship. Experimental results on the aligned Chinese-English news collection show that BiPLS significantly outperforms over CL-LSI in mate search and cross-lingual pseudo query retrieve and better performs on TREC-9 blingual parallel corpus translated by Google Translation.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212