跨语言信息检索特别是查询翻译中所必需的自然语言处理底层关键技术,这些技术虽然相对独立地研究较多,但离完全解决仍然距离很远,特别是如何适用于跨语言信息检索环境中,依然是一个需要解决的难题。本课题正是在传统的跨语言信息检索基本理论的基础上,侧重于研究未登录词处理、词义消歧与知识源构建等重要的底层自然语言处理问题,从而建立一种融合自然语言处理底层关键技术的跨语言信息检索实现框架,并由此引出针对英汉双向跨语言信息检索策略的更为深入的研究。其主要研究成果包括知识源构建算法(双语词典构建算法与概念语义网络生成算法)、命名实体识别算法、新词发现算法、未登录词翻译算法、词义消岐算法、英汉双向跨语言信息检索算法以及统计学习与优化算法。相关研究论文已在国际期刊上发表7篇,在国内学报级期刊或者核心期刊上发表3篇,在国际会议论文集上发表16篇,其中包括SCI检索3篇与EI检索16篇。此外,课题组还积极参与相关研究领域的国内外学术会议,并同与会研究人员进行深入细致的探讨与交流。同时,课题组研究人员积极开展学术合作研究活动,本课题研究工作已同有关"跨媒体跨语言检索"方面的研究工作相结合。
英文主题词Cross-Language Information Retrieval (CLIR); Natural Language Processing (NLP); Rock-Bottom Key Techniques; Query Translation