互联网上有海量多语言文本资源,通过分析不同类型网页的内容、结构和链接特征,利用机器学习方法可以实现文档、句子和词汇级双语资源的自动获取。以网络文本挖掘为手段,研究跨语言信息检索查询词翻译获取的方法,重点研究基于本地语料库和基于网络的翻译技术。本地语料库以网络挖掘方式建设,有低成本、高效率、强时效性,广覆盖面等特色。对本地语料库词汇和语法覆盖度进行优化,实现最小时空开销下的高翻译质量。对本地语料未覆盖的查询词,以网络挖掘的方法解决,并用以扩大本地资源库。基于网络的翻译方法中利用共现信息查询扩展方法获取搜索引擎摘要,克服意译词的挖掘瓶颈;利用频度量度和邻接信息,在有噪声的、规模较小的双语摘要库上抽取高质量的候选单元,提高抽取效率;综合利用音译、表层模版、语义、频度-距离等特征进行译文的选择,提高翻译精确度。研究成果可用于跨语言信息检索、机器翻译等领域。
Web mining;cross-language IR;query translation;bilingual resources;out-of-vocabulary terms
大规模语料库在计算语言学和自然语言处理领域中具有广泛的应用,它为统计机器翻译模型提供了不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等研究的重要语料资源。因此,为了提高跨语言信息检索中查询词的自动翻译性能,本项目一方面重点研究大规模双语资源的获取,另一方面侧重于研究如何利用双语资源,实现查询词自动翻译。其中,为了获取海量的、优质的双语资源,本项目分别从平行语料库和可比较语料库两方面入手,囊括了平行语料库对齐质量高、可比较语料库覆盖面广等特点。另外,在基于双语资源实现跨语言信息检索查询词自动翻译的过程中,着重探索研究并高效解决了查询词中命名实体、专业术语以及缩略语等未登录词的翻译难题,从而提高了跨语言信息检索的准确性和有效性。