随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,拟以申请者已开发的主题聚类原型系统为基础,进行如下三方面研究1.结合短语分析和机器学习,提取多语言文本主题;2.生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;3.在上述基础上,以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求,有效解决以上问题,核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法,有效解决多语言文本聚类问题。
Multilingual document clusteri;Cross-language document simila;Comparable corpus;Topic extraction;Multilingual information resou
随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,以申请者已开发的主题聚类原型系统为基础,进行如下几个方面的研究。 1. 结合短语分析和机器学习,提取多语言文本主题; 2. 生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度; 3. 在上述基础上,以平行语料为约束实现多语言文本聚类。