基于可比语料的多语言文本聚类研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于可比语料的多语言文本聚类研究

项目名称：基于可比语料的多语言文本聚类研究
项目类别：青年科学基金项目
批准号：70903032
申请代码：G031401
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：章成志
负责人职称：副研究员
依托单位：南京理工大学
批准年度：2009

中文摘要：

随着全球一体化进程加快、多语言信息资源激增，针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料，由于这些资源获取成本高、常与聚类文本所属领域不兼容，限制了多语言文本聚类的发展，需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容，且多语言相似词在可比语料上有相似语境分布，本项目将可比语料用于多语言文本聚类，拟以申请者已开发的主题聚类原型系统为基础，进行如下三方面研究1.结合短语分析和机器学习，提取多语言文本主题；2.生成可比语料，用可比语料计算跨语言文本主题间相似度，进而计算跨语言文本间相似度；3.在上述基础上，以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求，有效解决以上问题，核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法，有效解决多语言文本聚类问题。

中文主题词：多语言文本聚类；跨语言文本相似度；可比语料；主题提取；多语言信息资源

英文摘要：

Multilingual document clusteri；Cross-language document simila；Comparable corpus；Topic extraction；Multilingual information resou

英文主题词： Multilingual document clusteri；Cross-language document simila；Comparable corpus；Topic extraction；Multilingual information resou

结论摘要：

随着全球一体化进程加快、多语言信息资源激增，针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料，由于这些资源获取成本高、常与聚类文本所属领域不兼容，限制了多语言文本聚类的发展，需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容，且多语言相似词在可比语料上有相似语境分布，本项目将可比语料用于多语言文本聚类，以申请者已开发的主题聚类原型系统为基础，进行如下几个方面的研究。 1. 结合短语分析和机器学习，提取多语言文本主题； 2. 生成可比语料，用可比语料计算跨语言文本主题间相似度，进而计算跨语言文本间相似度； 3. 在上述基础上，以平行语料为约束实现多语言文本聚类。

成果综合统计