位置:立项数据库 > 立项详情页
基于可比语料的多语言文本聚类研究
  • 项目名称:基于可比语料的多语言文本聚类研究
  • 项目类别:青年科学基金项目
  • 批准号:70903032
  • 申请代码:G031401
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:章成志
  • 负责人职称:副研究员
  • 依托单位:南京理工大学
  • 批准年度:2009
中文摘要:

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,拟以申请者已开发的主题聚类原型系统为基础,进行如下三方面研究1.结合短语分析和机器学习,提取多语言文本主题;2.生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;3.在上述基础上,以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求,有效解决以上问题,核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法,有效解决多语言文本聚类问题。

结论摘要:

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,以申请者已开发的主题聚类原型系统为基础,进行如下几个方面的研究。 1. 结合短语分析和机器学习,提取多语言文本主题; 2. 生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度; 3. 在上述基础上,以平行语料为约束实现多语言文本聚类。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 11
  • 6
  • 0
  • 1
  • 2
章成志的项目