位置:立项数据库 > 立项详情页
基于词语相似关系的统计数据平滑研究
  • 项目名称:基于词语相似关系的统计数据平滑研究
  • 项目类别:面上项目
  • 批准号:60572159
  • 申请代码:F010406
  • 项目来源:国家自然科学基金
  • 研究期限:2006-01-01-2008-12-31
  • 项目负责人:宋柔
  • 负责人职称:教授
  • 依托单位:北京语言大学
  • 批准年度:2005
中文摘要:

语料库统计方法是支持下一代网络自然语言处理功能的关键技术,但这一方法有许多基础性问题尚无深入研究,以致相关应用系统的性能提高受到很大局限,其中尤以数据稀疏问题为甚。缓解数据稀疏问题的平滑方法中,常用的插值方法不适合估计低频词预测问题,阶次回退法存在本质的矛盾,词类平滑方法过于粗糙。本课题深入分析了语料库统计方法的需求和汉语的实际,创性地利用词语相似关系进行平滑,并采用线性邻接属性计算相似度,需要研究相似度计算、同形异质词认定与排歧以及利用相似度的平滑算法。这些方法将集成到本项目组已经取得的关于线性文法的成果中去,改善语料库统计方法的性能,支持下一代网络的文本信息处理功能。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 29
  • 6
  • 0
  • 0
  • 3
相关项目
期刊论文 26 会议论文 16 获奖 2
期刊论文 7 会议论文 1
期刊论文 1 会议论文 3
期刊论文 27 会议论文 9
期刊论文 21 会议论文 15
宋柔的项目
期刊论文 15 会议论文 9
期刊论文 10 会议论文 8