位置:立项数据库 > 立项详情页
汉语动词搭配知识的自动发现研究
  • 项目名称:汉语动词搭配知识的自动发现研究
  • 项目类别:青年科学基金项目
  • 批准号:69903007
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2000-01-01-2002-12-01
  • 项目负责人:周强
  • 负责人职称:副研究员
  • 依托单位:清华大学
  • 批准年度:1999
中文摘要:

搭配作为描述词间组合能力的一种重要的词汇知识,在自然语言处理各个应用领域的研究中,包括汉语自动分析、汉外机器翻译、信息抽取和文本检索等,都发挥了重要作用。本项研究主要探索运用汉语自动句法分析和语料库统计技术,从大规模真实文本中自动发现汉语动词的词汇搭配和语法搭配组合,构建大规模的汉语动词搭配知识库。经过三年的努力,我们主要取得了以下研究成果 1)提出了一套分层次的汉语部分句法信息描述体系,开发完成了不同层次的部分句法信息标注语料库,其中200万汉字的功能语块库在标注规模和信息容量上处于国际领先水平。 2)探索了不同层次的汉语部分分析技术,在基本短语层次取得了较好的实验效果。 3)开发了一套有效的汉语词汇搭配自动获取算法,从6个月的人民日报标注语料库中获取形成了包含50多万搭配词对的汉语动词词汇搭配库。 4)通过知识融合实验,初步形成了包含1万多个记录项的比较完整的汉语动词语法搭配模板描述知识库。 在此基础上对搭配知识获取问题进行更深入的探索,可以将句法语义分析有机结合起来,逐步建立起比较完整的汉语动词句法、词汇、语义描述知识库。

结论摘要:

英文主题词lexical collocation; grammatical collocation; partial parsing; corpus annotation; knowledge acquisition


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 2
  • 10
  • 0
  • 0
  • 0
相关项目
期刊论文 48 会议论文 8 著作 2
期刊论文 19 会议论文 15
周强的项目