位置:立项数据库 > 立项详情页
面向农业领域的维汉双语术语抽取的关键技术研究
  • 项目名称:面向农业领域的维汉双语术语抽取的关键技术研究
  • 项目类别:地区科学基金项目
  • 批准号:61163045
  • 申请代码:F020509
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:张海军
  • 依托单位:新疆师范大学
  • 批准年度:2011
中文摘要:

领域术语蕴涵了特定领域的专业知识,而双语术语承载着语言知识间的联系和映射,在机器翻译、跨语言信息检索等领域都有着重要的应用。本课题以维汉双语可比语料库为研究对象,实施面向农业领域的维汉双语术语抽取。可比语料的相关性决定着双语术语抽取的效率和效果,本课题拟设计一套双语类语义集合,在量化的基础上衡量语料间的可比性,以获取高质量的可比语料;为提高汉语领域术语的覆盖面和召回率,本课题拟采用重复模式提取方法构造候选术语集合,并应用海量语料作为汉语术语提取来源;对维吾尔语术语的检测,因其具有复杂的形态变化,拟构造一个有限状态机来进行术语边界检测;双语术语对齐以类语义集合为基础,使用统计框架来标注维汉双语的映射关系。在此基础上构造面向农业领域维汉双语新术语表,为新疆的农业信息化建设服务,并为其它领域维汉双语术语抽取提供有益借鉴。

结论摘要:

领域术语承载着特定领域的核心知识,双语术语蕴含着双语知识间的联系,双语领域术语自动抽取是机器翻译、信息检索等领域的研究基础。本课题在大量调研的基础上,重点研究了大规模语料的重复模式快速提取算法、汉语农业领域术语抽取、基于大规模语料的网络汉语新词识别及维语农业领域术语自动抽取方法,取得了一定的研究成果。在重复模式提取方面,研制了一种基于逐层剪枝算法的大规模语料重复模式提取算法,通过短串过滤长串及级联剪枝技术,及时滤出低频垃圾字符串,有效减少内存用量,进而高效处理容量大于内存容量的语料。实验表明,该算法的处理效率为0.59M/s,能高效的从规模远大于内存容量的语料中提取高频重复模式。为了进一步提高重复模式提取效率,研制了一种高效的中文字符串排序算法,实验表明,该算法排序速度比快速排序算法(Quick Sort)提高了两倍。针对汉语农业术语的提取,研究了一种基于重复模式的领域术语提取技术,在重复模式的基础上,构造候选术语集合,应用领域相关的特定统计量,包括逆文档频率、C_value值、互信息和左右熵,进行汉语领域术语的提取,并增加了领域术语部件作为语言知识特征,使用统计学习框架实现了汉语农业领域术语的自动识别,实验结果表明,该方法的准确率和召回率分别达到了55.72%和86.48%,取得了目前较好的识别效果。在领域术语的基础上,研究了汉语未登录词的检测模型和识别特征,并实现了基于统计学习框架的汉语候选新词检测和过滤方法,通过深入挖掘统计特征和语言知识特征,在统计学习框架下,充分整合多重特征,应用北京大学标注语料实验的准确率和召回率分别为69.15%和70.53%,实现了高效的汉语新词检测。针对维语领域术语识别,针对维语术语识别中语言特征应用不充分,未见有效的框架整合各类特征问题,研究了一种维语农业领域术语识别方法。该方法应用统计量C_value值提取候选单词型术语作为锚点,使用维语词干和词尾组合的统计特征作为领域语言知识特征,应用有限状态机整合各类特征,在锚点词的基础上实施候选术语过滤和扩展,实现单词型术语和多词型术语的识别。实验的准确率和召回率分别为88.6%和78.1%,可实现维语术语的有效识别。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 10
  • 2
  • 0
  • 0
  • 0
相关项目
期刊论文 11 会议论文 3 获奖 2
张海军的项目