位置:立项数据库 > 立项详情页
蒙古文多层次形态分析研究
  • 项目名称:蒙古文多层次形态分析研究
  • 项目类别:地区科学基金项目
  • 批准号:61163020
  • 申请代码:F020604
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:白双成
  • 负责人职称:研究员
  • 依托单位:内蒙古自治区社会科学院
  • 批准年度:2011
中文摘要:

本项目是一个规则与统计方法相结合构造三个层次的蒙古文形态分析方法体系,以能够应用于各类应用系统为目标的基础研究项目。项目以课题组已有成果"蒙古文框架知识库"为基础数据,通过研究实现基于机器学习方法的构件库和整词生成规则重构方法、参数化蒙古文字形比较方法、未登录词特征信息自动推导方法等关键技术,从搜索引擎搜集网络资源和语料库资源中剥离拼错词,回收未登录词,以求构造精确形态分析的Lemmatization方法。探索符合蒙古文自身特点的统计模型特征选取和优化原则,利用语料资源中通过Lemmatization方法无歧义标注部分为训练集统计建模,构造Stemming方法。以Stemming方法再对未标注和歧义标注部分进行有监督学习和扩充形态分析库。依此循环渐进地达到规则方法与统计方法的互补互促和整合。最后观察分析上述数据基础上精炼出高效Stemmer。项目研究意义重大、成果转化前景乐观。

结论摘要:

对于形态变化特别丰富的蒙古文进行形态分析,切分出词根、词干、构词词缀、构形词缀,尤其是切掉构形词缀,如同汉文信息处理中的切词一样重要和基础。信息检索,机器翻译、语言生成、自动摘要、数字词典、句法分析、拼写检查等几乎所有较深入的自然语言处理研究和应用都有形态分析的迫切需求。本项目结合规则、统计、算法等方法构造了精确切分、统计模糊切分、快速切分三个层次的蒙古文形态分析方法,并以蒙古文搜索引擎、智能输入法等实际应用为用例和依托进行了反复研究和验证。本项目精确形态分析的Lemmatization方法主要以“蒙古文框架知识库”为基础数据,通过新提出的DoubleTrie数据结构方法和系列新词回收机制实现和优化。用基于标注语料和通用序列标注方法的统计模型实现了模糊切分的Stemming方法,在输入法统计建模实际应用中,提出了基于生语料的统计模型,是蒙古文统计建模的全新探索模式。基于以上所有工作,通过实践精炼出基于m值的不一定精确但高效的快速切分Stemmer方法(类似英文Porter Stemmer)。三种切分方法各有优劣,可依据需求选用一种或组合两三种方法,发挥其互补性。鉴于蒙古文形态分析需要解决一些列研究难题外还需依靠扎实的前期数据积累,甚至因蒙古文信息处理技术环境的不完善和不成熟导致的非研究性工程化工作和辅助平台建设工作也会耗费较大人力,同时,形态分析又是蒙古文信息处理研究中一个无法忽略和跳过的重要环节,已经成为很多研究团队深入研究的重要阻碍。所以,本项目研究成果对蒙古文信息处理具有重要的参考意义,成果转化和产品化后必然有很好的推广前景。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 4
  • 1
  • 0
  • 1
  • 2
相关项目
期刊论文 1 会议论文 3
期刊论文 13 会议论文 36 著作 1
期刊论文 1 会议论文 5
白双成的项目
期刊论文 1 会议论文 3