? 词义消歧是自然语言处理领域的基础研究问题,目前在研究上主要采用语料库结合统计学习的方法。因为训练数据的不充分造成的数据稀疏问题给研究者造成长期的困扰,如何攻克这个顽疾成为影响统计词义消歧进展的难题。 本项目针对训练语料规模过小导致的数据稀疏问题,提出语义范畴扩展思想。根据该思想对歧义词上下文中的指示词进行扩展,对歧义词的词义信息进行扩展,对歧义词的训练实例进行扩展,从而提高对现有资源的使用效率和质量,最大限度地为词义判断提供更多的信息和知识,改善语言模型的学习效果,增强模型的词义辨识能力,提高词义消歧的精度。 语义范畴扩展思想兼具有指导学习和无指导学习两种风格。通过语义范畴的扩展,充分发挥有限语言资源的作用,深度挖掘有限资源的信息和知识,为最大限度的提高模型训练能力提供帮助。深入探讨语义范畴扩展的思想和应用为词义消歧的研究发展提供了一个新的解决思路。
英文主题词Word sense disambiguation, Natural language processing, Word-sense category extending, Statistical learning, Artifical intelligence