位置:成果数据库 > 期刊 > 期刊详情页
融合越南语语言特征与改进PCFG的越南语短语树库构建
  • ISSN号:0469-5097
  • 期刊名称:《南京大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]昆明理工大学信息工程与自动化学院,昆明650500, [2]昆明理工大学智能信息处理重点实验室,昆明650500
  • 相关基金:国家自然科学基金(61262041,61363044,61472168)
中文摘要:

短语树库是自然语言处理的研究和实际应用的重要资源,就越南语而言目前也缺乏这类树库资源,不利于汉越双语信息处理工作.提出一种融合越南语语法特征与改进PCFG(概率上下文无关文法)的越南语短语树库构建方法,能够自动分析出越南语的短语结构树,从而可解决了越南语短语树库的自动构建问题.首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建.实验结果表明,新的PCFG模型针对越南语短语树库构建的准确率达到了81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了2%~3%.

英文摘要:

Phrase Treebank is an important resource for Natural Language Processing research and practical application.For Vietnamese,we still lack this kind of Treebank resources,which has made Chinese and Vietnamese bilingual information processing be difficult to carry on.This paper presents a method to construct the Vietnamese phrase Treebank by fusion of Vietnamese grammatical features and improved PCFG(probabilistic context-free grammar)model.We think that it is a necessary resource for the linguistic research in general and for the development of real applications in the area of NLP(Natural Language Processing).This method can automatically analyze Vietnamese phrase structure tree,and it can solve the problem of constructing the Vietnamese phrase Treebank.Firstly,Vietnamese grammatical feature set is established by analysis of Vietnamese grammatical features.Then,grammar rule set of PCFG(probabilistic context-free grammar)model is obtained from manual annotation Vietnamese phrase trees.Atthe same time,The traditional PCFG(probabilistic context-free grammar)model is improved by adding more contextual semantic information,which are Pre co-occurrence probability and Post co-occurrence probability.Finally,Vietnamese grammatical feature set is fused into improved PCFG(probabilistic context-free grammar)model,which is regarded as a supplement.The new method completes the construction of Vietnamese phrase Treebank.The final improved PCFG(probabilistic context-free grammar)model has obtained good results for Vietnamese syntactic analysis.It not only improves the accuracy,but also reduces syntactic parsing time.The process of Vietnamese automatic syntactic analysis also promotes the construction of Vietnamese phrase Treebank.The experimental results show that the accuracy of proposed PCFG(probabilistic context-free grammar)model for the Vietnamese phrase Treebank construction reaches 81.14%.Compared with conventional PCFG(probabilistic context-free grammar)model and the maximum entropy method,t

同期刊论文项目
同项目期刊论文
期刊信息
  • 《南京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:南京大学
  • 主编:龚昌德
  • 地址:南京汉口路22号南京大学(自然科学版)编辑部
  • 邮编:210093
  • 邮箱:xbnse@netra.nju.edu.cn
  • 电话:025-83592704
  • 国际标准刊号:ISSN:0469-5097
  • 国内统一刊号:ISSN:32-1169/N
  • 邮发代号:28-25
  • 获奖情况:
  • 中国自然科学核心期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9316