位置:成果数据库 > 期刊 > 期刊详情页
应用粗糙集理论提取特征的词性标注模型
  • 期刊名称:姜维,王晓龙,关毅,徐志明,应用粗糙集理论提取特征的词性标注模型,高技术通讯﹒2006年10期(EI
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:863计划(2002AA117010-90)与国家自然科学基金(60435020)资助项目
  • 相关项目:面向智能化信息检索的危险式人工免疫网络理论与方法研究
中文摘要:

针对词性标注中的复杂特征提取问题,应用粗糙集理论(rough sets),有效地挖掘了包括长距离特征在内的复杂特征,并有效地处理了语料库噪声问题.最后,将这些特征融合于最大熵模型中,训练时按模型整体性能为其分配权重.开放实验表明:增加粗规则后获得96.29%的标注精度,相比原有模型提高了0.83%.

英文摘要:

In order to extract the complicated contextual features in the part-of-speech tagging task, a novel approach based on rough sets is presented in this paper to collect the complex and long-distance features from the corpus effectively, and to overcome the noise and inconsistent sample problem existing in the corpus. In addition, these rough rules are added into the maximum entropy model. The experiment achieved the precision of 96.29 %, and increased the tagging precision by O. 83 % compared with the former model.

同期刊论文项目
同项目期刊论文