位置:成果数据库 > 期刊 > 期刊详情页
基于主动学习的中文问题分类数据集构建
  • ISSN号:0367-6234
  • 期刊名称:哈尔滨工业大学学报
  • 时间:2012.5.5
  • 页码:125-128
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]复旦大学计算机科学技术学院,上海201203
  • 相关基金:国家自然科学基金资助项目(61003091,61073069)
  • 相关项目:基于Markov逻辑网络的限定领域中文自动问答系统研究
中文摘要:

为解决在开放领域问题回答问题中语料规模较小、难以满足问题分类训练需要的问题,用主动学习方法来构建中文问题分类数据集.根据主动学习的方法进行中文问题类别标注,并且通过主动式特征选择方法来提升性能.实验结果表明:在使用主动学习方法时可以快速收敛到最佳准确率(85%),在使用人工标注特征下特征集明显的减小.基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在一定程度上还可以明显提高问题分类的准确率.

英文摘要:

The current corpora of question classification are relatively small and difficult to meet the practical needs of Question Answering system,so that we use active learning methods to construct a Chinese question classification dataset and for question labeling.In addition,we improve the performance of labeling with feature selection.Experimental results show that by using active learning we can quickly converge at the best accuracy(85%) and by using manual tagging we can have small feature set size.The active learning-based labeling method achieved very good classification performance with less manual annotation tagging,which can significantly improve the accuracy of classification to some degree.

同期刊论文项目
期刊论文 11 会议论文 23
同项目期刊论文
期刊信息
  • 《哈尔滨工业大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工业大学
  • 主编:冷劲松
  • 地址:哈尔滨市南岗区西大直街92号
  • 邮编:150001
  • 邮箱:
  • 电话:0451-86403427 86414135
  • 国际标准刊号:ISSN:0367-6234
  • 国内统一刊号:ISSN:23-1235/T
  • 邮发代号:14-67
  • 获奖情况:
  • 2000年获黑龙省科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27329