本项目以国家民族汉考办提供的MHK考试材料为基础,研究少数民族汉语考试中海量作文自动评分技术。项目将作文评分分为前期的异常作文诊断和后期的正常阅卷两个阶段分别给出解决方案,并将异常作文诊断细化为体裁异常、通顺度异常、作弊异常三大方面,将正常阅卷细化为汉字、词语、句子、篇章四个层面进行研究。结合前期研究结果,提出本项目的重点是在句子和篇章层面进一步深化前期成果;研究利用海量数据实现无需人工标注的全自动评分模型生成问题。本研究成果可以广泛应用于各种大规模汉语考试,提高汉语考试中的作文阅卷效率,降低阅卷成本,减少人工阅卷的主观差异。
automated essay scoring;character error correction;incremental learning;semantic analysis;topic model
近年来,汉语考试掀起热潮,报考人数迅速上涨。汉语考试的客观题型和发音题型目前都有相应的自动评估方案,而作文作为考试的重要内容之一,目前的人工阅卷方式效率低,成本高,误差大,信息无法有效利用等缺点逐步彰显,迫切需要一种自动评分算法辅助解决此问题。汉语作文自动评分技术研究始于本世纪初期,北京语言大学的张晋军和任杰对中国少数民族汉语水平等级考试(MHK)三级作文进行了作文了研究,通过随机选取700份试卷的字数、句长、错误语法数等17项信息,采用多元线性回归方法设计电子评分员,验证了汉语作文自动评分技术的可行性。曹亦薇和杨晨使用潜在语义分析技术对汉语作文进行自动评分研究,证实了潜在语义最作文自动评分的重要性。随后北京语言大学与中科院自动化所合作,进一步探索作文自动评分的核心技术。本项目正是产生于这样的一个大背景环境。项目组提出将作文自动评分分为字词句篇四个层次进行分析的大框架,在此框架下,我们取得了一系列可喜的成果 1. 提出了一种将错别字自动纠正和句子自动分词联合在一起的有效算法。它既可以提高分词的准确性,又可以向老师提供详实有效的常见错别字信息,更有针对性地发现学生问题。 2. 提出了一种话题有关的词汇等级计算方法。该算法性能超过以往任何一种的词汇等级表的计算方法。 3. 提出了一种性能更优的句末标点的自动标注算法。该算法在精度、召回率、F值三个指标上一致超越当前主流的HELM算法。 4. 提出一种可计算的篇章结构模型,也是目前世界上唯一一个可计算的篇章结构模型。 5. 提出一种省内存、省时间的潜在语义分析算法,是目前国内外唯一公开报道的如何对海量作文进行潜在语义分析的算法。 6. 提出一种可以快速高效计算的作文话题模型。该算法不仅速度快,而且评分性能优于LDA模型,对作文主题的自动提取与偏题跑题的自动判断具有重要的意义。 7. 提出了一种深度神经网络的快速训练算法。该算法使得DNN的训练时间可以节约2-4倍,有望用于深度的语义理解。