基于计算机的外语考试和评分越来越多,以往研究大都涉及基于纸笔评分效果,对基于计算机的主观题评分效果研究不多。本文从评分一致性和分数维度差异两方面研究了大规模计算机口试分析评分的效果。通过对比整体评分法发现,分析评分法的评卷员行为一致性较好。评卷员使用整体评分法时未能较好地根据表达内容的完整性打分,而且容易出现集中趋势。进行分析评分时,评卷员在内容和语言分项上一致性较差。在准确度方面,评卷员给低水平考生评分要比给高水平考生评分好。