上市公司年报文本信息对决策者越来越重要。正确测度年报文本信息质量,是 正确理解和使用年报的关键。而当前会计学界对上市公司年报文本信息质量的测度,受限于当前以人工手动分析主的测度方法,很难对年报中表述灵活的中文叙述性信息进行语义层面的有效分析和提取。计算语言学的飞速发展,为上市公司年报文本语义信息的分析和处理提供了很好的理论和技术支撑。本项目基于计算语言学理论,构建上市公司年报领域本体,抽取上市年报文本信息规则,基于规则相似度对文本信息质量指标进行计量,建立综合评价模型,对上市公司年报文本信息质量进行有效测度。本项目提出的测度方法不仅能拓展年报文本信息质量测度的深度和宽度,而且也可实现计算语言技术从通用语言的语法分析到专业领域语言的语义分析的跨越,提高专业领域文本信息的智能化处理程度,促进人类高级专业知识的共享。
英文主题词text mining;listed company;financial reports;semantic;