随着文本归类技术在搜索引擎技术、数字图书馆技术、信息过滤、信息检索、互联网信息监控、个性化信息推送等领域的广泛应用,文本归类技术研究己经成为信息处理的前沿课题之一。现有研究工作忽略了人在文本归类过程中的角色和因素,文本归类技术仅停留在词(词组)匹配、统计和计算的基础上,缺乏对文本内容的认知和理解,该局限性大大影响了文本归类的性能。本课题将探索与大脑阅读理解相关的成熟认知模型在文本归类上的研究价值和技术实现方式。通过理论分析两个成熟认知模型间的互补关系,研究文本归类技术所必需的信息元素及性质,构建能准确反映文本内容的综合特征模型,将模型特征选择和归纳技术融入归类算法。本课题的研究成果将有利于揭示文本归类技术的认知性本质,创新文本表示的数学模型,促进文本归类技术的认知智能化,提高文本归类结果的精确率和覆盖率,以及为相关文本处理技术在模型构建和创新方面提供理论依据和实证支持。
Text categorization;Cognition;Text Representation;Comprehensive Feature Model;Categorization Algorithm
随着文本归类技术在搜索引擎技术、数字图书馆技术、信息过滤、信息检索、互联网信息监控、个性化信息推送等领域的广泛应用,文本归类技术研究己经成为信息处理的前沿课题之一。已有的典型研究工作忽略了人在文本归类过程中的角色和因素,文本归类技术仅停留在词(词组)匹配、统计和计算的基础上,缺乏对文本内容的认知和理解,该局限性大大影响了文本归类的性能。 本课题探索了与大脑阅读理解相关的成熟认知模型在文本归类上的研究价值和技术实现方式。通过理论分析两个成熟认知模型间的互补关系,研究文本归类技术所必需的信息元素及性质,构建能准确反映文本内容的综合特征模型,将模型特征选择和归纳技术融入归类算法。 在具体技术层面上,本项目基于两个成熟认知模型(“构造-综合”模型和“事件-索引”模型)设计了一个文本综合特征模型,提供了一种将认知机理引入文本归类领域的新思路,将事件、主角、时间性、因果关系、空间性和意图性等六个信息维度,在文字、陈述命题和情形等三个层面上构建相应的认知过程,将内容推理归纳融入到文本归类技术研究中,推动了文本归类技术在认知层面上的深化,准确表示文本内容。 多维度多层面的综合特征模型,规避了目前对文本广泛采用的高维表示方法,将文本表示的维数进行了有效限制(最多不超过九维,即六个维度和三个层面),提高了文本表示模型的复用性,必将显著节约计算资源,提高计算速度。 采用多维度多层面的综合特征模型对文本内容进行表示和管理,使得从文本内容中提取关键信息有更强的针对性;而且,该模型的维度和层面为提取得到的文本信息提供了统一、准确的语义注释,将极大的便利后续的内容推理归纳、向量特征比较和类别向量矩阵归一化计算。 本课题的研究成果有力的揭示文本归类技术的认知性本质,创新文本表示的数学模型,促进文本归类技术的认知智能化,提高文本归类结果的精确率和覆盖率,以及为相关文本处理技术在模型构建和创新方面提供理论依据和实证支持。