本课题主要研究利用概念词典和大规模领域知识库,将词汇分析技术提升到概念层和领域知识计算层面,实现基于语义的内容主题分析技术,并应用于文体结构分析,构造基于主题层次结构树的逻辑结构。其中引入概念扩充和信息增益思想改进特征项权重计算方法,研究主题特征分布计算和主题特征集聚分析技术。探讨将该分析技术应用于网上文体信息处理。
英文主题词domain knowledge; text structure analysis; machine learning; text processing technology