深度学习是受认知科学理论启发而产生的新兴机器学习方法,有望解决自然语言处理中的传统难题,如本体学习。本申请拟研究面向领域本体的深度学习方法,在分析深度学习和本体学习所存在问题的基础上,深入研究深度网络的有效表示、高效学习、结构优化、输入特征选择等一系列关键技术。通过结合有监督机器学习方法,引入主动式样本标注机制,使得在有限人工标注基础上,产生符合特定任务的深度特征表示;通过对深度网络的分块训练机制,有效融合多源异类特征,提高学习效率与性能;通过网络剪枝策略,在训练过程中自动调整网络结构,消除噪声,提高网络泛化能力;通过构建全面的深度网络输入特征,并最终建立高效的深度网络模型,为本体学习提供高质量的输出特征表示,进而提高本体学习的准确率。本课题相关研究成果将对深度学习的理论研究和本体学习的应用研究产生深远影响,具有重要的理论意义和应用价值。
deep learning;deep network;feature representation;domain ontology learning;relation extraction
本项目大部分工作都按计划顺利完成,包括如下几方面的研究1)提出了深度网络与分类器的融合方法,使得学习结果既能更好地拟合输入数据,又能更好地反应具体应用目标。2)提出了基于剪枝的深度网络结构优化方法,从而提高模型的泛化能力。在有噪音、或异质的数据集上,新方法在分类效果上具有明显的提升。3)提出了基于样本置信度划分的领域文本判别方法,与传统方法相比,该方法提高了领域文本判别的性能,具有很好的应用价值。4)提出了面向领域本体的关系识别方法,将词语的深度表示特征引入到序列标注模型中,使得关系识别效果得到明显的提升。5)完成了法学领域示范应用司法考试自助学习系统的开发,系统已上线运行。项目的主要成果发表于人工智能领域的顶级会议AAAI、CIKM等国际会议。