概率主题模型是一类重要的文本建模方法,建立在统计学基础上,突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明,概率主题模型是一种非常有效的手段。然而,由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的,不利于在大规模文本处理任务中应用。所以,本项目的研究目标是探索和挖掘概率主题模型的可并行性,系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。具体的研究内容包括1.研究针对主题规模具有可扩展性的高性能算法,关键问题是主题集分解算法;2.研究支持数据规模和主题规模协同扩展的高性能算法,关键问题是模型子空间分解算法;3.研究基于GPGPU众核平台的并行算法,关键问题是面向GPGPU硬件架构和编程模型的计算任务的映射方法;4.大规模概率主题模型在信息检索和文本分类等领域中的应用。
Topic Model;Variational Inference;Large Scale;High Performance Computing;
概率主题模型是一类重要的文本建模方法,建立在统计学基础上,突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明,概率主题模型是一种非常有效的手段。然而,由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的,不利于在大规模文本处理任务中应用。所以,本项目的研究目标是探索和挖掘概率主题模型的可并行性,系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。 项目执行期内,我们对以下方面的具体内容进行了研究和开发一)高性能求解算法方面1.研究出针对数据规模具有可扩展性的高性能算法;2.研究出支持数据规模和主题规模协同扩展的细粒度高性能算法。二)研发主题模型的高性能求解系统主要包含LDA和CTM两个典型模型,以及并行、分布式、并行分布混合式三种高性能计算模式。三)大规模概率主题模型的示范应用文本可视化表示和自动文本分类。 相关研究取得8篇学术论文、申请4项专利、5项软件著作权和1本译著等等学术成果。