大规模概率主题模型的高性能求解-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

大规模概率主题模型的高性能求解

项目名称：大规模概率主题模型的高性能求解
项目类别：青年科学基金项目
批准号：61003117
申请代码：F020511
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：李文波
负责人职称：高级工程师
依托单位：中国科学院软件研究所
批准年度：2010

中文摘要：

概率主题模型是一类重要的文本建模方法，建立在统计学基础上，突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明，概率主题模型是一种非常有效的手段。然而，由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的，不利于在大规模文本处理任务中应用。所以，本项目的研究目标是探索和挖掘概率主题模型的可并行性，系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。具体的研究内容包括1.研究针对主题规模具有可扩展性的高性能算法，关键问题是主题集分解算法；2.研究支持数据规模和主题规模协同扩展的高性能算法，关键问题是模型子空间分解算法；3.研究基于GPGPU众核平台的并行算法，关键问题是面向GPGPU硬件架构和编程模型的计算任务的映射方法；4.大规模概率主题模型在信息检索和文本分类等领域中的应用。

中文主题词：主题模型；变分方法；大规模；高性能计算；

英文摘要：

Topic Model；Variational Inference；Large Scale；High Performance Computing；

英文主题词： Topic Model；Variational Inference；Large Scale；High Performance Computing；

结论摘要：

概率主题模型是一类重要的文本建模方法，建立在统计学基础上，突出的优点是具清晰的模型语义、丰富的表达能力。在信息检索、文本挖掘、自然语言处理等领域中的应用表明，概率主题模型是一种非常有效的手段。然而，由于概率主题模型求解算法一般都具有较高的复杂度并且是基于串行设计的，不利于在大规模文本处理任务中应用。所以，本项目的研究目标是探索和挖掘概率主题模型的可并行性，系统性地研究和建立概率主题模型的可扩展求解算法并应用到大规模文本处理任务中。项目执行期内，我们对以下方面的具体内容进行了研究和开发一）高性能求解算法方面1.研究出针对数据规模具有可扩展性的高性能算法；2.研究出支持数据规模和主题规模协同扩展的细粒度高性能算法。二）研发主题模型的高性能求解系统主要包含LDA和CTM两个典型模型，以及并行、分布式、并行分布混合式三种高性能计算模式。三）大规模概率主题模型的示范应用文本可视化表示和自动文本分类。相关研究取得8篇学术论文、申请4项专利、5项软件著作权和1本译著等等学术成果。

成果综合统计