位置:成果数据库 > 期刊 > 期刊详情页
复杂文本网数据的主题建模进展
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006, [2]复旦大学上海智能信息处理重点实验室,上海200433
  • 相关基金:本课题得到国家自然科学基金(61003154,61003259,61170124)、复旦大学上海智能信息处理重点实验室课题(IIPI,2010-009)以及江苏省高校自然科学研究重大项目基金(12KJA520004)资助.究领域为模式识别、图像与视频处理.
中文摘要:

文中介绍了大规模文本网数据的主题建模研究的特点和近年来的重要进展.主题建模方法吸引了世界范围的广泛兴趣,并且促进了许多重要的数据挖掘、计算机视觉和计算生物应用系统的发展,包括文本自动摘要、信息检索、信息推荐、主题检测和追踪、自然场景理解、人体动作识别以及微阵列基因表达分析等.文中重点介绍文本网数据的4个主要特点以及对应的主题模型.文本网数据含有动态、高阶、多通路及分布式的结构,而之前的主题模型仅对部分的结构进行建模.而文中讨论了在三维马尔可夫模型的框架下统一对文本网数据的4个结构特点进行建模,并分析了结合三维马尔可夫模型和二型模糊系统对分布式单词计算和主题建模应用的可能性.除了对文本网数据的结构建模之外,还讨论了一些对三维马尔可夫模型能量最小化的机器学习算法.

英文摘要:

This paper reviews important advances that have been made in the past decade for topic modeling of large-scale document network data. Interest in topic modeling is worldwide and touches a number of practical text mining, computer vision and computational biology systems that are important in text summarization, information retrieval, information recommendation, topic detection and tracking, natural scene understanding, human motion categorization and microarray gene expression analysis. The main focus of this review is on the recent advances of topic modeling techniques for document network data. We introduce the four major characteristics of document network data and the current state-of-the-art topic models, with descriptions of what they are, what has been accomplished, and what remains to be done. Document network data contain dynamic, higher-order, multiplex, and distributed structures. Prior efforts on topic mod- els focus on modeling parts of these structures for topic detection and tracking. To handle all doc- ument network structures, we discuss a three-dimensional Markov model that solves dynamic, higher-order, multiplex and distributed structures within a unified framework. In addition, we also discuss the integration of three-dimensional Markov models with type-2 fuzzy logic systems for distributed computing with words. Besides document network structure modeling, we also discuss the inference and parameter estimation method in terms of energy minimization for three- dimensional Markov models.

同期刊论文项目
期刊论文 2 会议论文 3 专利 3
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433