位置:成果数据库 > 期刊 > 期刊详情页
基于特征本体的文本流主题演化
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程] TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中北大学信息与通信工程学院,太原030051, [2]山西大学计算机与信息技术学院,太原030006, [3]同济大学电子与信息工程学院,上海201804
  • 相关基金:国家自然科学基金资助项目(61403238,61071192,61271357,61171178);山西省自然科学基金资助项目(2014021022-1);山西省研究生优秀创新项目(20123098);山西省国际合作项目(2013081035).
中文摘要:

针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库Word Net构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(n K+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。

英文摘要:

In the era of big data, research in topic evolution is mostly based on the classical probability topic model, the premise of word bag hypothesis leads to the lack of semantic in topic and the retrospective process in analyzing evolution. An online incremental feature ontology based topic evolution algorithm was proposed to tackle these problems. First of all, feature ontology was built based on word co-occurrence and general WordNet ontology base, with which the topic in text stream was modeled. Secondly, a text stream topic matrix construction algorithm was put forward to realize online incremental topic evolution analysis. Finally, a text topic ontology evolution diagram construction algorithm was put forward based on the text steam topic matrix, and topic similarity was computed using sub-graph similarity calculation, thus the evolution of topics in text stream was obtained with time scale. Experiments on scientific literature showed that the proposed algorithm reduced time complexity to O( nK + N), which outperformed classical probability topic evolution model, and performed no worse than sliding-window based Latent Dirichlet Allocation ( LDA). With ontology introduced, as well as the semantic relations, the proposed algorithm can demonstrate the semantic feature of topics in graphics, based on which the topic evolution diagram is built incrementally, thus has more advantages in semantic explanatory and topic visualization.

同期刊论文项目
期刊论文 34 会议论文 3
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679