位置:成果数据库 > 期刊 > 期刊详情页
文字云及主题模型的统计挖掘
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:C812[社会学—统计学;经济管理]
  • 作者机构:[1] 安庆师范学院 计算机与信息学院,安徽 安庆246133, [2] 安庆师范学院 统计所,安徽 安庆246133
  • 相关基金:安徽省自然科学基金项目(10040606Q42)资助.
中文摘要:

互联网等信息技术的迅猛发展使网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量电子文档中获取需要的信息并以高效直观信息图的形式展现,成为统计分析工作者的一项主要任务。文字云是信息图表达的一种新型文本显示方式,利用文字云和主题模型文本挖掘方法,对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。实验中主要利用R语言,以多年粗糙集会议纪要为实验数据进行了相关统计分析,并对比了 Tagxedo文字云生成器,结果表明,从文字云中比较容易获取文本的重要信息如主题模型等,挖掘效果较好。

英文摘要:

With the rapid development of internet and other information technologies , networks are accumulated with vast semi-structured and unstructured text data .It will be a primary mission to statistical analysis workers that how to get the required informa-tion, and show it with an efficient and visual information graph from those massive electronic documents .Word clouds is a new text displaying way of information graph expressing .In the present work, we make some pretreatment of removing the number and the stop word in the text by a text mining method of word clouds and topic model .Then, we make Chinese word segmentation , build corpus and set up document-term matrix.Finally, we present the mining result with word clouds and topic model .The experiment statisti-cally analyses the data of the rough set conference summaries using R language and make a contrast with word cloud generator of Tagxedo.These results indicate that the method of this paper has a better effect in mining and easy acquire important information from text, such as topic model.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679