位置:成果数据库 > 期刊 > 期刊详情页
一种基于时序窗口的动态热点话题提取模型
  • ISSN号:1002-0470
  • 期刊名称:《高技术通讯》
  • 时间:0
  • 分类:TP311.131[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所智能信息处理重点实验室,北京100190, [2]中国科学院研究生院,北京100049, [3]联想中国研究院网络服务研究室,北京100085
  • 相关基金:863计划(2007AA01Z132),国家自然科学基金(60435010),973计划(2007CB311004)和国家科技支撑计划(No.2006BAC08B06)资助项目.
中文摘要:

针对新闻领域的专题组织进行了研究,提出了一种基于时序窗口的动态热点话题提取模型。该模型整合了热点话题的两个特点。一方面关注主题词在新闻文本中的广泛性,衡量标准为多频道播报特征项的频率综合,词频越高其广泛性越高;另一方面考虑新闻流主题词的突发性,表现为特定时间段内主题词出现频率显著异常于其它时间段。引入时序窗口进行上升和下降突发模式提取,并结合TF-DF作为主题词赋权值依据。实验结果表明,这种基于时序窗口的动态热点话题提取模型对新闻文本进行主题抽取具有很好的性能。

英文摘要:

This paper gives a description of a study of topic organization in the news domain, and presents a novel dynamic hot topic extraction model based on the time window. The model combines two characteristics of hot topics together. One is the pervasiveness of topic terms in news texts, which is evaluated by the occurrences of the topic terms reported by different channels, and the more frequent the occurrence of the topic terms reported, the higher the pervasiveness of topic terms. The other one is the burst of topic terms in the news stream, which can be assessed by the abnormal occurrence frequencies of topic terms in a specific interval compared with other different time intervals. The time window is introduced to make burst detection and the term frequency-proportional document freqency (TF-PDF) is combined to weigh the terms. The experimental results demonstrate that this model is effective in topic extraction for news texts.

同期刊论文项目
期刊论文 190 会议论文 118 获奖 5 著作 4
同项目期刊论文
期刊信息
  • 《高技术通讯》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国科学科技部
  • 主办单位:中国科学技术信息研究所
  • 主编:赵志耘
  • 地址:北京市三里河路54号
  • 邮编:100045
  • 邮箱:hitech@istic.ac.cn
  • 电话:010-68514060 68598272
  • 国际标准刊号:ISSN:1002-0470
  • 国内统一刊号:ISSN:11-2770/N
  • 邮发代号:82-516
  • 获奖情况:
  • 《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:12178