位置:成果数据库 > 期刊 > 期刊详情页
一种基于HITS算法的Blog文摘方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:104-109
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东大学计算机科学与技术学院,山东济南250101
  • 相关基金:国家自然科学基金资助项目(60970047); 山东省科技攻关资助项目(2007GG10001002 2008GG10001026); 山东省自然科学基金资助项目(Y2008G19)
  • 相关项目:Web图像的语义表示及在聚类与排序中的应用
中文摘要:

Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。

英文摘要:

Since blog contains many comments involving massive noise,how to summarize the content of blog posts together with the comments is a difficult task for many blog applications.The previous works for textual document summarization are mostly for multi-document summarization in general.Without taking the particularity of blog into account,the previous works are inefficient for blog posts with comments.This paper proposes a novel summarization approach for blog based on the characteristics of the blog posts in which the information of comments are well considered.We first calculate the weights of the comments based on multi-features of the comments.Then we calculate the weights of the sentences in blog post based on HITS model.Finally we select sentences from the blog post according to their weights.We conduct an experiment on the dataset of Ifeng blog,and it shows that our approach works better than some previous works in terms of the score of ROUGE.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136