位置:成果数据库 > 期刊 > 期刊详情页
基于文章要素影响分析的博客文章分类方法
  • 期刊名称:计算机工程与应用
  • 时间:0
  • 页码:124-126
  • 语言:中文
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华南理工大学软件学院,广州510006, [2]惠州学院教育技术中心,广东惠州516007
  • 相关基金:国家自然科学基金(No.61003066.No.61070033);教育部博士点基金(No.20090172120035);广东省自然科学基金(No.9151008901000165,No.10151601501000015);广东省科技计划项目(No.20098010800026);惠州市现代信息服务业专项资金项目;惠州市科技计划项目(No.2009G024).
  • 相关项目:进化规划算法的计算时间难题研究
中文摘要:

现有的博客文章分类的研究通常直接沿用传统文本分类方法,并没有结合博客自身的特点。研究基于文章要素的影响分析实现分类效果的改进。提出了一种简单的博客文本去噪方法,以保证博客数据的可靠性;提出了基于博客标签的中文词库扩展方法,用于改善中文分词效果,以提高博客分类的准确性;根据综合评价模型G1法计算博客文章中标题、标签、类别、首段、末段以及正文等文章要素的权重,分析它们对博客分类的影响。实验结果表明,研究提出的方法比传统的TFIDF方法有更好的分类效果。

英文摘要:

Traditional text classification methods are directly used to classify blog posts without considering characteristics of blog posts,so this paper proposes a method to improve classification results by considering the impact of article elements. This paper proposes an easy method to get rid of noisy posts in order to ensure the reliability of the posts;blog tags are used to extend the thesaurus so as to improve words segment and the accuracy of blog classification;Gl method proposed in comprehensive evaluation model is used to calculate the weights of title,tag, label, first paragraph,last paragraph and other part,which are to be analyzed in blog classification.Experimental results show that this method can gain better classification performance than traditional TF-IDF method.

同期刊论文项目
期刊论文 14 会议论文 6
同项目期刊论文