位置:成果数据库 > 期刊 > 期刊详情页
基于词模型索引的短文本在线过滤方法
  • ISSN号:1671-4512
  • 期刊名称:《华中科技大学学报:自然科学版》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]国防科技大学计算机学院,湖南长沙410073
  • 相关基金:国家自然科学基金资助项目(60873097);新世纪优秀人才支持计划资助项目(NCET-06-0926);国防科技大学优秀博士创新资助项目(B080605).
中文摘要:

针对短文本的文本特点,提出一种基于词模型索引的短文本在线过滤方法.采用词模型索引存储已知类别的短文本.在线训练时,把新增加的语料增量更新到索引结构中;在线分类时,通过短文本中的词汇查询索引结构,检索出那些和当前短文本最相关的标注语料,用它们快速训练出的分类模型预测当前短文本.在真实手机短信过滤上的实验结果,说明本方法能够增强训练集的内容内聚性,使模型更加精细;集成多个精细模型的分类结果能够提高过滤性能.

英文摘要:

Previous approaches to text filtering are tested,because lengths of short texts limit their feather traction.From text characters of short text,a word-model-index-based short text online filtering approach is proposed.The main idea is applying a word-model-index to store labeled short texts.When online training,new labeled short text is incrementally updated into the index.When online classifying,firstly the index is queried by the words in current unlabeled short text,secondly the labeled corpus related with the current short text is retrieved,lastly a classification model is trained from the corpus and the model is applied to predict the current short text.The experimental results from real short message service filtering show that the proposed approach could reach higher on real short message filtering show that the proposed word-model-index-based approach can enhance the content cohesion of training set to refine the model,and ensemble results of multiple fine models can improve filtering performance.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华中科技大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:华中科技大学
  • 主编:丁烈云
  • 地址:武汉珞喻路1037号
  • 邮编:430074
  • 邮箱:hgxbs@mail.hust.edu.cn
  • 电话:027-87543916 87544294
  • 国际标准刊号:ISSN:1671-4512
  • 国内统一刊号:ISSN:42-1658/N
  • 邮发代号:38-9
  • 获奖情况:
  • 全国优秀科技期刊,首届国家期刊奖,第二届全国优秀科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21013