位置:成果数据库 > 期刊 > 期刊详情页
基于层叠隐马模型的屏蔽关键词研究
  • ISSN号:1673-629X
  • 期刊名称:《计算机技术与发展》
  • 分类:TP31[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]上海海事大学信息工程学院,上海201300
  • 相关基金:国家自然科学基金资助项目(61070154,61373028)
作者: 陶非凡[1]
中文摘要:

信息时代给人们的生活带来巨大改善,但同时也伴随一系列问题的产生,其中如何对网络中产生的大数据量的言论信息进行过滤的问题是研究的一大难点。传统的屏蔽法效率较低而且不够准确,因此文中提出了一种新的关键词屏蔽技术。主要采用二元语法模型结合层叠隐马可夫分词技术,首先运用二元语法模型在大量语料中得到普通词和关键词的构成概率,建立一个有普通词和关键词分类的词典,再结合层叠隐马可夫模型对具体句子进行分词处理,对分词后的结果计算其关键词屏蔽概率,最终得到一个科学的屏蔽概率,可以大大提高关键词屏蔽的准确性。

英文摘要:

The information age brings a huge improvement in people's lives,but also accompanied by a series of problems arising,in which how to filter a large amount of information the network's remarks generated is a major difficulty. The traditional method of shiel-ding has low efficiency and is not accurate enough,so propose a new keyword shielding technology. Mainly use binary syntax model combined with layered hidden Markov model segmentation techniques,first utilize binary syntax model to get the constitute probability of the common words and keywords in a large corpus,creating a dictionary of common words and keywords classified,then combined casca-ding hidden Markov model for the specific sentence word processing,calculate the probability of its keywords shield for segmented result, finally get a scientific shielding probability,which can greatly improve the accuracy of keyword shield.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263