位置:成果数据库 > 期刊 > 期刊详情页
基于特征权重优化的改进KNN Web文本分类算法
  • ISSN号:1000-0135
  • 期刊名称:《情报学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]鞍山师范学院数学系,辽宁鞍山114007
  • 相关基金:国家自然科学基金资助项目(60275020)
中文摘要:

提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.

英文摘要:

This paper presents a new Chinese word segmentation algorithm Jlppeccz based on neighboring match.The traditional MM algorithm which may easily produce ambiguity depends on dictionary strongly.JIppeccz algorithm divided a article into some sentences with the benchmark of punctuation mark,then one sentence is cut into one word or multiword by neighboring match.The database of the words is searched;the words which have been divided are recombined;the small phrases are combined into the big ones,the words are put into a temporary table to prepare for the following phrases;the words are added into the database of the words.Compared to the classical MM algorithm and the word frequency statistics algorithm,Jlppeccz algorithm has greater improvement.Experiment shows the present algorithm possesses higher precision and efficiency than MM algorithm.The example demonstrates the effectiveness of the present algorithm.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会 中国科学技术信息研究所
  • 主编:戴国强
  • 地址:北京复兴路15号
  • 邮编:100038
  • 邮箱:qbxb@istic.ac.cn
  • 电话:010-68598273
  • 国际标准刊号:ISSN:1000-0135
  • 国内统一刊号:ISSN:11-2257/G3
  • 邮发代号:82-153
  • 获奖情况:
  • 1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:19778