东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于特征权重优化的改进KNN Web文本分类算法

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]鞍山师范学院数学系,辽宁鞍山114007
相关基金：国家自然科学基金资助项目（60275020）

关键词：中文分词, 近邻匹配, 分词系统, Chinese word segmentation, Neighboring match, Word segmentation system

中文摘要：

提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1～4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.

英文摘要：

This paper presents a new Chinese word segmentation algorithm Jlppeccz based on neighboring match.The traditional MM algorithm which may easily produce ambiguity depends on dictionary strongly.JIppeccz algorithm divided a article into some sentences with the benchmark of punctuation mark,then one sentence is cut into one word or multiword by neighboring match.The database of the words is searched;the words which have been divided are recombined;the small phrases are combined into the big ones,the words are put into a temporary table to prepare for the following phrases;the words are added into the database of the words.Compared to the classical MM algorithm and the word frequency statistics algorithm,Jlppeccz algorithm has greater improvement.Experiment shows the present algorithm possesses higher precision and efficiency than MM algorithm.The example demonstrates the effectiveness of the present algorithm.

同期刊论文项目

用于数据挖掘的神经网络模型及其融合技术研究

期刊论文 19

同项目期刊论文

基于模式聚合和决策树的文本分类规则抽取

基于潜在语义索引和遗传算法的文本特征提取方法

TGFCM:基于模糊聚类的中文文本挖掘的新方法

基于文档标引图模型的文本相似度策略

DFKCN：一种动态模糊自组织神经网络及其应用

滨海新区重点建设项目进度偏差监视系统的构建

基于多元统计和改进BP网络的公路客运量预测

基于形态的时间序列相似性度量研究

用于Web文本分类的快速KNN算法

NFCNNC：一种新的模糊竞争神经网络聚类模型及其在文本聚类中的应用

执业资格考试及格线确定的方法探讨

基于社会演化算法的聚类新算法

Ontology及其应用

基于GA改进BP神经网络的建设工程投标报价研究

几种文本特征降维方法的比较分析

基于混沌社会演化算法的文本聚类新方法

ART2神经网络聚类的改进研究

用于文本分类的改进KNN算法

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778