东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于样本重要性原理的KNN文本分类算法

ISSN号：1000-5862
期刊名称：江西师范大学学报(自然科学版)
时间：2015.5.15
页码：297-303+314
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]江西师范大学计算机信息工程学院,江西南昌330022
相关基金：国家自然科学基金（61272212,61163006,61203313,61365002,61462045）资助项目.
相关项目：大规模数据聚类的并行进化算法骨架研究

作者：万韩永|左家莉|万剑怡|王明文|

关键词：文本分类, KNN, 样本重要性原理, SI-KNN, ext classification , KNN , sample importance principals, SI-KNN

中文摘要：

KNN是重要数据挖掘算法之一，具有良好的文本分类性能。传统的KNN方法对所有样本权重看作相同，而忽略了不同样本对于分类贡献的不同。为了解决该个问题，提出了一种样本重要性原理，并在此基础上构造KNN分类器。应用随机游走算法识别类边界点，并计算出每个样本点的边界值，生成每个样本点的重要性得分，将样本重要性与KNN方法融合形成一种新的分类模型———SI-KNN。在中英文文本语料上的实验表明：改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高。

英文摘要：

As one of the top ten data mining algorithms,KNN has good performance of text classification. All samples are treated as the same as its weight in the traditional KNN method,but the question that the different sample has the different contribution to the classification has been ignored. To solve the problem,a sample importance principals and KNN classifier constructed on the basis of this principle has been presented. Using the random walk algorithm to identify these samples near the class boundary,and calculate the boundary value of each sample. To generate the score of sample importance of each sample from the boundary value,combined sample importance with KNN method to form a new classification model. Experimental results show that the new SI-KNN classifier has some improvement compared to the traditional KNN method on the Chinese and English text corpus.

同期刊论文项目

移动云计算环境下面向视觉搜索的紧凑型语义特征抽取算法

期刊论文 4

大规模数据聚类的并行进化算法骨架研究

期刊论文 33 会议论文 4

基于潜在语义对偶空间的新词翻译自动识别方法研究

期刊论文 10

基于语言理解的机器翻译译文自动评价方法研究

期刊论文 15 会议论文 2

文本自动分类中样本重要性模型及应用研究

期刊论文 19

同项目期刊论文

投影寻踪模型中投影指标的改进

结合语义的位置语言模型

A Global Stereo Matching Algorithm Based on Adaptive Support-Weight and Graph Cut

基于MapReduce的可扩展协同聚类算法

Using Semantic Constraints for Question Answering

基于ListMLE排序学习方法的机器译文自动评价研究

Web Application Integration Framework Based on OSGi

一种基于簇相合性的文本增量聚类算法

面向近邻搜索的马尔科夫图哈希算法

基于词项—句子—文档三层图模型的多文档自动摘要

Local similarity preserved hashing learning via Markov graph for efficient similarity search

大量类别下非纹理对象实时检测与识别

基于迭代方法的多层Markov网络信息检索模型

一种基于族相合性的文本增量聚类箅法

基于 Markov 随机游走的渐进式半监督分类模型

基于词项一句子一文档三层图模型的多文档自动摘要

协同过滤中一种项目综合相似度计算方法

基于Markov随机游走的渐进式半监督分类模型

基于文档团的Markov网络检索模型

A SaaS Development Platform based on Cloud Computing

结合邻近度的语义位置语言检索模型

利用Markov网络抽取复述增强机器译文自动评价方法

基于MapReduce的粒子群投影寻踪模型的设计与实现

结合全局和局部信息的特征选择算法

面向新闻的情感关键句抽取与判定

中文微博句子倾向性分类中特征抽取研究

基于词项-句子-文档三层图模型的多文档自动摘要

基于ListMLE排序学习方法的机器译文自动评价研究

基于词项—句子—文档三层图模型的多文档自动摘要

基于迭代方法的多层Markov网络信息检索模型

Modeling Monolingual Character Alignment for Automatic Evaluation of Chinese Translation

机器译文自动评价中基于IHMM的近义词匹配方法研究

协同过滤中一种项目综合相似度计算方法

结合邻近度的语义位置语言检索模型

利用Markov网络抽取复述增强机器译文自动评价方法

面向新闻的情感关键句抽取与判定

中文微博句子倾向性分类中特征抽取研究

基于ListMLE排序学习方法的机器译文自动评价研究

基于词项—句子—文档三层图模型的多文档自动摘要

基于迭代方法的多层Markov网络信息检索模型

机器译文自动评价中基于IHMM的近义词匹配方法研究

协同过滤中一种项目综合相似度计算方法

基于文档团的Markov网络检索模型

跨语言信息检索中的双语主题相关模型

利用Markov网络抽取复述增强机器译文自动评价方法

结合全局和局部信息的特征选择算法

面向新闻的情感关键句抽取与判定

中文微博句子倾向性分类中特征抽取研究

杂乱背景和摄像机移动下的时空兴趣点检测

基于多层Markov网络的信息检索模型

单节点的无线传感器网络数据传输优化策略

基于查询相关的近邻语言模型

衔接性驱动的篇章一致性建模研究

Corpus-based research on English word recognition rates in primary school and word selection strategy

面向新闻的情感关键句抽取与判定

中文微博句子倾向性分类中特征抽取研究

一种基于时空相关性和异常检测的改进WSN节能策略

结合全局和局部信息的特征选择算法

面向新闻的情感关键句抽取与判定

中文微博句子倾向性分类中特征抽取研究

基于多层Markov网络的信息检索模型

基于正交实验设计的人工蜂群算法

基于主位-述位结构理论的英文作文连贯性建模研究

Corpus-based research on English word recognition rates in primary school and word selection strategy

基于多尺度张量类标子空间的人脸识别算法

基于word2vec的大中华区词对齐库的构建

期刊信息

《江西师范大学学报：自然科学版》
北大核心期刊（2011版）

主管单位:江西师范大学
主办单位:江西师范大学
主编：
地址：南昌市紫阳大道99号
邮编：330022
邮箱：lk8506184@126.com
电话：0791-88506814

国际标准刊号：ISSN：1000-5862
国内统一刊号：ISSN：36-1092/N
邮发代号:44-56

获奖情况:
2009年中国高等学校自然科学学报研究会颁发“全国...,2009年被评为：第四届华东地区优秀期刊奖”,2008年教育部科技司授予“第2届中国高校优秀科技...,2008年江西省新闻出版局授予“第3届江西省优秀期...,2004年教育部科技司授予“全国高校优秀科技期刊二...

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:5205