位置:成果数据库 > 期刊 > 期刊详情页
基于互依赖和等效半径的文本分类方法
  • ISSN号:1003-7985
  • 期刊名称:《东南大学学报:英文版》
  • 时间:0
  • 分类:TP139[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]同济大学经济与管理学院,上海200092, [2]复旦大学数学科学学院,上海200433, [3]复旦大学信息科学与工程学院,上海200433
  • 相关基金:The National Natural Science Foundation of China (No. 70501024, 70501022), the Humanity & Social Science Research Program of Ministry of Education of China (No. 05JC870013).
中文摘要:

为了解决传统分类方法计算复杂度高及可扩展性差的问题,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法——基于互依赖和等效半径、易更新的分类算法IER.IER算法根据互依赖作为特征选择的量度,通过较长特征值的选择降低维度,通过重心和等效半径来建立分类模型.算法分析显示IER计算复杂度较低,扩展性能较好,适用于大规模场合.将IER算法应用于中文文本分类,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,IER还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.

英文摘要:

To improve the traditional classifying methods, such as vector space model (VSM)-based methods with highly complicated computation and poor scalability, a new classifying method ( called IER) is presented based on two new concepts: interdependence and equivalent radius. In IER, the attribute is selected according to the value of interdependence, and the classifying rule is based on equivalent radius and center of gravity. The algorithm analysis shows that IER is good at classifying a large number of samples with higher scalability and lower computation complexity. After several experiments in classifying Chinese texts, the conclusion is drawn that IER outperforms k-nearest neighbor (kNN) and classifcation based on the center of classes (CCC) methods, so IER can be used online to automatically classify a large number of samples while keeping higher precision and recall.

同期刊论文项目
期刊论文 19 会议论文 6 著作 1
同项目期刊论文
期刊信息
  • 《东南大学学报:英文版》
  • 主管单位:教育部
  • 主办单位:东南大学
  • 主编:毛善锋
  • 地址:南京市四牌楼2号
  • 邮编:210096
  • 邮箱:xuebao@seu.edu.cn
  • 电话:025-83794323 83794343传
  • 国际标准刊号:ISSN:1003-7985
  • 国内统一刊号:ISSN:32-1325/N
  • 邮发代号:
  • 获奖情况:
  • 2010年和2012年荣获第三届和第四届中国高校优秀科...
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:493