位置:成果数据库 > 期刊 > 期刊详情页
基于群体智能的半结构化藏文文本聚类算法
  • ISSN号:1003-6059
  • 期刊名称:模式识别与人工智能
  • 时间:0
  • 页码:-
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西南交通大学信息科学与技术学院,成都610031, [2]西藏大学工学院,拉萨850000, [3]西南交通大学生命科学与工程学院,成都610031
  • 相关基金:国家自然科学基金项目(No.61165013,61100045)、教育部人文社会科学研究青年基金项目(No.14YJCZH046)、高等学校博士学科点专项科研基金项目(No.20110184120008)、中国博士后科学基金特别项目(No.201104697)、中央高校基本科研业务费专项资金项目(No.2682013BR023)、四川省科技创新苗子工程项目(No.2012ZZ059)资助
  • 相关项目:基于群体智能涌现的藏文网络舆情分析及突发事件预警机制研究
中文摘要:

将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法(SCAST).充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响,SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机放置于一个文本向量空间中.然后智能蚂蚁随机选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否“拾起”,“移动”,“放下”藏文文本.最后通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明,相较于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约8.0%.

英文摘要:

To apply swarm intelligence techniques to structured Tibetan text clustering algorithm based into a full consideration of accuracy and efficiency cluster semi-structured Tibetan Web texts, a on swarm Intelligence (SCAST) is proposed. of Tibetan text clustering, a vector space model semi- Taking is used to express Tibetan texts, and the Tibetan texts and intelligent ants are randomly put in a two dimensional text vector space. Then, intelligent ants randomly select a Tibetan text, calculate the similarity between this text and others in the local area, and compute the probability of pick-up operation or drop-down operation to determine whether to pick up, move, or drop down the text. Finally, Tibetan texts are accurately clustered according to their similarities by iterative training of the proposed algorithm. The experimental results on real Tibetan Web text datasets show that the proposed algorithm is more accurate than the traditional k-means clustering algorithm with average increase of 8.0%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169