位置:成果数据库 > 期刊 > 期刊详情页
一种基于受l限约束范围标签传播的半监督学习算法
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:西北师范大学计算机科学与工程学院,甘肃兰州730070
  • 相关基金:国家自然科学基金(61363058);甘肃省青年科技基金(145RJYA259);甘肃省自然科学研究基金(145RJZA232,150RJZA127);中国科学院计算技术研究所智能信息处理重点实验室开放基金(IIP2014-4);2016本科生创新能力提升计划-学术科技创新团队资助项目;2016年甘肃省大学生创新创业训练计划(201610736040,201610736041)
中文摘要:

针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。

英文摘要:

Aiming at the characteristics of extreme sparse and context dependent features of short texts, we propose a novel core term based mean partition similarity for short text clustering algorithm (CTMPS) with top-down strategy. The CTMPS firstly determines probabilistic correlation among terms in the corpus. Secondly, based on the probabilistic correlation,terms in a short text are weighted. The terms with larger weight are considered as the most representative terms of the short text and they then form the core terms set. On the basis of information theory, mean partition similarity (MPS) is calculated via core terms, and the MPS with the maximum core terms in the short text forms one class. Finally, experimental results show that the CTMPS outperforms the baseline algorithm in term of performance and clustering efficiency.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049