专题检测旨在从大规模文本数据中自动聚类同一主题的相关文本,当前研究主要聚焦于 层次聚类与密度聚类等聚类算法框架的分析与应用,在专题内容的分析与表示方面缺乏深入探索. 通过对专题颗粒度的分析,提出了一种新型主题与社群联合聚类模型.该模型通过主题-致性辨 识内容相关的文本,并借助文本中的命名实体社群,进一步细分内容相关的文本聚类,从而避免大 规模文本中“事同人不同”的类似专题错误合并.最后,借助该模型在专题检测的层次和粒度上进一步求精,在搜狐人工 标记的69项专题万余篇文档上进行专题检测测试.试验结果表明,该模型 聚类纯度高于82% ,具有实用价值.