位置:成果数据库 > 期刊 > 期刊详情页
基于累积Logistic回归分析的文本段落聚类策略研究
  • ISSN号:1002-0470
  • 期刊名称:《高技术通讯》
  • 时间:0
  • 分类:TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机学院自然语言处理研究室,哈尔滨150001
  • 相关基金:863计划(2002AA117010-09)和国家自然科学基金(60435020)资助项目.
中文摘要:

提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘段落内的特征,并采用累积Logistic回归分析方法来拟合这些特征与段落相似度之间的内在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的complete—link方法对段落集合进行聚类处理:通过网络真实文本进行了段落相似度度量实验和段落聚类实验,实验结果显示了方法的可行性。

英文摘要:

Aiming at the difference between paragraphs clustering and traditional full texts clustering in useable information and clustering size, the paper proposes a new clustering strategy. It uses the idea of multiple features fusion to dig useful features as far as possible and uses the cumulative Logistic regression analysis to fit the internal relation between these features and paragraphs similarity. At last, it uses the complete-link method of hierarchical clustering to process the set of paragraphs. The results of the paragraphs similarity computation experiment and the paragraphs clustering experiment show the feasibility of the method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《高技术通讯》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国科学科技部
  • 主办单位:中国科学技术信息研究所
  • 主编:赵志耘
  • 地址:北京市三里河路54号
  • 邮编:100045
  • 邮箱:hitech@istic.ac.cn
  • 电话:010-68514060 68598272
  • 国际标准刊号:ISSN:1002-0470
  • 国内统一刊号:ISSN:11-2770/N
  • 邮发代号:82-516
  • 获奖情况:
  • 《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:12178