位置:成果数据库 > 期刊 > 期刊详情页
基于多元判别分析的文本分割模型
  • 期刊名称:软件学报, 18(3), pp.555-564. 2007
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北大学计算机软件研究所,辽宁沈阳110004
  • 相关基金:Supported by the National Natural Science Foundation of China under Grant No.60473140(国家自然科学基金);the National High-Tech Research and Development Plan of China under Grant No.2006AA01Z154(国家高技术研究发展计划(863));the Program for New Century Excellent Talents in University under Grant No.NCET-05-0287(新世纪优秀人才支持计划);the National 985 Project of China under Grant No.985-2-DB-C03(国家985工程).致谢 在本文的研究工作中,非常感谢Keh-Yih Su,Matthew Ma和Benjamin K Tsou教授提出意见,也非常感谢常兴治同学、陈文亮博士所做的一些实验工作.
  • 相关项目:基于内容分析的话题检测和追踪关键技术研究
中文摘要:

提出了一种独立于具体领域的文本线性分割统计模型,其中采用多元判别分析方法定义了4种全局评价函数,实现对文本分割模式的全局评价,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式.该模型采用遗传算法来解决新模型的高计算复杂度问题.比较性实验结果显示,新模型比TextTiling和Dotplotting算法取得了更高的Pμ肝价性能.

英文摘要:

This paper proposes a new domain-independent statistical model. In this model, four multiple discriminant analysis (MDA) criterion functions are defined and used to achieve global optimization in finding the best segmentation by means of the smallest within-segment distance, the largest between-segment distance and segment length. To alleviate the high computational complexity problem introduced by the new model, genetic algorithms (GAs) are used. Comparative experimental results show that the methods based on MDA criterion functions have achieved higher Pμ than that of TextTiling and Dotplotting algorithms.

同期刊论文项目
同项目期刊论文