中文字符组合的发现在文本数据挖掘和信息聚类中有重要作用.目前的方法已不能适应新的需求.为了解决这一问题,做了以下工作:1)分析了现有方法的不足;2)提出了新的基于同现的概率公式和中文字符组合发现算法;3) 采用数据挖掘技术,为字符组合发现引入了自学习和迭代的机制.实验表明,和传统方法相比新方法准确率提高6%~8%,运行时间减少50%.