由于非结构化的医学图像信息量大、关联信息多、对象复杂,而且不同疾病在图像学上的特征不同,以及可以用于分析和处理疾病所需的原始数据也不同,因此迫切需要研究医学图像挖掘的新方法。本项目针对目前医学图像分类技术中存在的主要缺陷分类精确度低、对数据的训练时间长、早期人工诊断准确率低等问题,采取理论实验研究和实践应用研究相结合的方法,从实际乳腺X光图像的特征入手,进行医学图像挖掘研究。研究的主要内容包括1.研究适合乳腺X光图像的高效分类算法;2.基于粗糙集等理论,研究适合乳腺X光图像特征信息约简的算法;3.研究如何将上述算法应用于临床实践,提高乳腺癌早期诊断的准确率。该项目研究的目的是为推动医学图像挖掘技术的发展,在提高算法效率的基础上,提高对医学图像的挖掘效果,为设计新的、高效的计算机辅助诊断系统提供理论基础和技术。
Medical Image Data Mining;Mammography Image;Classification;Rough Sets Theory;Feature Selection
由于非结构化的医学图像信息量大、关联信息多、对象复杂,不同疾病在图像学上的特征不同,因此迫切需要研究医学图像挖掘的新方法。本项目针对目前医学图像分类技术中存在的主要缺陷分类精确度低、训练时间长等问题,采取理论实验研究和实践应用研究相结合的方法,进行医学图像挖掘研究。研究的主要内容包括1.研究适合乳腺X光图像的高效分类算法。本项目在分类算法上的研究涉及邻域粗糙集、邻域关系模糊粗糙集、基于bagging概率神经网络、支持向量机、深度学习等方法。在UCI标准数据集上的实验结果表明,每种方法各有优缺点,其中基于Bagging的概率神经网络集成分类算法在breast数据集上的分类精确度达到95.97%;基于节点选择优化的DAG-SVM多类别分类方法,在wine和iris数据集上的分类精度分别达到98.3%和98.2%;基于快速持续对比散度的卷积受限玻尔兹曼机,在手写数字识别MNIST数据集上的分类精确度为99.85%,但深度学习方法的训练时间较长。2.基于粗糙集等理论,研究适合乳腺X光图像特征信息约简的算法。这方面的研究工作主要提出的方法有一致覆盖决策系统的属性约简;变精度复合粗糙集等。对于一个给定的包含大量数据的一致覆盖决策系统,如果可以为这个覆盖决策系统找到一个多对一的同态函数,可将对原系统的属性约简转化成对压缩产生的像系统的属性约简;针对复合信息系统中的噪声数据问题,提出变精度复合粗糙集模型。3.研究将分类算法应用于乳腺X光医学图像。本项目研究的各种方法的实验结果主要是在乳腺X光图像标准数据集MIAS上获得的。其中小波和神经网络的分类方法平均分类精确度为86.71 %,正预测值和负预测值接近100%;基于超球体多分类SVDD分类器的分类方法,针对医学图像多分类问题中训练速度比较慢的问题,分类精度达到76.6929%,但训练速度很快;判别式受限玻尔兹曼机的分类准确率为83.7261%,该方法的最大优点是不需要提前提取特征;决策树对支持向量机的分类方法主要针对多类别问题,分类精度达到82.37%;邻域关系模糊粗糙集的分类方法,运用邻域关系的模糊粗糙集做特征约简,分类准确率达到82.16%。该项目研究的意义是为推动医学图像挖掘技术的发展,在提高算法效率的基础上,提高对医学图像的挖掘效果,为设计新的、高效的医学图像计算机辅助诊断系统提供理论基础和技术。