人类DNA序列中基因的变异可能导致疾病,如何查找影响疾病的重要基因位以及根据基因的变异诊断病例是亟待解决的问题。许多机器学习方法已用作生物信息数据挖掘的有效工具,但传统方法多是假设特征相互独立,难以解决现实存在的基因位之间交互问题。而模糊积分是基于模糊测度的一种非线性融合函数,可以有效描述特征交互程度。因此模糊积分被用于DNA数据挖掘具有较强优势。本项目破除传统模糊测度单调性的限制,基于符号型模糊测度提出两种扩展模糊积分-多重模糊积分和多项式模糊积分,并将其应用到乙肝病人DNA数据挖掘中。拟采用遗传算法和L1-Norm相结合的方法确定模糊测度值,判断相应的基因及基因组合对诊断结果的影响程度,发现DNA序列的重要基因位,根据基因以及基因组合的变异来诊断个案病例,预结果表明诊断正确率比传统方法大有提升。此研究对模糊积分的理论和应用研究有着积极的推动作用,同时为生物信息领域研究提供新的技术支持。
英文主题词Fuzzy Integral;Bioinfomatics;Extended Research;HBV Diagnosis and Prediction;