近红外光谱检测技术是医药检验的新发展方向,但这种技术需在化学成分已知的情况下才能构建出光谱数据和成分及其含量间的关系模型,而中药很多成分及效用未明。搜索引擎上应用的潜在语义分析技术可以在不需要了解词语含义的情况下,根据文档中与某语义词汇经常同现的其它词语出现的频次的相似性,通过奇异值分解降维获得核心信息,并据此将相近语义的词汇归类。中药成分众多,成分具有功效,很多成分总是伴随出现,共同发挥作用;而文档由词汇构成,词汇具有语义,文档中很多词汇总是协同出现。本课题基于这种类似性,将潜在语义分析技术应用于提高免疫力类中药的近红外光谱解析中,在成分未明的情况下,根据中医划分的功效,提取出与免疫有关的功能基团的核心光谱信息,并将药物根据基团功能的类似性进一步聚类,借此可以将中药根据不同作用机理细分,为中药分类提供科学依据,根据核心光谱信息可以反向研究中药的化学成分和药理,为中药研究提供一种新方法。
Traditional Chinese medicine;Nourishing Medicine;Near infrared spectroscopy;LSA;Cluster analysis
课题以提高免疫力的补益药材为研究对象,获取了补气、滋阴、补血和壮阳四类48种药材近5千个样本的近红外光谱。通过预处理和主成分分析,筛选了光谱样品。 为验证潜在语义分析对中药光谱分析的有效性,运用LSA的文档检索方法判定样本属于48种药材中的哪一种。在训练后,检索正确率为92.15%。在无学习的情况下对48种药材中随机选取的样本进行聚类分析时,同种药物分到同类的正确率只有33.89%。通过分析发现药材吸收峰左右漂移,而且四类药物峰位都重叠或者相近,每类均少有独特的吸收峰位置。我们对四类药材光谱峰位进行了统计并对其可能对应的分子基团进行了标注。采用选择每种药材的中心光谱数据作为代表,分类正确率提高到59.57%;通过训练样本,统计峰位对分类的重要性,采用8种不同加权方法,最后使用峰值数据得到的分类正确率达到76.59%。但是这是训练后的结果,而且在药材数据量较少时,采用SVD反而会降低分类的准确性。 结合主成分分析发现取补气、滋阴、壮阳中的两类药物光谱互相对比时差异明显,因此组合任意两类药材,并选择补益Z专一效果显著的药物光谱进行聚类分析。补气药物选取人参,党参,黄芪,白术(炒)、白术(生)和山药,滋阴选择北沙参,麦门冬(川)、麦门冬(浙)、石斛和百合,壮阳药为杜仲、韭菜子(生),菟丝子、淫羊藿、韭菜子(炒)、肉苁蓉和沙苑子。实验发现使用峰位信息结合LSA分类效果最好。补气和滋阴药分类正确率达到92.60%;补气和壮阳药分类正确率达到93.85% ;滋阴和壮阳药分类正确率达到96.67%。三类药物组合在一起,分类正确率达到85.56%。 通过研究去除某些峰位信息后分类正确率的变化,发现各类药材独有的峰位并不是表征药效的重要依据。考虑峰位漂移会对分类准确度产生影响,我们把峰位拓展到数个相邻波段, 发现正确率只稍有改善。鉴于使用峰位信息分类正确率最高,我们提取了三类药物的所有光谱峰位数据,标注了其可能对应的分子基团,实际的补益作用应是这些分子基团组合的结果,补药的分类可以将近红外光谱峰位作为客观依据之一。实验最后发现依据近红外光谱进行分类适用于滋阴、壮阳以及补气类药材,不适用于补血类药材,这可能与补血药效用成分为对近红外不敏感的铁元素化合物有关。