本项目对高通量RNA-Seq数据的偏差建模和差异表达基因识别展开研究。本项目将碱基视为信息处理的基本单位,而外显子、基因等都可视为碱基单元的某种积分。分析偏差时,将可能的偏差因素作为解释变量,观测到的碱基短序列匹配数作为响应变量,通过采样获取各因素对短序列分布的影响趋势,从而获取正确的模型结构,构建针对不同测序协议、平台适用的模型结构;提出两步骤优化方法,采用权系数与最小二乘的混合估计法、EM算法,对建立的线性或非线性模型寻优偏差权重,修正碱基位上的短序列匹配数。基于修正结果,提出基于碱基单元的差异表达基因识别方法。通过利用碱基的位置对应信息和短序列匹配数信息,结合线性拟合、样条回归、L2误差范数等技术识别不同条件下碱基序列上的匹配数差异的显著性,进而识别出差异表达基因。以上思路在统计方法中引入系统辨识的思想,以碱基为单位,充分利用RNA-Seq数据带来的高分辨率信息进行后续的数据分析。
英文主题词Differential expressed;Metagenome;Next generation sequencing;Markov Modeling;k-tuple