高通量RNA-Seq数据的偏差建模和差异表达基因识别-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

高通量RNA-Seq数据的偏差建模和差异表达基因识别

项目名称：高通量RNA-Seq数据的偏差建模和差异表达基因识别
项目类别：青年科学基金项目
批准号：61203282
申请代码：F0304
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：王颖
依托单位：厦门大学
批准年度：2012

中文摘要：

本项目对高通量RNA-Seq数据的偏差建模和差异表达基因识别展开研究。本项目将碱基视为信息处理的基本单位，而外显子、基因等都可视为碱基单元的某种积分。分析偏差时，将可能的偏差因素作为解释变量，观测到的碱基短序列匹配数作为响应变量，通过采样获取各因素对短序列分布的影响趋势，从而获取正确的模型结构，构建针对不同测序协议、平台适用的模型结构；提出两步骤优化方法，采用权系数与最小二乘的混合估计法、EM算法，对建立的线性或非线性模型寻优偏差权重，修正碱基位上的短序列匹配数。基于修正结果，提出基于碱基单元的差异表达基因识别方法。通过利用碱基的位置对应信息和短序列匹配数信息，结合线性拟合、样条回归、L2误差范数等技术识别不同条件下碱基序列上的匹配数差异的显著性，进而识别出差异表达基因。以上思路在统计方法中引入系统辨识的思想，以碱基为单位，充分利用RNA-Seq数据带来的高分辨率信息进行后续的数据分析。

中文主题词：差异表达；宏基因组；高通量测序；马尔科夫模型；k-tuple

结论摘要：

英文主题词Differential expressed；Metagenome；Next generation sequencing；Markov Modeling；k-tuple

成果综合统计