全基因组DNA甲基化模式及其在复杂疾病分析中的应用研究

DNA甲基化论文 DNA甲基化差异位点论文 DNA甲基化差异区域论文基因网络论文

论文详情

随着生物科学和计算机技术的迅速发展,人类渴望深入认识复杂疾病的致病机理,表观遗传学的兴起为进一步理解疾病的致病机理提供可能。DNA(脱氧核糖核酸,Deoxyribonucleic acid)甲基化作为一种重要的表观遗传修饰,在基因转录、细胞分化、衰老和肿瘤的发生中发挥重要作用。因此,基于高通量DNA甲基化数据,识别病例和对照样本中的DNA甲基化差异模式,通过整合DNA甲基化和基因表达数据来分析疾病相关生物标记,以及研究DNA甲基化和基因表达的关系对于深入认识疾病的机理,疾病诊断和药物研发等有重要意义。本文对此展开研究,包括识别疾病和正常样本中的差异甲基化位点、差异甲基化区域,整合DNA甲基化和基因表达数据识别疾病相关基因,分析DNA甲基化和基因表达的关系。具体如下:1.提出了识别差异甲基化位点的相对熵方法,该方法较其他方法在识别差异甲基化位点上有较高的精确度。针对DNA甲基化数据非正态分布和样本间高异质性的特点,设计了QDML(Quantitative identification of Differentially Methylated Loci)来识别差异甲基化位点(Differentially methylated loci,DML)。该方法不依赖于数据的分布,同时可以量化甲基化位点的差异程度,并根据其值的正负直观地判别高甲基化位点和低甲基化位点。通过对该方法的理论推导,我们验证了其在识别DML的有效性。最后,将QDML分别应用于仿真数据和结肠腺癌真实数据,结果表明,该方法较传统的方法在识别DML时具有较高的精确度和较低的假阳性率。2.提出了识别差异甲基化区域的距离判别分析方法,该方法较其他方法有较高的特异性和敏感性。基于距离判别分析(Distance Discriminant Analysis,DDA)的方法在识别差异甲基化区域(Differentially Methylated Regions,DMR)时,不需要预先对甲基化位点进行聚类或设定区域的大小,仅需要对其区分病例和对照样本的能力进行评估,因此对所识别的区域大小没有限制。将其应用到仿真数据,并与Bumphunting和Ong’s方法比较,结果表明,该方法具有较高的特异性和敏感性,对异质数据较鲁棒。最后,将该方法应用到乳腺癌和结肠腺癌真实数据,同时整合基因表达数据,识别了可能的功能DMR。结果表明,大多数功能DMR是高甲基化区域,并且位于CpG富集区域。这一结果与人们通常认为的CpG富集区域在癌症中发生高甲基化一致。分析基因在不同疾病下的功能DMR,发现其对不同疾病有不同致病机理。3.提出了识别疾病相关基因和基因模块的加权网络方法,该方法整合了DNA甲基化和基因表达数据,识别了与疾病相关的基因和基因模块。使用蛋白质相互作用(Protein-Protein Interaction,PPI)作为先验的基因网络,通过整合DNA甲基化和基因表达数据,将基因表达和基因中所有甲基化位点作为基因的特征,利用主成分分析(Principal Component Analysis,PCA)和典型相关分析(Canonical Correlation Analysis,CCA)相结合的方法分别计算病例和对照样本对应的基因网络中的边权重,构建基因加权网络。比较两个加权网络的结构特性,识别在网络结构参数上具有显著差异的基因作为疾病相关基因,并且根据这些基因识别与疾病相关的基因模块。该方法在计算网络权重时,并不仅仅将基因中甲基化水平的均值看作基因的特征,而是将基因中的所有甲基化位点均看作基因的特征,因此保留了基因的所有甲基化信息。将该方法应用到真实的乳腺癌相关数据,成功识别了众多已知的与乳腺癌相关的基因。4.提出了分析DNA甲基化和基因表达关系的差异分析方法,为理解复杂疾病的表观调控机制提供了重要依据。分析七种癌症中DNA甲基化和基因表达的关系,解释DNA甲基化对基因表达影响。差异分析的方法不仅计算了基因表达以及不同基因区域的DNA甲基化在病例和对照的差异,而且分析了甲基化差异和基因表达差异的关系。该方法从差异的角度分析了DNA甲基化的改变对基因改变的影响。将该方法应用于7组不同的真实癌症数据集,我们发现不同基因区域的DNA甲基化对基因表达的调控模式不同,不仅存在负调控关系,同时也有小部分的正调控关系;发现区域gene body的甲基化差异与基因表达差异的显著相关关系在所有基因中出现频率最高,这说明了gene body区域内的甲基化对理解癌症的致病机理有重要作用。另外,我们发现癌相关基因中甲基化差异最大的区域往往位于TSS1500、gene body和3’UTR,这一结果表明,这三个区域可能是与癌症最相关的区域。

摘要	第5-7页
ABSTRACT	第7-9页
缩略语对照表	第13-18页
第一章绪论	第18-34页
1.1 研究背景与意义	第18-20页
1.1.1 研究背景	第18-20页
1.1.2 研究意义	第20页
1.2 DNA甲基化	第20-24页
1.2.1 DNA甲基化的相关概念	第20-21页
1.2.2 DNA甲基化和肿瘤	第21-22页
1.2.3 DNA甲基化测量方法和相关数据库简介	第22-24页
1.3 研究现状和挑战	第24-30页
1.3.1 国内外研究现状	第24-25页
1.3.2 DNA甲基化差异模式的识别	第25-28页
1.3.3 DNA甲基化与不同组学的整合研究	第28-29页
1.3.4 DNA甲基化数据分析的挑战	第29-30页
1.4 主要内容及章节安排	第30-34页
1.4.1 主要内容	第30-32页
1.4.2 章节安排	第32-34页
第二章基于改进相对熵的复杂疾病相关甲基化差异位点识别	第34-48页
2.1 引言	第34-35页
2.2 相对熵及其性质	第35-36页
2.3 改进相对熵	第36-39页
2.3.1 改进相对熵方法的引入	第36-38页
2.3.2 改进相对熵方法的理论分析	第38-39页
2.4 DNA甲基化差异位点的识别	第39-40页
2.5 实验结果与分析	第40-46页
2.5.1 仿真数据	第40-41页
2.5.2 仿真数据的实验结果与分析	第41-43页
2.5.3 真实数据的实验结果与分析	第43-46页
2.6 小结	第46-48页
第三章基于距离判别分析的复杂疾病甲基化差异区域识别	第48-62页
3.1 引言	第48-49页
3.2 距离判别分析相关理论	第49-50页
3.3 功能甲基化区域的识别	第50-54页
3.3.1 甲基化差异区域的识别	第51-53页
3.3.2 功能甲基化区域的识别	第53-54页
3.4 实验结果与分析	第54-59页
3.4.1 仿真数据的实验结果与分析	第54-56页
3.4.2 真实数据的实验结果与分析	第56-59页
3.5 小结	第59-62页
第四章基于基因加权网络的复杂疾病相关基因识别	第62-74页
4.1 引言	第62-63页
4.2 典型相关分析的相关理论	第63-64页
4.3 疾病相关基因的网络识别方法	第64-68页
4.3.1 基于典型相关分析的基因网络权重的计算	第64-66页
4.3.2 网络拓扑特征参数的计算	第66-67页
4.3.3 差异显著基因的识别	第67-68页
4.3.4 疾病相关模块的识别	第68页
4.4 实验结果分析	第68-73页
4.4.1 数据来源与预处理	第68页
4.4.2 网络拓扑特性的比较分析	第68-70页
4.4.3 疾病相关模块分析	第70-73页
4.5 小结	第73-74页
第五章基于差异分析的DNA甲基化和基因表达关系研究	第74-86页
5.1 引言	第74-76页
5.2 DNA甲基化和基因表达的差异分析	第76-77页
5.2.1 DNA甲基化差异的计算	第76页
5.2.2 基因表达差异的计算	第76-77页
5.3 DNA甲基化和基因表达关系的计算	第77页
5.4 实验结果与分析	第77-83页
5.4.1 数据来源与预处理	第77-78页
5.4.2 DNA甲基化和基因表达的差异分析结果	第78-81页
5.4.3 DNA甲基化和基因表达关系的分析	第81-83页
5.5 小结	第83-86页
第六章总结与展望	第86-90页
6.1 总结	第86-87页
6.2 后续工作与展望	第87-90页
参考文献	第90-102页
致谢	第102-104页
作者简介	第104-106页

论文购买

论文编号ABS3941282，这篇论文共106页

会员购买按0.30元/页下载，共需支付31.8。

会员购买

不是会员，注册会员！
会员更优惠充值送钱！

直接购买按0.5元/页下载，共需要支付53。

直接购买

只需这篇论文，无需注册！
直接网上支付，方便快捷！