随着生物科学和计算机技术的迅速发展,人类渴望深入认识复杂疾病的致病机理,表观遗传学的兴起为进一步理解疾病的致病机理提供可能。DNA(脱氧核糖核酸,Deoxyribonucleic acid)甲基化作为一种重要的表观遗传修饰,在基因转录、细胞分化、衰老和肿瘤的发生中发挥重要作用。因此,基于高通量DNA甲基化数据,识别病例和对照样本中的DNA甲基化差异模式,通过整合DNA甲基化和基因表达数据来分析疾病相关生物标记,以及研究DNA甲基化和基因表达的关系对于深入认识疾病的机理,疾病诊断和药物研发等有重要意义。本文对此展开研究,包括识别疾病和正常样本中的差异甲基化位点、差异甲基化区域,整合DNA甲基化和基因表达数据识别疾病相关基因,分析DNA甲基化和基因表达的关系。具体如下:1.提出了识别差异甲基化位点的相对熵方法,该方法较其他方法在识别差异甲基化位点上有较高的精确度。针对DNA甲基化数据非正态分布和样本间高异质性的特点,设计了QDML(Quantitative identification of Differentially Methylated Loci)来识别差异甲基化位点(Differentially methylated loci,DML)。该方法不依赖于数据的分布,同时可以量化甲基化位点的差异程度,并根据其值的正负直观地判别高甲基化位点和低甲基化位点。通过对该方法的理论推导,我们验证了其在识别DML的有效性。最后,将QDML分别应用于仿真数据和结肠腺癌真实数据,结果表明,该方法较传统的方法在识别DML时具有较高的精确度和较低的假阳性率。2.提出了识别差异甲基化区域的距离判别分析方法,该方法较其他方法有较高的特异性和敏感性。基于距离判别分析(Distance Discriminant Analysis,DDA)的方法在识别差异甲基化区域(Differentially Methylated Regions,DMR)时,不需要预先对甲基化位点进行聚类或设定区域的大小,仅需要对其区分病例和对照样本的能力进行评估,因此对所识别的区域大小没有限制。将其应用到仿真数据,并与Bumphunting和Ong’s方法比较,结果表明,该方法具有较高的特异性和敏感性,对异质数据较鲁棒。最后,将该方法应用到乳腺癌和结肠腺癌真实数据,同时整合基因表达数据,识别了可能的功能DMR。结果表明,大多数功能DMR是高甲基化区域,并且位于CpG富集区域。这一结果与人们通常认为的CpG富集区域在癌症中发生高甲基化一致。分析基因在不同疾病下的功能DMR,发现其对不同疾病有不同致病机理。3.提出了识别疾病相关基因和基因模块的加权网络方法,该方法整合了DNA甲基化和基因表达数据,识别了与疾病相关的基因和基因模块。使用蛋白质相互作用(Protein-Protein Interaction,PPI)作为先验的基因网络,通过整合DNA甲基化和基因表达数据,将基因表达和基因中所有甲基化位点作为基因的特征,利用主成分分析(Principal Component Analysis,PCA)和典型相关分析(Canonical Correlation Analysis,CCA)相结合的方法分别计算病例和对照样本对应的基因网络中的边权重,构建基因加权网络。比较两个加权网络的结构特性,识别在网络结构参数上具有显著差异的基因作为疾病相关基因,并且根据这些基因识别与疾病相关的基因模块。该方法在计算网络权重时,并不仅仅将基因中甲基化水平的均值看作基因的特征,而是将基因中的所有甲基化位点均看作基因的特征,因此保留了基因的所有甲基化信息。将该方法应用到真实的乳腺癌相关数据,成功识别了众多已知的与乳腺癌相关的基因。4.提出了分析DNA甲基化和基因表达关系的差异分析方法,为理解复杂疾病的表观调控机制提供了重要依据。分析七种癌症中DNA甲基化和基因表达的关系,解释DNA甲基化对基因表达影响。差异分析的方法不仅计算了基因表达以及不同基因区域的DNA甲基化在病例和对照的差异,而且分析了甲基化差异和基因表达差异的关系。该方法从差异的角度分析了DNA甲基化的改变对基因改变的影响。将该方法应用于7组不同的真实癌症数据集,我们发现不同基因区域的DNA甲基化对基因表达的调控模式不同,不仅存在负调控关系,同时也有小部分的正调控关系;发现区域gene body的甲基化差异与基因表达差异的显著相关关系在所有基因中出现频率最高,这说明了gene body区域内的甲基化对理解癌症的致病机理有重要作用。另外,我们发现癌相关基因中甲基化差异最大的区域往往位于TSS1500、gene body和3’UTR,这一结果表明,这三个区域可能是与癌症最相关的区域。