一、项目简介
1.1多组学关联分析概述
对多组学进行关联分析主要包括跨组学相关性分析以及基于机器学习算法的组合型生物标志物发现和多组学数据的深度挖掘。其中,对于跨组学相关性分析目前主要由4部分组成,分别是:
(1)基于参考文献和数据库的关联分析;
(2)基于代谢通路分析的关联分析;
(3)基于交互作用的关联分析;
(4)基于统计方法的关联分析。
在基于统计方法的关联分析中,不仅包含了基于相关性的整合分析,如皮尔森相关性分析(PearsonCorrelation)、斯皮尔曼秩相关性分析(SpearmanRankCorrelation)等,而且还有基于数据拼接的整合分析、基于多变量的整合分析(如典型的O2PLS分析)和基于代谢通路(pathway)的整合分析。
图1.多组学关联分析示意图
1.2肠道菌群16srRNA测序
核糖体是细菌唯一的细胞器,是蛋白质合成的场所,它的沉降系数是70s,在适当条件
下解离成50s和30s两个大小亚基,两个亚基都含有RNA和蛋白质。rRNA按沉降系数分3种,分
别为5s,16s和23s。
5s和23srRNA基因在50s亚基中,16srRNA在30s亚基中,它们是核糖体不可缺少的成分。16srRNA基因是细菌染色体上编码rRNA相对应的DNA序列,存在于所有细菌的染色体基因组中。16srRNA基因约由1540个核苷酸组成,并含有多个拷贝(即转录单位),如大肠杆菌K12染色体基因组中含7个16srRNA拷贝,而在一般情况下,细菌的其他结构基因都是单拷贝的。细菌16srRNA基因序列由保守区和可变区组成,两者互相交错排列。编码rRNA基因与细菌整个基因组的变化相比,有高度的保守性。
由于16srRNA基因核苷酸序列总长度适宜,结构完整,更便于对细菌进行各种研究。
设计一对引物,以16srRNA为靶分子在适当条件下进行PCR扩增,便得到扩增后的16srRNA
片段,对片段进行测序,序列与基因库中的片段比对,便得知未知菌与基因库中其他菌的相
似性,从而完成对菌的鉴定。
1.3代谢组(metabolome)
代谢组(metabolome)是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢
过程中充当底物和产物的小分子物质,如脂质、糖、氨基酸等,可以揭示取样时该细胞的生
理状态。人体由上万亿个不同类型的细胞组成,它们具有潜在不同的组织细胞代谢组。基因
和蛋白质主要是为细胞发生的活动做准备,在活动中大部分实际上是发生在代谢物上,如信
号转导、能量转移、细胞间通信都受代谢物调控。从整体上看,基因和蛋白表达紧密相连,
但代谢物的实时变化更密切地反映出细胞所处的环境,该环境依赖于细胞所摄取的营养状况、
所接触的药物和污染物以及其它影响细胞健康的外在因子情况。总之,转录组学告诉人们细胞中可能发生的变化行为,蛋白质组学告诉人们细胞中正在发生的变化行为,而代谢组学是研究生物样品,尤其是尿液、唾液和血液中的代谢物谱(主要是指含有哪些代谢物、丰度和分布状况等)变化规律,告诉人们细胞中行为发生以后的状况。
1.4样本信息
xx粪便样品,分疾病组和对照组,分别测得16srRNA宏基因组和代谢组的数据,以及客户提供的各种临床指标的数据,现针对16srRNA、代谢组以及临床指标数据进行关联分析。
物种名称:小鼠
数据来源:16srRNA宏基因组,代谢组,临床指标
1.5分析内容
数据分析包括:相关性分析,Scatterplot分析,代谢物来源及其相关性分析,临床
指标PERMANOVA分析,宏基因(宏转录/蛋白)及代谢物互作网络构建。
二、数据分析方案
2.1相关性分析
通过使用pearson或者spearman相关性分析方法,将经过16SrRNA宏基因组学分析得到的差异显
着性菌群数据与代谢组学分析得到的差异显着性代谢物数据进行关联分析,其中颜色越红表示菌群与代谢物间的正相关性越强,颜色越蓝表示菌群与代谢物间的负相关性越强,相关性P值小于0.05的数据在图形中用\"*\"标记,示例结果如下(具体颜色等可根据实际情况进行调节):
图2.相关性分析热力图
2.2Scatterplot分析
为了进一步验证相关性系数分析得到的相关性的真实性,需要对菌群和代谢物进行散点
图分析,从而帮助去除假阳性的强相关作用,示例结果如下:
图3.菌群与代谢物相关性分析scatterplot
2.3代谢物来源及其相关性分析
通过对代谢物进行来源性分析,主要分成三类:肠道菌群来源性代谢物,人与肠道菌群
共同来源性代谢物、人体自身代谢物。对代谢物进行斯皮尔曼等级相关性分析,选取具有显
着性相关作用的代谢物进行相关性展示。其中,红色原点是在疾病组中富集的差异显着性代
谢物,绿色方块是在疾病组中降低的差异显着性代谢物,标记了红色外框的代谢物是研究中
发现的潜在生物标记物。此外,根据斯皮尔曼等级相关性系数大小进行不同代谢物-代谢物
间的相关性连接,在该图中,红色线条表示rho≥0.9,粉色线条表示0.9>rho≥0.8,黄色线条表示0.8>rho≥0.7,蓝色线条表示0.7>rho≥0.6,海蓝色线条表示0.6>rho≥0.5,灰色线条表示rho≤-0.5。
(备注:对于菌群-菌群,菌群-代谢物都可以使用多种类似的相关性网络图展示相关性结果)
4.代谢物来源及其相关性分析图
2.4临床指标PERMANOVA分析
PERMANOVA分析表明临床指标的变化(红色标记,p-value<0.05)显着性地改变人体的
肠道菌群和代谢物轮廓谱。其中groups的p-value<0.05表明分组的合理性。
表1.临床指标PERMANOVA分析结果
2.5宏基因(宏转录/蛋白)及代谢物互作网络构建
我们将差异基因与差异蛋白同时通过metscape,metmapR等构建调控网络,该网络基于数据库、实验、文献等已有知识构建,可能能够帮助挖掘出未知的功能代谢通路,阐述新的调控机理。
图5.差异显着的16s宏基因/宏转录本/蛋白与差异显着的代谢物调控网络构建
因篇幅问题不能全部显示,请点此查看更多更全内容