NATURE丨预测多组学特征的遗传评分图谱

今天介绍的文章是2023年3月29日发表在《NATURE》上的An atlas of genetic scores to predict multi-omic traits。通讯作者Mike Inuoye在澳洲贝克研究所和英国剑桥大学共同建立了实验室,专注于系统基因组学的核心领域,包括多基因风险评分、多组学数据的综合分析和分析工具的开发。

组学研究(Omics)是一种综合性的研究方法,通过对生物系统中不同层面的大规模数据进行收集、整合和分析,以揭示生物体系的全貌和机制。其中最上游的信息为基因组学,下游依次为转录组学、蛋白质组学和代谢组学。GWAS(基因组关联研究)是基因组学的一种应用,基本思想是比较疾病患者和健康人群之间基因型的差异,从而找到患者群体中与疾病有关的基因位点。通过综合考虑基因位点的影响,可以构建出一个遗传分数来预测个体患病风险的方法——这就是polygenetic score。遗传分数是一组基因位点的组合,每个位点对于个体患病风险的贡献不同,遗传分数通过对这些贡献进行加权计算后得到。可以使用这些遗传分数来预测个体患病的风险。

这篇文章利用了相同的思想,对基因组对下游组学数据的关联性进行研究。——即构建了一种定量模型以实现通过基因组的数据预测出特定的组学数据——如血液的中特定蛋白的量,RNA的量,代谢物的量。

数据来源:

文中使用的分析数据来源与INTERVAL临床研究,这是一项随机试验,涉及约5万名健康献血者。这些献血者的血液使用了Biobank Axiom基因分型阵列进行基因分型,包括全基因组覆盖的63万芯片位点,稀有变异及编码变异125000个位点,目标区域生物标记47000个位点,与特异性表型相关联的生物标记45000个位点。还分别通过了不同平台对血浆蛋白组(SomaScan,n=3175;Olink,n=4822)、血清代谢组(Metabolon HD4,n=8153)、血浆代谢组(Metabolon HD4,n=8153)及全血转录组(Illumina,n=4136)进行了检测。

算法构建:

研究人员使用了贝斯岭回归(BR)进行这个类GWAS模型的构建。贝叶斯岭回归是一种基于贝叶斯统计学原理的线性回归方法,可以用于处理高维数据的回归问题。贝叶斯岭回归与传统的岭回归方法相似,都是通过引入正则化项来解决高维数据的回归问题,但是贝叶斯岭回归在处理参数估计时,考虑了参数的先验分布,使得模型更具有稳定性和泛化性能。

从5个平台开发了17227个生物分子性状的遗传评分,在bonferroni调整显著性后,有10,522个下游组学数据可以进行预测:SomaScan(1,052个)、Olink(206个)、Metabolon(379个)、Nightingale(137个)和RNA-seq(8,748个)。其中,R2 > 0.1和R2 > 0.5的基因评分数分别为5816和409。也就是说有5816个组学数据可以用基因组数据解释10%,有409个组学数据可以用基因组解释50%。而在每一个的组学数据的预测的多基因分数的模型中,包含的遗传位点的数量(也就是变量数量)从1-1862个不等。

外部验证

同人种验证:在FENLAND研究中对SomaScan平台蛋白数据进行了外部验证;在瑞典北部人口健康研究和奥克尼复杂疾病研究中对Olink平台蛋白数据进行了外部验证;在UKB、Viking Health Study Shetland和ORCADES队列中对Nightingale代谢组数据进行外部验证。总的来说,我们发现在欧洲血统的队列中,内部验证和外部验证的大多数评分模型的表现是一致的。

  1.  

异人种验证:为了评估非欧洲血统队列中遗传评分的表现,使用了新加坡多种族队列(MEC)和杰克逊心脏研究(JHS)的数据。MEC数据包括的中国、印度和马来人群的个体JHS包括的非裔美国人。总的来说,发现基于INTERVAL队列中开发的评分模型可以预测亚洲或非洲裔美国人血统个体的组学水平,但这些评分的表现相对于欧洲血统群体显著降低。

应用

PheWAS,全表型组关联研究(又称反向GWAS),是考察全表型组范围所有表型与某一SNP之间的关联的方法。接下来,研究人员利用这些模型生成了对UKB队列的生成了预测Metabolon、Nightingale、Olink、SomaScan和全血RNA-seq数据。利用这些预测的UKB多组学数据,使用PheCodes进行了一项全表型组关联研究。在FDR为5%的情况下,在多组学性状的遗传评分与18个PheCodes类别之间确定了18404个关联。其中发现了激素结合球蛋白(SHBG)蛋白与2型糖尿病相关,这与之前的观察和遗传分析一致。

在这里,作者重点介绍了一系列发现,来证实组学数据的基因评分可以被用来为假定的遗传机制和病理生理学提供信息。

组氨酸(代谢产物)的遗传评分由三种变体组成,其中两种变体(rs61937878,rs117991621)位于HAL的编码区,HAL编码组氨酸分解代谢中第一反应的酶促催化剂。研究发现发现rs61937878也是γ-谷氨酰组氨酸的基因评分的唯一变量。γ-谷氨酰组氨酸可以由组氨酸和谷氨酸的缩合物形成;因此假设HAL的这种遗传变异通过调节组氨酸的可用性来改变γ-谷氨酰组氨酸的水平。

研究人员还在UKB中的PheWAS中鉴定出JAK–STAT信号通路中的一系列基因转录物和蛋白质与心血管疾病(CAD)风险相关。这些发现支持JAK–STAT抑制剂的研究。而这些抑制剂已被临床批准用于治疗慢性炎症性疾病,作为CAD的候选药物。

总结

研究人员已经在蛋白质组学、代谢组学和转录组学等5个平台上开发了17000多个多组学性状的遗传评分。在使用欧洲、亚洲和非裔美国人队列的外部验证中评估了遗传评分的相对预测值和稳健性;并且通过阐明生物途径的相对遗传控制以及通过对UKB中预测的多组数据进行全表型组关联研究来识别疾病关联,证明了多组遗传评分的实用性。还开发了一个开放资源OmicsPred(https://www.omicspred.org/)公开传播并不断提高多组遗传评分的价值。

2023年4月21日 14:42