韩 达 课 题 组

韩 达 课 题 组

NAT CHEM丨自动化正交mRNA设计实现四种非天然氨基酸纳入68个遗传密码子中

作者:陈小星

大家好,今天与大家分享一篇发表在《Nature Chemistry》上的文献,题目是:A 68-codon genetic code to incorporate four distinct non-canonical amino acids enabled by automated orthogonal mRNA design。通讯作者为剑桥大学的Jason William Chin教授。Chin教授课题组的主要研究方向包括:模型生物上扩展遗传密码、光化学遗传学、蛋白的标记与成像等方面。

天然蛋白结构中掺入非典型氨基酸(ncAA)将为蛋白功能的工程化和定向进化提供新的可能,为新型半合成生命体提供新的策略和手段。将多种不同的ncAA编码到蛋白质中需要正交的密码子、氨酰tRNA合成酶和tRNA对,因此必须使用工程化、正交的氨酰tRNA合成酶/tRNA(aaRS/tRNA)对将正交密码子分配给ncAA。在之前的研究中,作者们报道了通过正交的核糖体(O-riboQ1)与正交信使核糖核酸(mRNA)将三种ncAA成功掺入大肠杆菌表达的目的蛋白中。该蛋白表达体系采用了两种四联密码子(quadruplet codon)和一种TAG三联密码子,并且构建了对应工程化的吡咯赖氨酰tRNA合成酶及相应tRNA(PylRS/tRNA)对。然而,目的蛋白表达的效率不尽人意,产量较野生型下降了31倍,需要进一步优化。此外,将正交的5'端非翻译区(5' UTR)置于编码其他蛋白开放阅读框(ORF)之前同样引起其他蛋白的表达效率降低。因此,通过正交的核糖体有效表达含多种ncAA的蛋白需要更通用化的策略,以实现高效率、正交性的目的蛋白表达。

Fig. 1

1. 启动蛋白质合成的正交O-ribo)和野生型wt ribo核糖体的热力学模型

形成起始复合物的自由能(ΔGtot)是mRNA解折叠所需的自由能(ΔGunfolding)以及mRNA结合核糖体30S亚基和起始tRNACAU形成起始复合物时释放的自由能(ΔGribo binding)的总和。正交核糖体的30S亚基在正交16S核糖体RNA的3' 端包含一个正交anti-Shine-Dalgarno序列(O-aSD),而野生型核糖体的30S亚基在16S核糖体RNA 3' 端包含一个野生型aSD序列。解折叠的mRNA与野生型和正交30S亚基形成起始复合物时释放的自由能分别是ΔGwt ribo binding和ΔGO-ribo binding。

本研究中,作者们通过形成蛋白质翻译起始复合物的热力学模型开发模拟优化算法来自动设计用于ORF正交翻译的5' UTR序列,并进一步通过探索5' UTR序列和编码氨基酸的同义密码子的变化来提高ORF的翻译效率(图1)。通过该方法获得的新O-mRNA序列较之前的mRNA设计提高了40倍的蛋白表达,同时正交性提高了50倍。作者将这些优化用于含三种ncAA的蛋白表达体系中,产量增加了33倍。作者还将多个编码aaRS基因、tRNA基因分别整合至优化的操纵子中,进一步实现了不同正交元件的紧凑、可扩展表达。综合以上设计优化,作者在模型大肠杆菌中构建了含有68种密码子、24种氨基酸的遗传密码,有效地将四种ncAA整合到同一个蛋白结构中。

Fig. 2

2. 正交核糖体特异性高效翻译的O-mRNA序列的自动化设计。

图a展示了正交核糖体(O-riboQ1)特异性高效翻译的O-mRNA序列的自动化设计策略;算法1生成包含wt SD序列的随机5' UTR并预测其ΔGtot(O-ribo)。在迭代过程中,将突变引入5' UTR,算法预测新的正交ΔGnew tot (O-ribo)。如果 ΔGnew tot (O-ribo) 比ΔGtot(O-ribo) 更负,则接受更改;否则,更改会以一定的条件概率被拒绝。该算法在 10,000 次迭代后终止。

算法2生成一个随机的5' UTR,其中包含与起始密码子最佳间距的O-SD序列,并预测其ΔGtot(wt ribo) 和 ΔGtot(O-ribo)。在迭代过程中,将突变引入5' UTR,算法计算新的预测值,ΔGnew tot (wt ribo) 和 ΔGnew tot (O-ribo)。如果 ΔGnew tot (wt ribo) 和 ΔGnew tot (O-ribo) 比 ΔGtot(wt ribo) 和 ΔGtot(O-ribo) 更有利,则接受更改;否则,突变会以一定的条件概率被拒绝。如果500次连续迭代未能提高ΔGtot绝对值,则算法终止。

算法3建立在算法2的基础上,但有两个显着差异:(1)算法3以ORF开始,其中密码子2到12与同义密码子随机交换。(2)在迭代过程中,5' UTR中的同义密码子替换和突变都是允许的。

图b、c和d分别展示了基于自动化设计策略优化的O-mRNA序列提高了GFP、mCherry和E2Crimson蛋白的表达量和翻译的正交性。

作者发现,5' UTR包含野生型核糖体结合位点(RBS)的绿色荧光蛋白(GFP)mRNA结合野生型核糖体的ΔGtot (wt ribo)为-0.5 kcal mol-1。而5' UTR含正交RBS的GFP mRNA结合正交核糖体的自由能变化(ΔGtot (O-ribo))为+3.5Kcal-1,这一结果表明正交mRNA与正交核糖体结合的稳定性相对较差。当使用模拟优化算法设计的正交mRNA序列的5' UTR后,得到了4种优化变体,其ΔGtot (O-ribo)均小于-4.9 Kcal-1。通过实验也验证了优化后的序列提高了StrepGFPHis6以及mCherry和E2Crimson的表达量,并且正交性均提高了12-19倍左右(图2)。

为了进一步提高正交性,作者在新的算法2中引入对结合正交SD序列的5' UTR序列的优化。算法2优化得到的5' UTR序列结合正交核糖体的自由能变化值更大(ΔGtot(O-ribo) = -7.7 kcal mol-1),而算法1设计的5' UTR序列ΔGtot(O-ribo) = -5.6 kcal mol-1。此外,作者通过mCherry及E2Crimson蛋白的正交表达,验证了算法2鉴定的5' UTR序列的通用性,这两种蛋白表达的产率和正交性均有提高。

Fig. 3

3. 优化的正交mRNA能够高效生产含有三种ncAA的蛋白

图a展示了本工作中涉及的5种ncAA的结构;图b展示了通过三种正交的吡咯赖氨酰tRNA合成酶/tRNA对将三种ncAA掺入蛋白序列。图c表示两种不同5' UTR的mRNA序列,翻译得到掺入三种ncAA的GFP的表达量,其中O(trans) 为之前报道的正交5' UTR,O1为本工作中算法1优化获得的正交5' UTR;图d展示了含有三种ncAA的蛋白质的质谱验证。

此外,作者认为在ORF的前35 nt内将密码子更改为同义密码子将在计算搜索中提供额外的自由度,以最大化ΔGtot(O-ribo)且最小化 ΔGtot(wt ribo)。作者假设这种搜索可以发现新的mRNA序列,使得正交核糖体更有效地翻译,并且更正交。为了验证这一假设,作者在算法2的基础上将ORF的2-12号密码子进行同义突变,即算法3探索ORF和5' UTR的同时变化。算法3优化的mRNA序列的ΔGtot(O-ribo)值更小(-12~13 kcal mol-1,而算法2优化的mRNA的ΔGtot(O-ribo)值为-7~9 kcal mol-1),而且比算法2获得的序列更正交,表达量接近野生型蛋白的表达水平。总体而言,无论是算法2或3产生的mRNA序列,均展现出比野生型更高的蛋白表达量,以及更好的正交性。

接下来,作者们将优化的正交mRNA用于整合3种ncAA蛋白的翻译。3种ncAA分别为:N6-(叔丁氧基羰基)-L-赖氨酸(BocK)、Nπ-甲基-1-组氨酸(NmH)和N6-((苄氧基)羰基)-L-赖氨酸(CbzK)。通过构建识别3种ncAA(BocK、NmH、CbzK)的PylRS/tRNAPyl,实现了含3种ncAA的StrepGFP (40BocK, 136NmH, 150CbzK) His6的表达。通过该体系,实现了2.6 mg/L的蛋白表达量。与未经优化的序列相比,表达量提高了33倍左右。并且,优化后的体系中,ncAA每一步的平均掺入效率为45%左右(图3)。

Fig. 4

4. 四个正交的aaRS/tRNA对正交识别并解码四种四联密码子。

图a-d展示了对四种不同四联密码子的解码翻译体系的蛋白表达能力和正交性验证。图e-h展示了相应的质谱验证结果。

经过上述的探索和论证,作者们进一步尝试将4种ncAA正交掺入蛋白中。首先,需要设计四个正交的aaRS/tRNA对,必须满足相互之间在氨酰化过程具有高特异性、正交性,具有四个正交的活性位点,及对应4种不同的四联密码子。因此,作者们选择了3种正交的PylRS/tRNAPyl对分别对应NmH、CbzK、和AllocK(N6-((烯丙氧基)羰基)-L-赖氨酸)的识别,并且选择了与上述PylRS/tRNA对正交的AfTyrRS(PheI)/AftRNATyr-A01CUAG对应 PheI(4-碘-L-苯丙氨酸)的识别。

为了实现aaRS和tRNA的高效紧凑表达,作者们建立了基于操纵子的共表达系统。通过一个操纵子表达一条多顺反子mRNA,加工后可以得到4个解码不同四联密码子的tRNA。作者们通过前面开发的算法优化得到了称为tRNA4(quad)的操纵子。类似地,作者也建立了表达4种aaRS的操纵子RS4_1-2。通过将RS4_1-2和tRNA4(quad)操纵子组合在一个重组表达载体中,分别实现了O1-strepGFP(40TAGA)His6、O1-strepGFP(40AGGA)His6、O1-strepGFP(40AGTA)His6和O1-strepGFP(40CTAG)His6的高效正交表达。通过测量产生的O1-GFP的荧光值来系统地测试每个aaRS/tRNA对的活性和正交性(图4a-d)。同时,质谱结果表明,在存在RS4_1-2/tRNA4(quad)和4种ncAA之一的情况下,每个aaRS/tRNA和密码子对在功能上相互正交(图4e-h)。

Fig. 5

5. 使用68种密码子,24种氨基酸构建含有4ncAA的蛋白。

图a表示通过四种aaRS/tRNA对识别四种正交四联密码子,表达掺入四种正交ncAA的蛋白;图b展示了添加/不添加四种ncAA底物时,表达的GFP的荧光值;图c展示掺入四种ncAA的全长蛋白的质谱验证结果。

最后,作者们构建了通过O-riboQ1合成含4种ncAA的O1-strepGFP(40 PheI, 50AllocK, 136NmH, 150Cbzk)His6蛋白,以响应4种四联密码子(40CTAG, 50TAGA, 136AGGA, 150AGTA)。实验结果表明,在添加全部4种ncAA底物的培养条件下,全长蛋白具有最高的表达量,在没有任何一种ncAA底物的情况下,都无法产生、或产生低水平的全长蛋白质(图5b)。此外,质谱结果也证实了4种ncAA的成功掺入(图5c)。这些结果表明,O-mRNA的序列优化成功提高了整合多种ncAA蛋白的表达量。

总结

作者们开发了一种快速的优化正交mRNA(O-mRNA)序列设计的算法,获得了优化的O-mRNA序列。与之前报道的未优化的O-mRNA相比,通过优化后的序列实现了提高近40倍左右的蛋白表达量和50倍的翻译正交性。结合算法的优化,成功提高了之前开发的含三重正交ncAA的蛋白表达量。在此基础上,作者们进一步设计了编码4个正交性aaRS/tRNA对的操纵子,首次在大肠杆菌细胞内高效表达了含有四重正交ncAA的蛋白,成功扩展了生命体中遗传密码的多元应用。

2021年10月16日 14:53
浏览量:0
收藏