韩 达 课 题 组

韩 达 课 题 组

Nature丨非平衡自组装成核动力学中的模式识别

 

大家好,今天跟大家分享的文献是发表在Nature上的名为非平衡自组装成核动力学中的模式识别的文章,该文章是由芝加哥大学Arvind Murugan、Jackson O’Brien教授,联合加州理工学院Erik Winfree、Constantine Glen Evans教授共同发表的。

文章背景

在分子自组装领域,结构和计算的相互作用尤为重要。生物细胞关于靶向、趋化性和吞噬作用的决定是通过重排细胞骨架的结构做出的,这些结构重排整合了机械力和化学信号,但信息处理的发生地点和方式仍然没有明确的结论。在DNA纳米技术中,DNA瓷砖的自组装通过模拟细胞自动机和布尔电路,从而在理论和实验上被证明能够进行图灵通用计算,但这种数字计算模型在生物学中缺乏明确的类似物。

神经计算是自然紧凑计算的另一种形式,具有几个独特的标志:混合模拟和数字决策,能够识别高维模式,依赖许多分布式弱相互作用的集体影响,对噪声的鲁棒性以及固有的学习和泛化能力。一个典型的神经网络模型是Hopfield关联记忆,它将动力学概念化为在能量景观上的随机漫步,该能量景观是通过学习在每个记忆中包含吸引子盆地而产生的。值得注意的是,神经网络模型自然映射到混合良好的化学网络、遗传调节网络和信号转导级联的模型上;此类网络在无细胞系统和活细胞中都得到了实验证明。然而,这些混合的方法仍然将决策与下游流程分开。

分子自组装中嵌入的神经信息处理原则一直更难辨别,起初在术语上似乎是一种矛盾。关于分子自组装中的自由能最小化如何类比到Hopfield模型的早期热力学观点并没有很好的体现。而最近出现的相同组件组装许多不同结构(“多变体自组装”)的多组分系统的动力学视图,成功揭示了与Hopfield关联记忆和海马模型的具体联系,即使单个分子没有明确地模仿单个神经元的机械行为,也可以将细胞置于集体动力学水平。

作者在这篇文章中将这种联系重新表述为异构成核动力学的内在特征,并使用DNA纳米技术实验性地证明了其高维模式识别的能力。当相同的组件可以在不同的几何排列中形成几个不同的组件时,就会出现这种现象(图1)。核化是通过自发形成关键种子进行的,然后生长成一个结构。由于种子的成核率在很大程度上取决于该种子中出现的成分的体积浓度,并且长成许多不同的种子的途径都是可行的,因此给定结构的总体形成率是浓度模式的复杂函数。此外,由于组件在结构之间共享,对资源的竞争导致赢家通吃(Winner-take-all,WTA)效应,加剧了集中模式之间的区别。

                 

图1 | 成核模式识别的概念框架。当一组分子有可能组装成多种不同的结构时,选择结果的成核过程对高维度浓度模式具有响应性。组装路径可以在能量景观上描述(示意图显示),即从未组装的组分的盆地开始,通过关键的成核种子(障碍)到达每种可能的最终结构的盆地。共定位高浓度组分的种子将降低相应组装路径的成核障碍。

文章简介

探讨了多组分结构自组装过程中的成核现象,展示了浓度的高维度模式可以以类似神经网络计算的方式进行区分和分类。通过设计一组包含917个DNA片段的系统,这些片段可以以三种不同的方式自组装,竞争性成核在很大程度上取决于这三种结构中高浓度片段的共定位程度。通过在硅中模拟训练系统,使其能够将一组18个灰度30×30像素图像正确分类为三个类别。实验证明,在经过150小时的退火后,所有经过训练的图像都被正确分类,而一组图像变化的测试集则检验了结果的稳健性。尽管相对于先前的生化神经网络而言,这种方法速度较慢,但它是紧凑、强大且可扩展的。研究结果表明,在高维多组分系统内发生的普遍物理现象,如成核,可能具有强大的信息处理能力。

主要内容

  1. 分子系统的设计

作者创建了一个分子系统,能够通过不同方式将多个目标结构(图2中的H、A和M)从一组共享的相互作用组件中(DNA瓷砖)组装起来。设计的第一阶段从一组不直接相互结合的S共享瓷砖开始;然后为每个所需的结构引入三套交互中介瓷砖(也称为H、A和M)。例如,H中的每个交互瓷砖都将四个特定的S瓷砖绑定在一起,形成一个棋盘排列,该排列反映了H结构中共享的S瓷砖之间的邻里约束。这些H相互作用瓷砖是结构H所独有的,不会出现在组装的A或M结构中。

图2 | 由一组分子组装而成的917种分子物种的多样混合,可以形成三种不同的结构。

如果S + H、S + A或S + M按1:1的化学计量混合,H、A、M三个结构相互之间的瓷砖将没有杂交作用,结构将分别组装成H、A或M。但如果S + H + A + M按1:1:1:1的比例混合,我们称SHAM混合,则可以组装三种不同的结构。这种相互作用介导瓷砖的加性构造类似于Hopfield神经网络中多个记忆的Hebbian学习。图2b中的设计有168块瓷砖在所有三种形状中都存在,203块瓷砖只在其中两种形状中出现,546块瓷砖是特定形状独有的。使用的DNA瓷砖是42nt的核苷酸单链(图2a),其序列使用作者之前工作的工具设计,以减少意外的相互作用和二级结构,并确保四条边几乎均匀的结合能量。

  1. 共定位控制核化

作者使用了结构A的自由能公式,考虑了结构中的键合数和浓度模式对核化动力学的影响。该公式表示为

这说明在多组分系统中,由于共定位的不同,目标结构的选择性可以由核化动力学和浓度模式来调控。在均匀晶体中,浓度均匀的情况下,关键的核化种子是那些具有适当大小和周长平衡的核。而在异质浓度模式下,关键的核化种子可以是任意形状,通过整合具有更高体积浓度的片段,有可能抵消较大的周长惩罚。为了估计具有不均匀浓度模式的结构的核化速率,作者实施了一种随机采样算法(图3)。

图3 | 理论显示,当高浓度的片段在一个形状中共定位多于其他形状时,会出现选择性核化。

在图3中,作者提高了SHAM混合中一些共享瓷砖的浓度。这些高浓度的瓷砖集中位于结构A中,但散布在H和M上。因此,这种模式将降低A成核的动力学屏障,同时保持H和M的高屏障。共定位促进成核的典型区域K可以从经典成核理论预测的临界种子的大小来估计,在更高的温度下动力学通常更大。因此,这个体系需要在模式识别的速度和复杂性之间进行权衡(图3e),在较高温度下(大K)灵敏度更高——实验发生的速度更慢——在较低的温度下较灵敏度低(小K)。

为了实时监测核化和生长过程,作者在每个结构的四个位置使用了不同的荧光物质-猝灭剂对。选择性成核的实验结果如图4c所示,三个示例标志浓度模式。当模式将高浓度共享瓷砖定位在结构中时,例如H,该结构的预期成核区域中的荧光团首先迅速淬火。一段时间后,来自同一结构其他部分的荧光团信号也下降了,表明了结构的生长。其他离散的共定位结构上的荧光团在实验后期才表现出极小或没有淬火。实验结束时来自样品的AFM图像证实,荧光团淬火对应于完整或部分形状的选择性自组装。在作者选取的37个位置中,大约一半表现出强劲的选择性成核和增长(图4d,e),而其他位置要么没有选择性,要么都生长良好,原因无法确定。

由于对成核的竞争性抑制,作者期望选择性得到增强。改进退火的程序后,在A可以显著成核和生长的温度下花费足够的时间,H仍然不能成核(图3f),这得到了作者期待的赢家通吃效应,即A的组装会耗尽共享瓷砖S,从而积极抑制H的成核。如图4f所示,经过数据分析作者在大多数实验中看到了这种效应的证据,这表明WTA动力学正在放大成核动力学的微小差异。

图4 | 在具有特定形状局部浓度模式的实验中的选择性核化。

3、核化过程实现的模式识别

作者展示了所有浓度模式的空间,包括未经实验测试的模式,在其中有一些区域导致了对H、A和M的选择性组装(图5a)。这些区域共同构成了这个自组装系统的相图,反映了系统在分类浓度模式时所做的决策。与传统研究的物理系统的相界面通常是低维且不易解释为决策界限不同,在多组分异质系统(如作者的系统)中,相图自然是高维的。总体而言,在无序的多体系统中,相界面往往复杂,因此隐含地解决了复杂的模式识别问题,这一观点也支持了Hopfield神经网络中的关联记忆。

图5 | 自组装相图的设计,以解决模式识别问题。

在这里,核化过程解决了基于分子在不同结构中共定位的模式的特定模式识别问题。类似的基于共定位的决策界限出现在由Mosers研究的神经场地细胞中,这些界限足够复杂,能够解决模式识别问题并允许统计上的稳健学习。通过展示多样化的自组装可以解决特定的模式识别问题,作者提出了一个问题:是否可以设计不同的分子来解决其他任务,比如识别或分类图像?在这里,作者采用了一种创新的方法,即通过优化像素到片段映射(θ)的选择,而不是合成新的分子来解决这一挑战(图5b)。这种方法不仅节省了DNA合成成本,而且还证明了可以事后利用随机分子设计来修改问题如何映射到物理组件,从而解决特定的计算问题。

图5d展示了作为训练集的任意图像,这些图像在同一类别中没有肉眼可见的相似之处,测试了该自组装分子系统作为分类器时决策界面的灵活性。然后,作者使用一个算法在θ上进行了优化,该算法寻求在对应于每个图像的浓度模式中最大化目标结构的核化,同时最小化非目标核化(图5c)。最后,通过图6展示了18个训练图像的实验结果,验证了正确的核化,即正确的形状比任何其他形状更多,并在除五种情况外都高度(超过80%)选择性。

此外,作者还测试了12个泛化图像和六个替代手写图像,使用相同训练过的像素到片段映射θ(图5e)。对于随机斑点扭曲和所有部分模糊的图像,模式识别均取得了成功。这种模式的泛化能力,即识别训练集中不存在的相关图像,是神经网络学习中的关键方面。通过自组装,可以展示对于某些畸变家族(例如,卷积网络可以处理平移)。由于核化是一种协同过程,通常由仅涉及少量片段的一两个关键核主导,因此随机不相关像素的翻转和模糊图像的其他部分并不会阻碍核化,表明了其稳健性。然而,对于六个替代手写数字中的三个,自组装仅正确识别了三个,表明在没有进一步训练的情况下,对于这种类型的变化缺乏稳健性。

图6 | 利用现有的多样化系统进行模式识别的结果。

小结

看完这篇文章,很多人可能跟我有同样的疑问,就是这份工作有什么意义呢?

首先,作者将成核视为机器学习模型,提出了是否存在学习的自然物理实现的问题。这里作者使用储层计算的想法在硅中训练决策边界;具有固定相互作用集的分子可以通过更改输入和固定组件之间的映射来解决任意问题。作者将Hopfield联想记忆和多元自组装之间的类比,特别是那些基于随机共定位的记忆,提出了一种超越固定组件的方法,通过自然物理过程以希伯来方式学习组件之间的相互作用。这个系统中共享瓷砖之间的相互作用是由特定形状的分子介导的。如果这些相互作用中介瓷砖可以根据环境输入进行物理创建或激活,例如,通过基于空间位置的相邻,分子系统就可以自主地从图例中学习新的自组装行为,而无需基于计算机的学习。或者,疏水残留物自然进化以稳定多蛋白复合物可能具有诱导多变模式识别的必要特性。

 

其次,作者认为虽然他在体外系统中使用一组特定的分子(DNA)研究模式识别,但其工作背后的概念与由不同性质和不同条件下的分子构建的生物系统具有潜在的相关性。这里作者在文末举了5个例子:a,模式识别是通过随着时间的推移降低温度在作者设计的系统中触发,从而推动了自组装过程。相反,在细胞中,分子成分的浓度会随着时间的推移而上升(例如,通过基因表达),导致成核和自组装,从而导致模式识别。b,模式识别的时间尺度由系统特定方面和一般趋势控制。系统特定:特定于DNA的过程,如瓷砖附着、分离和重组,设定了成核和生长的时间尺度。除了此处描述的浓度效应外,生命系统还可以使用主动机制来更精确地控制成核时间尺度。更广泛的趋势:作者的理论工作支持模式识别速度(例如,在较低温度下工作)、临界核的大小以及模式识别的复杂性之间的一般关系。c,作者工作中的赢家通吃效应通过利用共享组件的耗尽增强了选择性。生物分子系统中,例如大分子复合物和多组分相凝析物也可以认为是共享成分,有可能在细胞中实现赢家通吃的效果。d,在生物背景下,输入可以代表许多种类分子的相对浓度编码的生理或环境信号。如果那些浓度增强的成分没有在结构上共定位或加强凝结物的成核途径,那么这些浓度增强的模式可能不会导致自组装或相缩合;但高浓度的共定位模式可能导致自组装和凝结。e,动力学路径对浓度模式的这种敏感性可用于细胞生理学许多方面的复杂决策,或者可能为细胞规模分子机器人提供紧凑而强大的控制机制。

 

2024年4月1日 11:23
浏览量:0
收藏