论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》
  24eTNZKd6a8S 2023年11月02日 34 0

期刊:nature communications

影响因子:16.6↓ 1.094

中科院分区:1区

摘要

位点特异性酪氨酸型重组酶是基因组工程的有效工具,首个工程化变体已显示出治疗潜力。到目前为止,设计重组酶对新DNA靶位点选择性的适应主要是通过定向分子进化的迭代循环实现的。虽然有效,定向分子进化方法是费力和耗时的。在此,我们介绍了RecGen(重组酶发生器),一种智能生成设计重组酶的算法。我们收集了超过100万个针对89个不同靶位点进化的Cre样重组酶序列的序列信息,并利用这些信息对条件变分自动编码器进行重组酶生成培训。实验验证表明,该算法能够预测在新靶位点具有活性的重组酶序列,表明RecGen可用于加速未来设计重组酶的开发。

引言

酪氨酸型位点特异性重组酶是应用广泛的基因组工程工具。它们能够在其靶DNA序列之间交换DNA链,这有助于DNA的受控切除、倒位、插入或交换。因为这个过程非常精确,并且不依赖于DNA修复机制,所以它提供了对基因组DNA的无缝操作而没有副作用(在Meinke等人中进行了综述。1).这些特征使区别于基于核酸酶的基因组工程方法,如CRISPR-Cas系统。所有基于核酸酶的基因组编辑工具都依赖于宿主细胞的DNA修复途径,这最终会导致未倾向的编辑结果(在ANZ ison等人中进行了综述。2).然而,广泛使用的CRISPR-Cas9系统的优势在于其可编程用于特异性编辑新靶位点的速度和效率。在这方面,Y-S-SR落后了,目前需要花费大量时间和精力来生成具有特定针对性的报告。这个瓶颈代表了一个相当大的障碍,以利用设计师重组酶作为一个通用的基因组编辑工具的全部潜力。

目前使位点特异性重组酶适应新靶序列的方法使用定向分子进化。进化设计师Y-SS-Rs的一个强有力的方法是利用基于质粒的细菌37 4,697,但新一代设计师Y-SS-R仍然需要大量的时间和资源投资。其中一些重组酶的进化耗时超过150个周期,相当于6-12个月的工作。因此,虽然SLiDE很有效,但在时间和人力方面仍然很昂贵。101),迄今为止还不可能理性地设计具有新靶序列活性的重组酶。因此,预测将在所需靶位点引起重组活性的氨基酸变化的方法有可能加速新的设计者-重组酶的产生。11 1213 141312,这可能会受到为DNA靶位点生成序列的复杂性增加的负面影响。

生成性深度学习模型可能会提供一种更新、更有效的方法。这些类型的算法能够将蛋白质序列表示为多元分布,其参数是在深层神经网络的训练期间学习的(在Wu等人中回顾。15).因此,通过从这种分布中取样,它们可用于预测新的蛋白质。最常用于蛋白质序列生成的算法是生成敌对网络(gan)1618 变分和自动编码器1925。除了这两种算法之外,还有一些主要用于自然语言处理(NLP)的深度学习算法,这些算法已被用于蛋白质序列生成。特别是,LSTMs26和自回归模型已经被广泛使用2732。最近,变形金刚得到了很多关注,因为它们在自然语言处理中取得了显著的效果33 且在蛋白质序列产生中也显示出很大前景3436。近年来大量关于蛋白质序列生成的出版物清楚地表明了该方法成为蛋白质开发标准的潜力。

除了仅仅产生新的蛋白质序列之外,目标通常是产生具有改进性质的变体23,2730,37。这些改进通常涉及可量化的方面,如耐热性或发光性。相比之下,本任务需要产生与复杂分类条件相关的性质改变的重组酶变体,它们在新的DNA靶位点上的活性。为了实现这种以前未开发的蛋白质序列生成模式,我们决定使用条件变量自动编码器(CVAE)38以产生能够基于特定靶序列预测重组酶序列的模型。这里,我们展示了所得到的算法(RecGen),我们用89个进化的重组酶库和它们各自的靶位点对其进行了训练,它捕获了重组酶序列和它们各自的DNA结合序列之间的亲和力。通过所学的亲和力,RecGen能够通过提供DNA序列作为条件,为所定义的靶位点构建重组酶序列。为了验证RecGen的预测,我们使用该算法为新的DNA靶位点生成了设计重组酶,并通过实验测试了它们的活性。


我们首先想了解从不同文库测序中获得的数据,并评估数据的质量。我们使用Pacbio HiFi测序对进化的重组酶进行测序,得到了> 99.997%准确度和高再现性的全长读数(补充图1d,e)。有趣的是,测序的重组酶在文库中表现出非常高的多样性,重复出现相同克隆的情况很少(补充图2a、4b)。在所有测序的文库中,重组酶中发现的突变分布在206个残基位置上(每个文库的频率阈值为10%),表明343个氨基酸中有60%在至少一次进化活动中经历了阳性选择。针对设计者重组酶的个体进化,已经预先描述了7-15、30-44、77、86-93、108、175、244-249、258-268、317-320位的热点突变,提供了这些区域对于改变靶位点选择性很重要的额外证据(图1c;补充资料2)1,4,79,40,41。大量测序数据使我们能够指定有助于选择压力存活和潜在靶位点选择性的额外突变。例如,我们确定位置5、23、57和166频繁突变为不同的残基(图1c,用红色标记),表明这些残基在使设计者-重组酶适应新的靶位点中起重要作用。因此,在未来的进化活动中特异性靶向这些残基可能有助于产生新的设计者重组酶。值得注意的是,为了适应新靶位点的活性,与Cre相比,一些重组酶获得了多达75个氨基酸取代(约22%的蛋白质序列)(图1d,补充图3),高亮显示蛋白质在进化过程中的适应性。重要的是,我们鉴定了整个重组酶编码序列中在阳性选择下的残基(图1c)确认实际上完整的序列有助于适应新的靶位点。这些结果强调了改变这类酶的靶位点识别的复杂性,表明简单的相关分析可能不足以预测具有定制靶位点特异性的新设计者-重组酶。

接下来,我们对图书馆的构成感兴趣。为了获得文库分布的概述,我们使用降维方法t-SNE来可视化重组酶序列关系(图1d,补充图2b)。我们发现,许多进化的文库形成独立的簇,表明蛋白质的共同变化导致了重组酶重组所呈现的靶位点的能力。然而,在某些情况下,观察到一个文库有多个簇,这提示文库中进化出了具有所需靶位点活性的不同突变组(图1d,补充图2c)。氨基酸突变与不同文库之间的复杂关系以及由此产生的靶位点选择性表明,先进的机器学习可能是解决重组酶预测任务的一种方法。

位点特异性酪氨酸型重组酶是基因组工程的有效工具,首个工程化变体已显示出治疗潜力。到目前为止,设计重组酶对新DNA靶位点选择性的适应主要是通过定向分子进化的迭代循环实现的。虽然有效,定向分子进化方法是费力和耗时的。在此,我们介绍了RecGen(重组酶发生器),一种智能生成设计重组酶的算法。我们收集了超过100万个针对89个不同靶位点进化的Cre样重组酶序列的序列信息,并利用这些信息对条件变分自动编码器进行重组酶生成培训。

实验验证表明,该算法能够预测在新靶位点具有活性的重组酶序列,表明RecGen可用于加速未来设计重组酶的12).然而,广泛使用的CRISPR-Cas9系统的优势在于其可编程用于特异性编辑新靶位点的速度和效率。在这方面,Y-SS-R落后了,目前需要花费大量时间和精力来生成具有特定针对性的报告。这个瓶颈代表了一个相当大的障碍,以利用设计师重组酶作为一个通用的基因组编辑工具的全部潜力。

目前使位点特异性重组酶适应新靶序列的方法使用定向分子进化。进化设计师Y-SS-Rs的一个强有力的方法是利用基于质粒的细菌37 4,697,但新一代设计师Y-S-SR仍然需要大量的时间和资源投资。其中一些重组酶的进化耗时超过150个周期,相当于6-12个月的工作。因此,虽然SLiDE很有效,但在时间和人力方面仍然很昂贵。

这些缺点是使用SLiDE时随机产生新一代重组酶的直接结果。在一个新项目开始时,尚不知道哪种序列修饰将导致在预定义的靶序列上显示重组活性的蛋白质变体。已经取得了一些成功,引入了基于对设计者-重组酶的蛋白质模型分析的改进,所述设计者-重组酶在确定的靶位点上具有活性10。然而,由于整个酶促反应的性质复杂,包括DNA结合、DNA弯曲和催化(在Meinke等人中进行了综述。1),迄今为止还不可能理性地设计

具有新靶序列活性的重组酶。因此,预测将在所需靶位点引起重组活性的氨基酸变化的方法有可能加速新的设计者-重组酶的产生。

预测Y-SS-R内必要变化以实现选择性改变的一种方法是直接耦合分析(DCA)。DCA模型采用概率模型来捕捉蛋白质中残基之间的协同进化关系。用于DCA的突出算法类型是Potts模型11 或者玻尔兹曼机器12。它们最初是为蛋白质残基接触预测而开发的,但也已被改造以生成蛋白质序列13 以及预测蛋白质的适合度14。虽然DCA模型是用一阶和二阶统计量推断出来的,但它们能够概括三阶统计量13。然而,没有明显的方法来调整这些模型,以生成以DNA序列为条件的蛋白质序列。此外,DCA模型在计算上可能很昂贵12,这可能会受到为DNA靶位点生成序列的复杂性增加的负面影响。

生成性深度学习模型可能会提供一种更新、更有效的方法。这些类型的算法能够将蛋白质序列表示为多元分布,其参数是在深层神经网络的训练期间学习的(在Wu等人中回顾。15).因此,通过从这种分布中取样,它们可用于预测新的蛋白质。最常用于蛋白质序列生成的算法是生成敌对网络(gan)1618 变分和自动编码器1925。除了这两种算法之外,还有一些主要用于自然语言处理(NLP)的深度学习算法,这些算法已被用于蛋白质序列生成。特别是,LSTMs26和自回归模型已经被广泛使用2732。最近,变形金刚得到了很多关注,因为它们在自然语言处理中取得了显著的效果33 且在蛋白质序列产生中也显示出很大前景3436。近年来大量关于蛋白质序列生成的出版物清楚地表明了该方法成为蛋白质开发标准的潜力。

除了仅仅产生新的蛋白质序列之外,目标通常是产生具有改进性质的变体23,2730,37。这些改进通常涉及可量化的方面,如耐热性或发光性。相比之下,本任务需要产生与复杂分类条件相关的性质改变的重组酶变体,它们在新的DNA靶位点上的活性。为了实现这种以前未开发的蛋白质序列生成模式,我们决定使用条件变量自动编码器(CVAE)38以产生能够基于特定靶序列预测重组酶序列的模型。

这里,我们展示了所得到的算法(RecGen),我们用89个进化的重组酶库和它们各自的靶位点对其进行了训练,它捕获了重组酶序列和它们各自的DNA结合序列之间的亲和力。通过所学的亲和力,RecGen能够通过提供DNA序列作为条件,为所定义的靶位点构建重组酶序列。为了验证RecGen的预测,我们使用该算法为新的DNA靶位点生成了设计重组酶,并通过实验测试了它们的活性。

论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》_编码器

图1 |用于训练深度学习方法的重组酶序列数据的数据采集和概述。描述数据收集的插图。收集进化的重组酶文库,并使用PacBio HiFi方法进行测序,以实现重组酶基因的高精度全长阅读。基因序列被翻译成蛋白质,并与各自的靶序列一起储存。b与loxP DNA靶序列结合的Cre重组酶二聚体示意图(上图)。底部显示了测序的重组酶文库覆盖的所有半位点碱基。覆盖范围表中的值表示目标站点的数量,其中相应的基(行)位于相应的半站点位置(列)。c与Cre相比时,所有测序文库中所选残基的频率。在> 50%的序列中突变或观察到> 7个不同残基的位置用它们的编号表示。在特定位置选择的不同氨基酸的数量用颜色编码(观察到的残基)。红色数字之前未高亮显示。来自所有测序文库的100个随机重组酶序列的d t-SNE维数减少。颜色表示序列到Cre的氨基酸汉明距离(dH(Cre))。放大右侧的选定库。显示了放大的目标位置对应关系。源数据以源数据文件的形式提供。

表示进入压缩潜在空间的给定输入。潜在空间被设计成类似于多元正态分布。因此,对于每个潜在空间维度,均数(μ)和标准差(σ)是针对正态分布采样而学习的(图2a)。结合单热编码目标序列的条件输入,采样的潜在空间被传送到解码器,其目的是重建重组酶序列。在训练过程中,通过二元交叉熵损失函数计算重构和真实重组酶序列之间的差异。然后使用所谓的“重新参数化技巧”将该损失反向传播24。此外,损失函数包含一个迫使所有编码类似于多元正态分布的项(KLD损失,图2a)。最后,从与所需靶序列结合的受控潜在空间取样使得能够通过解码器产生重组酶序列(图2b)。

论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》_汉明距离_02

图2 | rec gen的训练和计算验证。A条件性变异自动编码器(CVAE)以一热编码的半位点靶序列和重组酶蛋白序列作为输入进行训练。编码器捕获潜在空间中的序列多样性,解码器从该潜在空间结合目标序列重构蛋白质序列。使用重建损失结合确保前面提到的预测序列多样性的kulback-Leibler散度(KLD)来训练完整模型。b经过训练的CVAE解码器通过输入重组酶靶序列和正态分布的随机数生成重组酶蛋白序列,从而使结果多样化。计算验证已知靶位点的所得蛋白质序列(在c部分中解释),实验验证定义靶的最常用预测序列。c Leave模型的遗漏交叉验证(LOOCV)。(1)用除了靶重组酶文库之外的所有可用的测序重组酶文库训练CVAE(TRL)。

(2)使用具有TRL目标序列和随机数的CVAE解码器来预测TRL(如图b所示)。(3)将预测的重组酶文库(PRL)和具有最接近TRL的靶位点的重组酶文库(CRL)与TRL进行比较。d,e每个LOOCV预测序列到所有TRL序列的最小汉明距离的Boxscript图。此外,还包括CRL到TRL的最小汉明距离以供比较。d包含每个条目中连接的所有CRL和PRL距离。n =每种条件下89,000。e显示一个库子集的距离。用于进一步实验的TRL用方框突出显示。n =每个条件1000。所有箱线图均符合标准定义:中心线为中位值,箱型限值为上四分位数和下四分位数,晶须为1.5倍四分位数范围,点显示异常值。f CRL和PRL的中位最小汉明距离差。颜色代码指示PRL与TRL的距离是否比CRL与TRL的距离更近(橙色)、更远(蓝色)或距离相同(灰色)。源数据以源数据文件的形式提供。

预测导致与已知靶的高度相似性。为了证实所选的CVAE结构能够预测功能性重组酶,我们首先将模型输出与现有测序数据进行比较。为此,我们决定使用省去一个交叉验证(LOOCV),即从训练集中排除一个靶重组酶库(TRL),并使用所得到的模型生成对该一个TRL靶序列的预测(图2c)。然后对每个重组酶文库重复该步骤。

假设TRL中的所有序列都能够重组TRL靶位点,我们认为任何预测的与任何TRL具有高度相似性的重组酶都应被视为成功。因此,为了评估预测质量,我们选择计算预测的重组酶文库(PRL)序列与它们在TRL最接近的匹配之间的汉明距离(即两个序列之间的氨基酸数量差异)。换句话说,该度量评估了预测序列包含必要突变的可能性,以实现在给定TRL靶位点上的重组。

理想情况下,该模型从其从具有相似靶位点的训练数据集中的重组酶文库中观察到的突变推断PRL序列。然而,它有可能缺乏信息深度来推断可行的序列,这可能导致从训练数据中“记忆化”序列。为此,我们还决定根据靶位点与TRL的距离来测量最接近的重组酶文库(CRL)的距离。因此,如果测得的PRL距离低于CRL距离,则表明该模型能够预测比在CRL中观察到的氨基酸组合(即最佳的可用进化起点)更有可能为所需靶位点工作的氨基酸组合。

获得的结果证实了我们提出的方法的有效性。更具体地说,我们计算了所有重组酶文库的LOOCV PRL汉明距离,发现与CRL相比,预测序列的中位值为4个氨基酸,更接近TRL(图2d)。在74例PRL导致至TRL的距离中位改善的病例中,只有3例PRL的距离中位差于CRL(图2e,f;补充图4a)。中位改善最高的是20的汉明距离,而在最坏的情况下,PRL距离TRL的距离仅比CRL远4倍(图。2f)。与CRL相比,这种到TRL(所需靶位点再结合的已知解决方案)的距离差异对预测的重组酶提出了实质性的改进。这表明与CRL相比,PRL更可能在所需的靶位点发挥作用,并且在定向进化中,PRL序列需要获得更少的突变才能在所需的靶位点有效重组。

LOOCV预测会产生高度活性的重组酶。LOOCV检验表明,该模型能够预测TRL序列的近似值,但大多数预测仍然是与实际TRL序列不同的几个氨基酸。我们想测试一些LOOCV预测的重组酶,以研究它们是否真的重组了各自的靶位点。为了评估重组活性,我们使用了以前发表的报告质粒4,7 其可用于两种不同的测定:基于质粒的重组测定(图3a,b)和基于PCR的重组分析(图3c)。基于质粒的分析提供的结果可用于定量重组酶的重组率,而基于PCR的分析允许检测罕见的重组事件。

我们使用分析来检测预测序列与TRL的相似性是否表明预测成功。loxA-1和loxD-1的预测序列与其TRL中发现的序列非常相似(图2e)。这种相似性使得这些库很可能是功能性的。此外,我们还调查了


如何将预测序列与TRL和CRL进行比较。我们测试了两个预测的重组酶文库(PRL单克隆;补充数据3),发现它们与TRL和CRL具有相似的重组效率(图。3d,e)。接下来,我们决定验证loxE-3和loxI-1的预测,它们比loxA-1和loxD-1的预测更接近TRL。然而,dH(PRL)仍远低于dH(CRL)(图。2d),表明如果可以观察到任何活动,预测可能比CRL更好。我们发现了最常观察到的活性预测(PRL单克隆;补充数据3)lox-3高于TRL和两种CRL(分别为34%对13%、2%和7%,图3f)。在loxI-1靶位点,TRL活性为30%。尽管PRL和CRL在质粒分析中均未显示重组活性,但可通过PRL的PCR分析而非CRL确认再结合。总之,对于所测试的每个LOOCV预测,我们都能够检测到所有预测重组酶中的重组,并且与CRL相比,再结合效率通常相当或更高,表明RecGen能够预测已知靶位点的功能性和有效重组酶。


预测的重组酶切除新的靶位点

最终,我们希望能够预测在新的靶位点上具有活性的重组酶序列,对于这些靶位点,功能性重组酶序列是未知的。为了测试RecGen是否能够实现这一目标,我们决定对14个人工构建的焦油获取点进行预测,以便在细菌分析中进行评估(补充数据3)。我们从我们的四个进化文库(losc-7,loxD-7,loxF-1,loxG-1)中选择了靶位点,并在半位点改变了3 bp,导致大多数文库在修饰的靶位点上失去活性(图4).对于这些变化,我们把重点放在7-12位的半位点上,因为当它们发生变化时,这些半位点会强烈影响重组酶的活性43。我们还纳入了一个新的靶位点,其位置3、5和6处含有修饰,因为这些位置在我们的训练数据集中代表性不足。通过这种方式,我们构建了14个靶位点,并使用在所有可用重组酶文库上训练的模型为其生成重组酶,从而建立了对照试验病例来研究RecGen的性能。

对于每个靶位点,我们预测了10,000个重组酶蛋白序列,从中我们为每个靶位点选择了最普遍的序列。使用之前描述的重组分析,我们在各自的新靶位点上测试了预测和CRL。我们通过PCR分析研究了推定的重组,发现大多数CRL在选定的新靶位点上没有活性,这表明需要额外的亚位点来启动这些靶位点的SLiDE。相反,我们在预测的重组酶的几个靶位点检测到了再结合活性。从14个新的靶位点,我们发现8个预测产生真正的重组产物,可以通过测序证实(图4补充,图5a)。在四项功能预测中,CRL未观察到活性,表明使用RecGen优于经典方法。除了在指定的靶位点测试预测外,我们还测试了它们在其CRL靶位点的活性。一些功能性predictions在其CRL靶位点上无活性(Novell c-2、Novell d-2、Novell f-4;补充图5b)。这是显著的,因为RecGen被开发用于预测靶位点上的重组酶活性,但未被训练用于将重组限制在该位点。我们的结论是,RecGen能够预测在确定的靶位点上具有活性的重组酶,这使得它成为第一个能够预测全新靶位点的功能性再结合酶的算法。


讨论

到目前为止,用于新靶位点的设计重组酶的开发已经通过应用定向分子

论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》_汉明距离_03

| rec gen遗漏一项交叉验证预定义的实验验证。导致带有两个靶位点的DNA切除的重组酶基因表达图解。靶位点用三角形表示,两个三角形表示非重组DNA,一个三角形表示重组DNA。带有一个三角形的灰色圆圈代表将被细胞降解的切除DNA。基于质粒的重组分析。在细菌细胞中培养的报告质粒,表达可切除靶位点间DNA的重组酶。修饰导致质粒大小相差~700 bp,可通过琼脂糖凝胶电泳检测。重组质粒片段用一条线和一个三角形标记,非重组质粒片段用一条线和两个三角形标记。“M”表示DNA标记,“mix”表示重组和非重组质粒的混合物。下面的百分比表示重组质粒的量。c基于聚合酶链反应的分析重组。用相应的酶(RE-位点)进行限制消化导致非重组质粒线性化,而重组质粒保持循环。用红色箭头所示引物进行PCR,环状质粒的PCR产物为1.7 kb,而线性化质粒不产生产物。d–g使用b和c中所述重组分析验证LOOCV预测。所有样本均在pEVO报告质粒中检测,目标位点为相应的TRL,并以10g/ml L-阿拉伯糖培养。根据凝胶带定量计算重组百分比(低于质粒分析)。DNA标记用“M”表示。d–g底部:相应的TRL和CRL半位点靶序列的比对。保守的碱基被替换为“.”。PRL预测重组酶库、TRL靶重组酶库、CRL最接近(TRL)重组酶库。源数据以源数据文件的形式提供。

演变47,9,40,41,4448,这是一个有效但费力耗时的过程。一种更直接、更快速的方法是针对预定义的靶序列智能设计Y-SS-R。然而,Y-S-SR很复杂,迄今为止还很难理解靶位点特异性变化的必要修饰。为了应对这一挑战,我们从针对89个不同靶位点进化的文库中收集了超过100万个重组酶序列。与硬连接到蛋白质序列中的复合重组反应一致,我们发现许多残基发生了突变并且是阳性的146894041。随着重组酶文库的广泛测序,我们指定了几个似乎影响靶位点选择性的额外突变热点。有趣的是,一些突变

论文解读:《利用生成性深度学习预测用于DNA编辑的设计者重组酶》》_汉明距离_04

图4 |新靶位点预测重组酶的实验验证。a新靶位点的半位点与其各自的CRL半位点的比对。保守碱基用“.”表示。b基于PCR的预测重组酶克隆(PRL单克隆)及其各自CRL的重组分析。复选标记表示PCR产物包含编辑过的序列,而叉号表示表明重组不能通过测序证实。在未进行序列验证的地方划了破折号。PRL:预测的重组酶文库,就靶位点相似性而言,CRL是与新靶位点最接近的重组酶文库。源数据以源数据文件的形式提供。

在N-末端发现了所选的,这是一个可用于Cre重组的区域49,50。N-末端的残基明显处于阳性选择之下的事实表明N-末端在进化的重组酶中起重要作用51

在文库水平上,我们发现一些文库由多个不同的序列簇组成,而大多数其他文库形成一个统一的簇。这一发现表明,定向分子进化有时会导致能够重组所需靶位点的不同突变集,而其他文库进化后包含非常相似的突变。在其他定向分子进化中已经发现了这种特性,其中多组突变占优势,直到一组突变接管整个群体52。因此,对于有两个集群的库,有可能需要额外的几轮SLiDE来最终形成一个集群。总体而言,进化重组酶的测序为我们提供了有价值的信息,进一步巩固了重组酶靶位点选择性的复杂性。

我们决定采用一种有效的深度学习算法来完成使设计者重组酶的活性适应新的靶位点这一非平凡的任务。利用所描述的神经网络,我们设法预测与对预测的靶位点特异的已知再结合酶具有高度相似性的序列。通过将预测与最接近的重组酶文库进行比较,我们可以表明这些预测不仅仅是对具有相似靶位点的序列的“记忆”。总体上,我们发现预测的序列更接近已知由四个氨基酸起作用的重组酶,证实了我们方法的有效性。

我们确实观察到了预测序列与有效重组酶的相似性差异,以及与最接近的重组酶文库相比,预测的改善程度差异。我们知道,可用于目标地点成分的信息量不同,因此导致模型预测TRL的能力不同。当通过省略与TRL相关的更多信息来执行预测时,可以观察到这一点(辅助图4c)。此外,最密切相关的文库中包含的残基可能不同,即使它们实现了相同的目的。同一问题的分歧解已知发生在进化中,也曾在定向进化中描述过53。尽管模型的性能因目标站点而异,但在超过80%的测试目标站点中预测的重组酶显示出优于针对最相似的靶位点进化的文库的改进。这一结果表明,预测的重组酶通常是进一步定向进化的更好起点。

我们假设,更接近TRL序列的LOOCV预测更有可能在TRL目标地点活跃。为了验证这一点,我们通过实验验证了三个LOOCV预测。两个非常类似TRL序列的字典确实是活跃的。然而,我们发现,我们挑选用于测试的两个更远的预测也能够重组它们的靶位点。在其中的一个案例中,发现这个预测甚至比为这个任务开发的库更有效。我们怀疑PRL和TRL之间的部分序列差异是由模型忽略的罕见突变组成的。这些罕见突变中有许多对蛋白质功能有不可忽视的影响,因此既不富集也不去除。因为这些突变非常罕见,所以它们对训练损失的影响非常小,这就是为什么RecGen未被优化以学习这些突变的原因。这导致预测的可变性较小(补充图4b),但最有可能保留了重要的残留物。总之,经过测试的LOOCV对新靶位点的预测都是有效的,表明该模型的预测是有用的。

最终,我们想知道该模型是否能够实现其预期目的,即预测新靶位点的重组酶。我们可以确认,14个预测中有8个在各自的目标位点上是活跃的。重要的是,大多数CRL(我们通常从其开始进化的库)都没有显示出活性。这意味着,如果我们想在定义的目标站点上获得一个有活动的库,首先有必要发展一个在子站点上工作的库,这样我们就可以继续前进到感兴趣的目标站点。使用我们的方法,我们现在可以直接在目标站点上开始进化。在最近的工作中6,进化重组酶以适应具有一个或两个碱基改变的靶位点需要12个和更多的循环。因为每个周期都是一个完整的工作日,所以每个目标站点切换需要> 2周的实际工作时间。因此,我们预测的在靶位点具有三个碱基改变的重组酶将节省至少2周的工作。

还检测了预测的重组酶在CRL靶位点的活性,以探查其特异性。由于CRL是训练数据集中具有最相似目标位点的库,因此可以合理地假设该模型将实现来自CRL的蛋白质序列特征。这可能会导致CRL上的预测处于活动状态。事实上,我们发现一些PRL在其CRL靶位点上是活性的,而一些成功预测的重组酶没有重组CRL靶位点。当前版本的RecGen仅处理指定目标站点上的活动。因此,必须对这些重组酶进行进一步定向进化或合理设计,以使这些重组酶具有高度活性和特异性46,8,10,54

需要注意的是,我们仅测试了PRL的单个序列,而我们测试了CRL的完整文库。在> 100,000个变异体的文库中发现功能性重组酶的概率比仅检测单个克隆时高得多。因此,检测多个预测的重组酶可能比仅检测一个序列产生更高的成功率。总体而言,我们在此获得的结果令人鼓舞,表明RecGen将有利于减少开发新的设计者重组酶所花费的时间和精力。

目前的RecGen已经是缩短新设计重组酶开发时间的一种有价值的资源,但未来的迭代可能会增强它可靠预测Y-S-SR的能力。将编码更改为氨基酸特性或蛋白质序列的学习表示27,55,56 将为RecGen提供额外的信息,从而有助于更可靠地预测。适应网络的另一种方法是改变完全连接的

神经网络层到卷积或递归网络层,这可以进一步提高性能22,23。最近的出版物展示了变压器模型令人印象深刻的结果3436,表明这种模型也可用于重组酶序列数据。蛋白质结构预测和生成的进展有助于筛选功能上可行的蛋白质的模型预测。例如Ferruz等人。34,用αfold 2验证了他们预测的蛋白质序列57通过结构概率得分和多维模拟。虽然算法的改进很重要,但用于训练模型的数据可能更为关键。

就所进行的实验室工作而言,我们收集的数据量相当大,但能够成功预测的目标序列空间仍然有限。到目前为止,我们只能确认半位点与已知靶位点相差三个碱基的靶位点预测。这就是为什么收集更多的数据将是使RecGen对未来设计师重组酶开发更有用的关键。这意味着我们需要从为其他靶位点进化的重组酶文库中收集序列。应该执行专门为了扩展可用序列空间的理想目标进化。此外,关于文库内单个重组酶序列的定量数据应有助于改进RecGen。该信息对于模型理解哪些突变与定义的靶位点上的重组活性更相关很重要。因为对新功能的定向进化可能导致重组酶变得更“混杂”,即更不特异4,58这也与筛选他们在偏离目标上的活动有关。这将有助于模型了解蛋白质在其靶位选择性方面有多“灵活”。一般来说,模型可用的数据越多,可能的结果就越好。

总之,我们表明RecGen能够预测特定靶位点的重组酶。据我们所知,以前尚未成功预测对特定DNA靶位点具有选择性的蛋白质,因此这是一项重要成就。此外,我们认为RecGen将是启动未来设计师重组酶进化的一个有价值的工具,使过程更快、更省力。

方法

进化重组酶文库的深度测序

为了对重组酶文库进行深度测序,使用500 ng的pEVO质粒(如中所述3,4,7)用限制性酶NdeI和AvrII (NEB目录编号R0111S和R0174S)消化来自进化的重组酶文库,这将仅切割非重组质粒。然后用MF-film对消化的DNA进行脱盐,并在大肠杆菌XL-1 Blue中培养(Agilent目录编号200158)。在氯霉素(25 mg/ml)存在下于100 ml LB培养基中培养细胞14–16h后,使用GeneJet质粒Miniprep试剂盒(ThermoFisher目录编号K0502)提取质粒DNA。提取的DNA仅含具有功能性重组酶基因的重组质粒。然后用限制性酶BsrGI-HF和XbaI (NEB目录号R3575S和R0145S)消化5 ug提取的pEVO质粒,然后用定制的SPRI珠(描述于dx . doi . org/10.17504/protocol . io . n7 hdh j6)富集携带重组酶基因的1041 bp片段,方法是将pEVO骨架与珠结合两次,然后用Ampure XP (Beckman Coulter目录号A63881)清除super使用量子位2.0荧光计上的量子位dsDNA HS分析试剂盒(ThermoFisher目录编号Q33230)对DNA进行定量,并将其发送至德累斯顿概念基因组中心,在该中心使用Sequel System 6.0采用Pacbio HiFi方法对DNA进行测序。

使用PacBio的ccs v3.4.1生成了循环一致性序列数据。使用ccs的过滤标准,仅长度为1034-保留1200 bp,最小预测准确率为99.997% (Phred评分~25)。使用SAMtools 1.11将数据转换为FASTA格式后,对重组酶基因序列进行了比对,并使用免责v2.3.0的蛋白质2dna:bestfit比对模型将其翻译为氨基酸。使用GNU grep v3.7、GNU sed v4.8和GNU awk v5.1.1进行了进一步过滤,以确保基因长度为1032 bp,以甲硫氨酸开头,且序列中不包含任何终止密码子。

重组酶序列数据分析

重组酶蛋白和靶位点序列采用R版本4.1.1和tidyverse包装v1.3.1进行处理59,60。用Rtsne包v0.1.5从用stringdist包v0.9.8获取的序列的汉明距离计算t-SNE维数约简61,62

 

CVAE模型训练与预测

使用pytorch v1.10.1在Python 3.9.6上训练神经网络63。使用numpy v1.22.1和pan- das v1.4.0进行数据预处理和后处理64,65。为了确保训练数据的均匀分布,我们使用每个文库1000个随机选择的重组酶序列(补充图2a)加上相应的靶半位点,它们被一热编码用于模型的训练。

通过形成二元矩阵生成一热编码,其中行对应于重组酶序列,列代表序列中氨基酸和位置的所有可能组合。然后,在与序列中的组合相对应的位置用1表示序列,在所有其他组合中用0表示序列。将靶序列和重组酶序列连接起来,允许的可能字母包含天然存在的20个氨基酸和一个终止密码子。目标序列部分以相同的方式编码,因为DNA的字母包含在20个氨基酸中。

训练数据集对应于23个进化项目的89个目标点。CVAE建筑是根据Sohn等人的设计建造的。38。模型由编码器和解码器中两个完全连接的层构成,有64个和32个神经元(解码器中相反),而潜在空间由两个神经元定义。分40个时期进行培训,批量128个,辍学率0.1,学习率0.0001。重建损失采用二进制交叉熵计算,KLD乘上0.1比2的因子,随每个历元线性增加66

使用模型的解码器部分,通过提供具有从正常分布产生的两个随机数的单热编码半位点目标序列,使用训练的模型进行预测(图2b)。然后,模型的输出被从一个热点解码为氨基酸。所有预测的重组酶序列见补充数据3。

 

LOOCV测试

进行了遗漏一项交叉验证,如图所示。2c.首先,通过移除靶重组酶库来减少训练集(TRL)。然后,使用缩减的训练数据集进行模型训练和预测,如上所述。我们发现,使用相同参数的训练会导致略有不同的结果。为了减少输出方差,我们决定使用多个模型进行预测,因为计算成本高,我们为每个TRL训练了10个模型进行预测。总共产生了1000个重组酶序列,并计算了它们与TRL序列的汉明差异,只记录了最小的距离。此外,用CRL序列代替PRL序列进行同样的过程。然后用tidyverse R包v1.3.1处理记录的数据,并用ggplot2 v3.3.3绘制67

是TRL序列。Δ

表示汉明距离函数。

重组酶活性测定

在存在氯霉素(25 mg/ml)和L-阿拉伯糖(10 g/ml或200 g/ml)的情况下,在大肠杆菌XL-1 Blue (Agilent目录编号200158)中于10 ml LB培养基中培养具有相应靶位点和重组酶基因的pEVO载体14-16 h。使用GeneJet质粒Miniprep试剂盒(ThermoFisher目录编号K0502)提取质粒DNA。对于基于质粒的重组分析,使用XbaI和BsrgI-HF (NEB目录编号R3575S和R0145S)消化500 ng质粒DNA,然后进行琼脂糖凝胶电泳。产生的条带表明约4.2 kb的重组质粒部分和约5 kb的非重组质粒部分。使用斐济进行图像处理,从条带强度测量重组和非重组质粒的量。通过用重组质粒的量除以两个质粒的量计算重组率。较高百分比的重组质粒表明重组酶文库或变体在确定的靶位点上更具活性。对于基于PCR的重组分析,使用NdeI和AvrII (NEB目录编号R0111S和R0174S)消化了500 ng质粒DNA,这使所有未重组质粒线性化。然后用引物EVO-F和EVO-R(cggcgtcacatcttgctatg,aagggaataagggga-

CACG),如果乘积是圆形的,它将放大,但如果乘积是线性化的,它将失败。用琼脂糖凝胶电泳观察~1.7 kb的预期产物。

 

LOOCV预测的验证

loxA-1、loxD-1、loxE-3的pEVO进化和报告载体以及相应的TRL和CRL基因均来自Sarkar等人、Karpinski等人和Lansing等人。79。(补充数据1)。loxI-1和TRL基因的pEVO载体是由马丁·施奈德以与上述载体相同的方式为未完成的工作而生产的。loxI-1 CRL基因(loxB-1)来源于Sarkar等人。9。对Twist Bioscience中针对大肠杆菌的PRL克隆进行了有序密码子优化。通过XbaI和BsrGI消化法切除所有重组酶基因,然后进行凝胶切除(来自Bioline的分离II PCR和凝胶试剂盒,目录号BIO-52058),以克隆到相应的pEVO载体中。使用10 g/ ml的L-阿拉伯糖浓度,用上述测定法测试克隆载体的重组活性。

 

新靶位点的预测和验证如结果部分所述,通过随机突变7–12位半位点靶序列的三个碱基产生新靶位点,并选择与其他已知靶位点的距离为四个或更多。此外,我们还产生了一个目标位点(Novell f-5),其3、5和6位碱基发生了变化,这些位置被改变为训练数据集中出现频率最低的碱基(图。1b)。然后如前所述构建具有这15个生成的靶位点的pEVOs7。简而言之,使用含有靶位点并与pEVO质粒重叠的引物从pEVO质粒产生PCR产物。然后使用冷融合克隆试剂盒(系统生物科学目录编号MC010B-1)将该片段克隆到BglII (NEB目录编号R0144S)消化的pEVO质粒中。CRL(也是修饰靶位点以形成新靶位点的文库)在新靶位点pEVO上测试重组活性(200g/ml L-阿拉伯糖,如上所述)。在15个靶位点中,我们发现10个对其各自的CRL无活性,它们是

然后选择用于测试预测的重组酶序列。除此之外,以相同方式产生另外四个靶位点,但对它们的CRL(Novell c-2、Novell d-2、Novell f-4、Novell f-5)没有测试活性,并选择它们进行预测测试。对于这14个新靶位点,用100个模型对重组酶序列进行了预测,这些模型是根据如上所述的全部训练数据进行训练的。每个模型的任务是预测100个重组酶序列,这导致每个新靶位点总共有10,000个重组酶序列。然后如上所述对每个靶位点最突出的预测重组酶序列进行排序和克隆。使用200g/ml L-阿拉伯糖,也按上述方法进行重组酶活性测定。使用Microsynth sanger测序服务对1.7 kb片段的凝胶切除产物(来自Bioline的分离II PCR和凝胶试剂盒,目录号BIO-52058)进行序列验证。

 

统计和再现性

采用R 4 . 1 . 1版进行统计分析。所有箱线图均符合标准定义:中心线为中位值,箱型限值为上四分位数和下四分位数,晶须为1.5倍四分位数范围,点显示异常值。统计检验的相关详情见图图例。对于重组质粒分析或重组PCR分析,未复制显示重组活性的代表性凝胶图片。未使用统计学方法预先确定样本量。分析中未排除任何数据。这些实验不是随机的。


代码可用性

RecGen的代码可在以下网址找到https://github.com/ltschmitt/RecGen 68

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
24eTNZKd6a8S