药物发现 | 开源超高通量虚拟筛选药物设计平台

发布于 2021-04-03 23:13

上方  我们

新药创制从研发开始到最终上市是一个高投入、高风险和长周期的过程。根据新药研发各个阶段的成功率可以推测,平均每2,000~4,000个化学或生物分子中可筛选出100个先导化合物进入临床前研究阶段,其中约10个可以进入临床研究阶段,最终仅有1个能获得美国食品药品监管局的批准上市销售[1]

新药研发的失败风险可能由药物在不同研发阶段展现的不良性质导致,如临床前阶段表现出的安全性问题,或是临床阶段发现的药效不足问题[2]。由此可见提高药效、降低药物毒副作用仍然是药物研发拟解决的关键科学问题。随着全球医药行业进入分子诊疗的时代,各个药企均竞相追逐基于疾病分子靶标的药物研发策略。但可能由于该策略下使用的各种高新技术(如高通量筛选技术等)还存有缺陷,因此研发高失败率和低效率的现状未能明显改善[3]20世纪90年代后,以分子对接、同源模建、化学信息学、分子力学和量子力学为代表的计算方法越来越多被用于辅助药物的发现,渗透到了药物研发产业的各个环节,产生了深远的影响。

现今,研发初期基于结构的虚拟筛选功能即可能缓解现有问题;随着筛选的化合物数量上升,命中化合物的总体质量亦会提升。当前已存在大量的公开或商业化合物数据库,可对化学空间中约106~107量级的分子进行采样,但相对于总空间1060量级的数据量,采样覆盖率显然并不足够。目前尚无高速、高效且灵活的大规模集群虚拟筛选,因此本次分享的文章中作者Gorgulla等人[4]发展了一款自动化的通用虚拟筛选平台VirtualFlow,可高效完成从小量到超大数据规模下的虚拟筛选准备与计算工作。

VirtualFlow
在构建了真阳性率-参与筛选化合物数的筛选结果概率模型后,作者使用超大型虚拟筛选分析证实,随化合物库规模扩展,虚拟筛选的平均打分将会上升,打分最好的化合物的真阳性率也有上升;提高虚拟筛选库包含的化合物数量可以提高命中化合物的质量。在大规模库中也可更大幅度地提高亲和力判定阈值以获得具有更好活性与低脱靶效应的化合物;或是寻找具有更好药代动力学性质及更低固有细胞毒性的化合物。因此为获取上述优势,现有的虚拟筛选方法需要作出改进以适应更高规模的化合物库。
为了适应数量级增加的虚拟筛选化合物库规模,研究人员急需开发一款可整合虚拟筛选过程中各项任务的平台系统,可在任意类型的单一或集群计算资源上随部署CPU核心数弹性扩展以便处理高达数十亿的输入、输出分子,并具有强的鲁棒性(如略过包含结构错误的文件、发生意外终止时的恢复机制与简报等)以及提供易用、用户友好的交互功能,从而适合非计算相关专业的研究者使用。

图1:VirtualFlow工作流程示意图[4]
基于以上需要,作者设计了可应对超大规模虚拟筛选计算需求的开源平台VirtualFlow。相比于个人使用单CPU核心对接(虚拟筛选)一个分子平均需要15秒,筛选包含10亿个化合物的库则需约475年;VirtualFlow则可同时利用10,000CPU核心在2周内完成这一任务。此平台可兼容多数对接程序,并以工作流方式提供便利的流程处理方式,允许在同一流中执行多种对接场景(如依次进行刚性及柔性对接、低精度与高精度对接等)。平台运作流程图如上图1所示,以下对此进行介绍。
VirtualFlow的特性介绍
此计算平台可根据CPU数量线性扩展,并支持多数常见计算机集群、云服务系统及任务调度系统;平台可自动按序执行虚拟筛选管线任务,全程支持监视与动态控制。整个平台系统主要分为两个部分:配体准备模块与虚拟筛选模块。
1)配体准备模块(VirtualFlow for LigandPreparation, VFLP
VFLP接受SMILES格式表示的配体数据库,并尝试将其转换为指定的任意目标格式,以符合实际虚拟筛选时对接程序的需求。它采用JChemOpenBabelChemAxon处理输入的配体,执行去盐、电中性化、生成可能的互变异构体、计算指定pH时的质子化状态、生成三维构象坐标等步骤,并最终产生指定格式的输出。
2)虚拟筛选模块(VirtualFlow forVirtual Screening, VFVS
VFVS需要用户指定一组“对接场景”,即一套对接方案、目标受体结构、对接参数(对接位点信息,柔性残基指定等)的组合。此模块当前直接支持AutoDock VinaQuickVina2SminaAutoDockFR等常用对接程序,用户可任意选择及组合以便发挥其各自优势,并可执行共识对接(consensus docking)操作以合并参考多个对接程序的结果。VFVS尚可将多种虚拟筛选方法分为多个阶段串联使用,下一阶段的输入为上一阶段输出中一定比例的高排名候选化合物,以平衡准确度、阳性率与总计算开销,如图2a所示。此处的多个串联的筛选方法可以是简单的精度逐级提高,也可以是由半柔性对接到关键残基柔性对接等。显然,随着准确程度的提高,计算耗时也将逐级上升。

2 虚拟筛选模块多阶段串联工作流示意图[4]
VFVS需要用户指定一组“对接场景”,即一套对接方案、目标受体结构、对接参数(对接位点信息,柔性残基指定等)的组合。此模块当前直接支持AutoDock Vina、QuickVina2SminaAutoDockFR等常用对接程序,用户可任意选择及组合以便发挥其各自优势,并可执行共识对接(consensus docking)操作以合并参考多个对接程序的结果。VFVS尚可将多种虚拟筛选方法分为多个阶段串联使用,下一阶段的输入为上一阶段输出中一定比例的高排名候选化合物,以平衡准确度、阳性率与总计算开销,如图2a所示。此处的多个串联的筛选方法可以是简单的精度逐级提高,也可以是由半柔性对接到关键残基柔性对接等。显然,随着准确程度的提高,计算耗时也将逐级上升。
VirtualFlow发现靶向KEAP1小分子
为观察VirtualFlow平台的表现,作者以实际靶标KEAP1为例,采用超大规模虚拟筛选库进行了验证性计算。
KelchECH相关蛋白1Kelch-like ECH-associated protein 1, KEAP1)与核因子红细胞相关因子2nuclear factor eryrhroid-derived 2-related factor 2, NRF2)体系与多种疾病密切相关,在细胞氧化应激与炎症的抵抗中起关键作用。通常情况下,具有抵抗氧化应激、细胞修复作用的NRF2E3泛素连接酶KEAP1靶向降解;但在氧化应激条件下,活性氧化剂可阻断这一过程,致使NRF2释放并激活约250个下游基因的转录并发挥抵抗作用。采用特定的小分子阻断这一蛋白-蛋白相互作用是目前的研究挑战之一。
作者这里针对KEAP1上的NRF2结合界面,采用VirtualFlow筛选了含约13亿化合物的烯胺REAL库及约3.3亿化合物的ZINC15库(两者间有交集,共有超过14亿个分子)。阶段一为QuickVina2刚性对接,筛选出打分排名前300万的候选分子;阶段二的输入为阶段一的输出,其为关键残基柔性对接,筛选出打分排名前1万的分子。两个阶段的高排名化合物经过成药性、化学结构多样性及获取难度等条件的筛选后,作者选取590个苗头化合物进行了活性验证;最终获得了2个具有纳摩尔级活性的代表性化合物iKEAP1iKEAP2,如图3所示。此计算在有约8,000个核心的Linux集群上花费约4周时间完成。

3 VirtualFlow筛选结果中2个活性化合物对接及测活信息图[4]

为进一步演示VirtualFlow的多阶段对接工作流使用,作者在图1所示的步骤中将阶段一虚拟筛选获得的约300万个排名靠前的分子输入重打分程序,并在此阶段中指定了KEAP1的NRF2结合区域中13个关键残基为柔性残基,并使用Smina Vinardo与AutoDock Vina分别独立执行了重打分,以进一步提高虚拟筛选过程中对各配体构象空间的采样率。作者称此操作的必要性取决于选择的靶标及可用的计算资源,在需要明确考虑靶标相互作用界面柔性的情况下,此操作应具有较高价值。

小结
平均而言,一款药物的获批背后是约20~30亿美元的花费与超过10年的研发周期。一部分原因即是实验类型方法的高时间与成本消耗,及较低的活性化合物命中率及高的临床前研究终止率;计算机辅助药物设计方法中的虚拟筛选则有可能缓解此类问题。基于结构的虚拟筛选方法表现可随筛选化合物库规模提高而提升,其给出的高排名化合物质量亦有提升。
本文作者在此发展了一种高效灵活的超大规模虚拟筛选开源平台VirtualFlow,可弹性利用计算资源完成任意量级的虚拟筛选计算任务。平台可有效利用多种常见分子对接程序,并完成协同、串联等复杂的工作流处理,最终产生超大规模化合物库中的虚拟筛选结果。利用此平台,作者以KEAP1NRF2的结合界面阻断为目的,从含有超过14亿个分子的化合物库中快速筛选获得了2个阻断剂,实验测定发现其具有纳摩尔级别的活性。
VirtualFlow拥有更高的命中率,更快的速度与更灵活的处理能力,可望在超大规模虚拟筛选的应用场景中展示其能力。

参考文献

[1] Van Norman, G. A. Drugs, devices, and theFDA: Part 1: an overview of approval processes for drugs. JACC: Basic to Translational Science 2016, 1 (3): 170-179.

[2] Kola, I.; Landis, J. Can the pharmaceuticalindustry reduce attrition rates? NatureReviews Drug Discovery 2004, 3(8): 711.

[3] Swinney, D. C.; Anthony, J. How were newmedicines discovered? Nature Reviews DrugDiscovery 2011, 10 (7): 507.

[4] ChristophGorgulla, Andras Boeszoermenyi, Zi-Fu Wang, etal. An open-source drug discovery platform enables ultra-large virtualscreens. Nature 2020, 580: 663-668.


供稿:沈子豪
校稿:王洁
编辑:王洁
华东理工大学/上海市新药设计重点实验室/李洪林教授课题组
清明

招聘博后
华东理工大学李洪林教授团队诚聘博士后

Li's Lab
地址:上海市梅陇路130号 
电话:021-64250213
课题组网站:http://www.lilab-ecust.cn

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材