未来合成生物学与人工智能会对世界产生哪些影响

发布于 2022-05-19 13:06

劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory,LBNL 或LBL)、美国空军研究实验室(Air Force Research Laboratory 缩写AFRL)等机构的研究人员合作,对人工智能在合成生物学中的应用现状、影响、挑战以及潜力与前景进行了较为系统的阐述。
该综述以「Artificial Intelligence for Synthetic Biology」为题,于 2022 年 5 月发布在《Communications of the ACM》,以下为文章内容全译。


在过去的二十年里,生物学发生了巨大的变化,使生物系统的有效工程成为可能。基因组革命提供了对细胞遗传密码(DNA)进行测序的能力,是这一巨大变化的主要驱动力。这场基因组革命带来的最新发现和工具之一是能够使用基于 CRISPR 的工具在体内精确编辑 DNA。
遗传密码的更高层次的表现,例如蛋白质的产生,被称为表型(如图 1)。高通量表型数据与精确 DNA 编辑相结合,为将底层代码的变化与表型联系起来提供了独特的机会。


图 1:组学数据体现了细胞遗传密码(DNA)的高级表现。(来源:论文)

重要见解

合成生物学(Synbio)旨在设计符合规范的生物系统(例如,产生所需数量的生物燃料或以特定方式对外部刺激作出反应的细胞)。为此,合成生物学家利用工程设计原则利用工程的可预测性来控制复杂的生物系统。这些工程原理包括标准化的遗传部分和设计-构建-测试-学习(DBTL)循环,反复使用以实现预期结果。
Synbio DBTL 循环使预期的四个阶段适应该学科,如下所示:
1、设计:假设可以实现预期设计目标的 DNA 序列或一组细胞操作。
2、构建:在生物系统上实施设计步骤。这主要涉及 DNA 片段的合成及其成功转化为细胞。
3、测试:生成数据以检查测量的表型与预期目标的接近程度,并评估任何脱靶或不可预见的副作用的影响。
4、学习:利用测试数据来学习比随机搜索更有效地推动循环达到预期目标的原则。这通常包括对由不可预见的脱靶效应引起的故障的诊断。人工智能 (AI) 可用于为下一组设计提供信息,从而减少实现预期结果所需的 DBTL 迭代次数。
更具体地说,Synbio 通常涉及基因组水平的操作,以推动细胞产生特定产品或以某种方式表现。
我们是一群 AI 从业者,希望在各种应用中将 AI 原理应用到 Synbio 中。在本文中,我们试图为其他 AI 从业者提供该领域的潜力、一些初步成功以及将 AI 技术应用于 Synbio 领域时面临的主要挑战的概述。
我们的目标是激励人工智能从业者应对这些挑战,并促进对未来社会产生重大影响的学科的参与。当大型数据集和技术爱好者相遇时,人工智能出现了重大突破。图像和自然语言处理就是很好的例子。我们相信生物学,特别是 Synbio,为这两个领域的突破提供了无与伦比的机会。

Synbio 的潜力

Synbio 已准备好对世界上的每个活动部门产生变革性影响:食品、能源、气候、医药和材料(见图 2)。Synbio已经生产出胰岛素,而无需牺牲猪来换取它们的胰脏(在前一阶段,作为基因工程)、合成皮革、从未见过蜘蛛的蜘蛛丝制成的大衣、抗疟疾和抗癌药物、味道像肉的无肉汉堡包、可再生生物燃料、不含啤酒花的啤酒花味、灭绝花朵的气味,用于化妆品应用的合成人类胶原蛋白,以及消除携带登革热的蚊子的基因驱动。许多人认为这只是冰山一角,因为改造生物的能力提供了看似无限的可能性,而且该领域的公共和私人投资水平不断提高(见图 3)。


图 2:Synbio 可能会影响世界上的每个活动部门。(来源:论文)

此外,随着人工智能进入第三波浪潮,专注于将上下文整合到模型中,其影响 synbio 的潜力也在增加。众所周知,生物体的基因型与其说是表型的蓝图,不如说是一个复杂的、相互关联的动态系统中的初始条件。
生物学家花费了数十年的时间来构建和管理大量属性,例如调节、关联、变化率和功能,以表征这个复杂的动态系统。
其他资源,例如基因网络、已知功能关联、蛋白质-蛋白质相互作用、蛋白质-代谢物相互作用以及用于转录、翻译和相互作用的知识驱动的动态模型,提供了丰富的资源来丰富具有上下文的 AI 模型。模型可解释性对于发现新颖的设计原则也至关重要。
这些模型为生物学家提供了一个机会来回答有关生物系统的复杂得多的问题,并建立综合的、可解释的模型来加速发现。知识和资源的增加在 Synbio 出版物的数量以及 Synbio 的商业机会中显而易见(图 3)。


图 3:学术(a)和商业(b)领域的显著增长为人工智能在合成生物领域的应用提供了丰富的信息、数据和背景资源。(来源:论文)

人工智能及其对 Synbio 的当前影响

与影响合成生物领域的潜力相比,人工智能对合成生物的影响有限。我们已经看到了人工智能的成功应用,但它们仍然局限于特定的数据集和研究问题。挑战仍然是看看这些方法对更广泛的应用程序和其他数据集的推广程度。数据挖掘、统计和机械建模目前是该领域计算生物学和生物信息学的主要驱动力,它们与人工智能/机器学习(ML)之间的界限通常很模糊。
例如,聚类是一种数据挖掘技术,可识别基因表达数据中的模式和结构,这些模式可以表明工程改造是否会导致细胞毒性结果。这些聚类技术也可以用作在未标记数据集中找到结构的无监督学习模型。随着更大的数据集变得普遍可用,这些正在开发中的经典技术和新颖的 AI/ML 方法将在 Synbio 的未来发挥更大的作用和影响。
转录组学数据量每七个月翻一番,蛋白质组学和代谢组学的高通量工作流程变得越来越可用。此外,实验室工作通过微流体芯片逐步实现自动化和小型化,预示着未来数据处理和分析将成为合成生物的主要生产力倍增器。
DARPA 的协同发现与设计(SD2,2018-2021)计划专注于构建 AI 模型以解决这一差距。这在一些在该领域最先进的公司中也很明显(例如,Amyris、Zymergen 或 Ginkgo Bioworks)。
AI 和 Synbio 在几个方面相交:将现有 AI/ML 应用于现有数据集;生成新数据集(例如,即将推出的 NIH Bridge2AI);并创建新的 AI/ML 技术以应用于新的或现有的数据。尽管 SD2 在最后一个类别中做了一些工作,但仍有许多工作和潜力。
人工智能可以帮助克服的 Synbio 的一个基本挑战涉及预测生物工程方法对宿主和环境的影响。在没有预测生物工程结果的能力的情况下,Synbio 将细胞工程化为规范(即逆向设计)的目标只能通过艰苦的试错来实现。人工智能提供了一个机会,可以使用公开数据和实验数据来预测对宿主和环境的影响。
设计用于编程细胞的遗传结构。许多 Synbio 的努力都集中在工程基因构建体/电路上,这与设计电子电路提出了非常不同的挑战。基因构建体旨在引发细胞的特定反应,就像电子电路旨在提供对电子系统的控制一样。虽然我们可以合成 DNA 并将其转移到细胞中,但这种转移对动态活生物体的细胞机制的全球影响尚不完全清楚或目前无法预测。相比之下,电气工程师拥有「静态」设计电子电路板以执行各种功能的工具,并且不会以有害的方式影响电路板。活细胞的物理学和生物学背后的规则是复杂的、相互交织的,需要付出巨大的努力才能发现。总之:

电路板设计


  • 用于实现所需电路输出的已知部件组。

  • 印刷电路板对门/电路的影响可以忽略不计,反之亦然。

  • 存在零件和电路板的定性和定量模型以稳健地预测电路性能。


活细胞设计


  • 基因构建体旨在实现细胞的某些反应。

  • 不能忽视活细胞对构建体的影响,反之亦然。

  • 预测性能的模型必须同时考虑宿主和构造动态。


人工智能技术已被利用,结合已知的生物物理、机器学习和强化学习模型来有效地预测构造对主机的影响,反之亦然,但仍有很大的改进空间。例如,对于机器辅助的基因电路设计,已经应用了多种人工智能技术。
它们包括专家系统、多智能体系统、基于约束的推理、启发式搜索、优化和机器学习。基于序列的模型和图卷积网络在工程生物系统领域也获得了。因子图神经网络已被用于将生物学知识整合到深度学习模型中。图卷积网络已被用于从蛋白质-蛋白质相互作用网络预测蛋白质的功能。
基于序列的卷积和循环神经网络模型已被用于识别蛋白质的潜在结合位点、基因的表达以及新生物构建体的设计。人工智能的一些最有用的应用将是开发综合模型,这将减少需要进行(或测试)的实验(或设计)的数量。
代谢工程。在代谢工程中,人工智能已应用于生物工程过程的几乎所有阶段。例如,人工神经网络已被用于预测翻译起始位点、注释蛋白质功能、预测合成途径、优化多个异源基因的表达水平、预测调控元件的强度、预测质粒表达、优化营养浓度和发酵条件、预测 酶动力学参数,了解基因型-表型关联,并预测 CRISPR 指导功效。
聚类已被用于寻找次级代谢物生物合成基因簇并识别催化特定反应的酶。集成方法已被用于预测通路动力学、最佳生长温度,并在定向进化方法中找到赋予更高适应性的蛋白质。支持向量机已被用于优化核糖体结合位点序列并预测 CRISPR 指导 RNA 的活性。最有希望应用人工智能的代谢工程阶段是:工艺放大、下游加工(例如,从发酵液中系统地提取产生的分子)。
实验自动化。在帮助自动化实验室工作和推荐实验设计方面,人工智能的影响已经远远超出了 DBTL 周期的「学习」阶段。自动化正逐渐成为一种关键实践,作为获取训练 AI 算法和实现可预测的生物工程所需的高质量、大容量、低偏差数据的最可靠方式。
自动化提供了将复杂协议快速传输和扩展至其他实验室的机会。例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。这些代工厂已经看到他们的能力被机器人技术和规划算法彻底改变,从而实现了 DBTL 周期的快速迭代。语义网络、本体和模式已经彻底改变了设计和协议的表示、通信和交换。
这些工具支持快速实验并以结构化、可查询的格式生成更多数据。在大多数上下文丢失或在实验室笔记本中手动捕获的领域中,人工智能的承诺迫使该领域发生重大变化,以减少生成数据的障碍。
微流体代表了宏观液体处理器的替代品,可提供更高的通量、更少的试剂消耗和更便宜的缩放。事实上,微流控技术可能是实现自动驾驶实验室的关键技术,它有望通过使用人工智能增强自动化实验平台来大幅加速发现过程。
自动驾驶实验室涉及全自动 DBTL 循环,其中 AI 算法通过基于先前实验假设其结果来主动搜索有希望的实验程序。因此,它们可能代表了合成生物领域人工智能研究人员的最大机会。虽然已经在液体处理机器人站中展示了自动化 DBTL 回路,但微流控芯片提供的可扩展性、高通量能力和制造灵活性可能会提供最终的技术飞跃,使科学家 AI 成为现实。
挑战
人工智能已经开始进入各种合成生物应用,但主要的技术和社会学障碍继续将这两个领域分开。
技术挑战。将 AI 应用于 Synbio 的技术挑战(见图 4)是数据分散在不同的模式中,难以组合,非结构化,并且通常缺乏收集它们的上下文;模型需要的数据比通常在单个实验中收集的要多得多,并且缺乏可解释性和不确定性量化;并且没有指标或标准可以有效评估手头较大设计任务中的模型性能。此外,实验通常旨在仅探索积极的结果,从而使模型的评估复杂化或产生偏差。


图 4:将 AI 技术与 Synbio 应用程序集成的挑战。(来源:论文)

数据挑战。缺乏适当的数据集仍然是人工智能与合成生物学相结合的第一个主要障碍。将 AI 应用于合成生物学需要来自单个实验的大量标记、精选、高质量、上下文丰富的数据。尽管该社区在建立包含各种生物序列(甚至全基因组)和表型的数据库方面取得了进展,但标记数据的匮乏。「标记数据」是指映射到捕获其生物学功能或细胞反应的测量值的表型数据。正是这些测量和标签的存在将推动 AI/ML 和 Synbio 解决方案的成熟,以与人类能力相媲美,就像它在其他领域所做的那样。
缺乏对数据工程的投资是缺乏适当数据集的部分原因。人工智能技术的进步往往掩盖了支持和确保其成功的计算基础设施要求。AI 社区将这种规范的基础设施称为需求金字塔(参见图 5),其中数据工程是一个重要组成部分。数据工程封装了实验计划、数据收集、结构化、访问和探索步骤。
成功的 AI 应用案例涉及标准化、一致且可重复的数据工程步骤。虽然我们现在可以以前所未有的规模和细节收集生物数据,但这些数据通常并不适合机器学习。
在采用社区范围的标准来存储和共享测量、实验条件和其他元数据方面仍然存在许多障碍,这将使它们更适合人工智能技术。需要进行严格的形式化工作和达成共识,以使此类标准迅速采用并促进数据质量评估的通用指标。
简而言之,人工智能模型需要在所有实验中进行一致且可比较的测量,这会延长实验时间。对于已经遵循复杂协议进行科学发现的实验者来说,这一要求增加了巨大的开销。因此,通常会牺牲数据收集的长期需求来满足此类项目通常施加的紧迫期限。


图 5:规范的 AI/ML 基础设施可以支持 Synbio 研究。中间阶段往往是的焦点,但基础至关重要,需要大量资源投入。

这种情况通常会导致稀疏的数据集合,这些数据集合仅代表构成组学数据堆栈的多个层的一小部分(如图 1 所示)。在这些情况下,数据表示对集成这些孤立数据集以进行全面建模的能力有重大影响。如今,在执行数据清理、模式对齐以及提取、转换和加载操作 (ETL) 的各种垂直行业中花费了大量精力,以收集和准备不规则的数字数据,并将其转换为适合分析的形式。
这些任务占据了数据科学家近 50% 到 80% 的时间,限制了他们提取见解的能力。对合成生物学研究人员来说,处理各种各样的数据类型(数据多模态)是一个挑战,与数据量相比,数据多样性使预处理活动的复杂性急剧增加。
建模/算法挑战。在分析组学数据时,许多推动当前人工智能进步的流行算法(例如,在计算机视觉和自然语言处理领域)并不可靠。当应用于特定实验中收集的数据时,这些模型的传统应用通常会遭受「维度灾难」(参见图 6)。
例如,单个实验人员可以在特定条件下为生物体生成基因组学、转录组学和蛋白质组学数据,这些数据将提供超过 12,000 次测量(维度)。
此类实验的标记实例数(例如,成功或失败)通常最多在数十到数百个之间。对于这些高维数据类型,很少能捕捉到系统的动态(时间分辨率)。这些测量差距使得对复杂动态系统的推论成为一项重大挑战。


图 6:维度的诅咒。(来源:论文)

组学数据与其他数据模式(如序列数据、文本数据和基于网络的数据)有相似之处和不同之处,但经典方法并不总是适用。共享数据特征包括位置编码和依赖关系,以及复杂的交互模式。然而,存在一些根本差异,例如:它们的基本表示、有意义的分析所需的上下文以及跨模式的相关标准化以进行生物学有意义的比较。
因此,很难找到能够准确表征组学数据的稳健类别的生成模型(类似于高斯模型或随机块模型)。此外,生物序列和系统代表了生物功能的复杂编码,但很少有系统的方法可以像我们从书面文本中解释语义或上下文那样来解释这些编码。
这些不同的特征使得通过数据探索提取洞察力并生成和验证假设变得具有挑战性。工程生物学涉及学习黑盒系统的挑战,我们可以在其中观察输入和输出,但我们对系统内部运作的了解有限。考虑到这些生物系统在其中运行的组合、大参数空间,战略性和有效地设计实验以探测和询问生物系统以进行假设生成和验证的 AI 解决方案在该领域提出了巨大的需求和机会。
最后,许多流行的 AI 算法解决方案没有明确考虑不确定性,也没有显示出在输入扰动下控制错误的稳健机制。考虑到我们试图设计的生物系统中固有的随机性和噪声,这一基本差距在 Synbio 领域尤为重要。

文章来源:ScienceAI




   华夏国创拥有丰富的智能制造,生物医药,碳中和,数字化转型,人工智能,新材料,中医药等行业专家及企业的资源智库,专注企业金融,管理,产业链对接等各项服务。详情咨询:18500298017赵老师


本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材