设计蛋白质药物从未如此简单？“上帝之手”距离我们还有多远

▎药明康德内容团队编辑

舒适的输液室中，一名患者躺坐在皮制沙发上，看着输液袋里的液体一滴一滴沿着透明的塑料管进入自己的身体。他使用的是一种最新的抗癌药物，已经将肿瘤的体积缩小了90%。医生说这是一种在自然界里不存在的蛋白质分子，根据他的疾病量身定制，所以才会对肿瘤如此有效。

在大卫·贝克（David Baker）脑子里瞬时闪过的千百个念头中，或许就有这样一个场景。这名华盛顿大学的知名科学家顶着一头蓬松的乱发，看起来倒更像是一位艺术家。但他的团队正要攻克一个巨大的科学难题——依赖人类的智慧，设计出大自然中不曾存在，具有特殊功能的蛋白质。它们具有诊断、治疗、乃至治愈疾病的潜力。

图片来源：David Baker实验室官网

✦

一

✦

在生物体内，蛋白质让很多科学家们着迷。这种分子的尺寸只有纳米大小，复杂程度却可以超过任何一台人造的机器，大自然的精妙由此也可见一斑。

这些复杂的蛋白质却由简单的氨基酸拼接而成，而每个氨基酸平均只有区区19个原子。由于这些氨基酸上细微的化学特性或是结构差别，一个蛋白质可以自发折叠成特殊的形状，在细胞内发挥特定的功能——有的可以结合DNA，控制基因的开关；有的可以识别病原体，启动免疫反应。

蛋白质折叠的过程听起来简单，科学家们却始终未能真正洞悉属于自然的奥秘。如果考虑到每个氨基酸至少有三种不同的构象，那么一个仅含有100个氨基酸的蛋白质，可能的结构就高达3的100次方种。连计算机都难以处理这个数字，更不用说是人力了。

▲蛋白质有着极其复杂的结构，又能执行极为精密的功能（图片来源：Thomas Splettstoesser, CC BY-SA 3.0, via Wikimedia Commons）

几十年前，即便是最简单的蛋白质，科学家们也难以预测其结构。当还在读大学的大卫想要对这个难题发起挑战时，他的导师劝他不要头脑发热，因为“没人知道这是怎么回事”。

听从了导师的建议，大卫将这一念头短暂封存，并在未来的诺奖得主Randy Schekman教授课题组获得了博士学位，主攻细胞生物学。但随后，他又想起了几年前的梦想。在获得教职后，大卫决定借助计算机的力量解决蛋白折叠问题——1996年，他与研究生们开始编写一个叫做Rosetta的程序。根据一段氨基酸序列，它或许能从天文数字般的可能性中，解出蛋白质的结构。

在自然界中，为了保持稳定，蛋白质总是折叠成具有“最低自由能”的形状。这就好像水会从高处往低处流，然后停留在那里一样。Rosetta程序并没有从这些天文数字中一一寻找自由能最低的形状，而是先分析蛋白质的生物物理特性，模拟出一个大致的形状，然后进行微调，只留下自由能更低的结果。这样一来，研究人员们可以更快预测出蛋白质的结构。

自1994年起，和大卫一样想要解开蛋白折叠之谜的生物学家们会定期聚在一起，检验各自的成果：就像考试一般，他们会拿到一个蛋白质的序列，然后预测出它的结构。随后，这些预测结构会和尚未公开，但通过实验方法已得到解析的真实结构进行比对，看哪一个结构更为接近。

在这个被誉为蛋白质结构领域“奥林匹克”的活动中，Rosetta程序总是最有力的竞争者，具有统治般的优势。然而在2018年，这一优势被终结了。

✦

二

✦

“我们要开始用机器学习了”。2018年末，大卫参加完一场会议后，突然对实验室的成员们来了这样一句话。

尽管Rosetta程序在过去展现出了预测蛋白结构的非凡能力，内行们却深知它的局限。通过生物物理特性进行蛋白结构预测的工具，使用的是一些基本的物理学规则，如两个原子相隔多少距离最合适，或是如何平衡静电和氢键的作用。但这毕竟只是模拟，不是真实的物理学，后者涉及到更复杂的量子领域，即便对于电脑也过于复杂。

但机器学习的方法可以让科学家们触及到更深的层次。一种叫做神经网络的算法可以模拟大脑的学习过程，使人工智能快速成为某一个领域的专家。比如在训练下，先进的算法可以从组织切片中找到癌症的蛛丝马迹，或是像机器学习的知名公司DeepMind一样，让它学会下围棋，或者预测蛋白结构。

在2018年的会议上，大卫团队的Rosetta依旧是表现最出色的程序，但来自DeepMind的一款叫做AlphaFold的机器学习算法横空出世，表现排名第二。大卫敏锐地嗅到了风向的变化，让他的团队研究机器学习，紧跟潮流。他的预感并没有错。两年后的会议上，第二代AlphaFold就击败了Rosetta，一举成名。

▲AlphaFold2在2020年一举成名（图片来源：DeepMind Blog）

去年7月15日，DeepMind公司在《自然》杂志上发表论文，公开了“AlphaFold2”的源代码，并且详细描述了它的设计框架和训练方法。

而大卫的团队也在同日于《科学》杂志上介绍了其开发的RoseTTAFold算法。这个神经网络能够同时考虑蛋白序列的模式，蛋白中不同氨基酸之间的相互作用，以及蛋白质可能出现的3D结构。在这个系统中，一维、二维和三维的信息能够相互交流，让神经网络综合所有信息，决定蛋白质的化学组成部分和它折叠产生的结构之间的关系。

研究人员表示，RoseTTAFold系统在解析蛋白质3D结构方面的表现，与AlphaFold2的水平几乎相当，在有些蛋白上甚至优于AlphaFold2。利用来自AlphaFold的公开信息，也得益于多年来对于机器学习的积累，这个算法的开发只用了区区几个月。

自那时起，

这两款算法

被全球数千家实验室所使用，用于预测所感兴趣的蛋白质的结构。它们并不完美，却能很快给出一个大概的方向。相比之下，传统的实验室解析技术需要好几年的时间。

但这只是一个起点。在预测蛋白质结构上取得突破之前，大卫早已转向了一个截然相反的方向：蛋白质的从头设计——理论上讲，如果真正理解了蛋白质的折叠原理，就能从头设计出自然界里不存在的新蛋白。换句话说，科学家们能根据一个具有特定形状的蛋白，倒推出其DNA序列。

✦

三

✦

从某种意义上讲，从头设计蛋白，要比预测蛋白结构又难上几个数量级。假设要设计一个由100个氨基酸组成的蛋白质，每一种氨基酸又有20种截然不同的可能，使得可能的总数高达20的100次方。

这个数字比整个宇宙中原子的总数还要多。

图片来源：ESA/Hubble, CC BY 4.0, via Wikimedia Commons

Rosetta曾经取得过一定的成功。从DNA序列到蛋白质结构，它能找到能量最低的形状。反过来，它也能用来推导为了构成这一形状所需的蛋白组件。此外，研究人员们还学会了如何像拆解乐高玩具一样，将一个蛋白质拆成螺旋或者桶装的小块，分块击破。

2003年，大卫的团队设计出了第一个无法在自然界中被找到的蛋白质，并管它叫Top7。

这当然是一个重要突破，却没有开辟一个崭新的时代。大卫实验室的成员开玩笑说Top7只是一块从热力学角度上看很稳定的“石头”。是的，这是他们从头设计出的第一个蛋白质，折叠成了研究人员们想要它折叠的模样，但它不具有任何功能。

过了7年，大卫的一名博士后研究员做出了改进。他将抗体的一部分连接到了人造蛋白上，使后者首度具有了功能：新合成的蛋白能识别流感病毒，有望成为一种新的药物，但这多少有些“作弊”的意思，毕竟最重要的那部分来自天然的抗体。

接下来的几年时间，该团队对Rosetta进行了更多的优化。如今，大卫的实验室，以及他的合作伙伴们已能设计出多种不同的蛋白。比如同在华盛顿大学工作的尼尔·金（Neil King）教授尝试让蛋白质自组装成纳米颗粒，用于递送疫苗或是基因疗法。

但从头设计蛋白依然是一个不断试错的工作，需要大量的资源投入。以设计结合蛋白为例，从流程上看，科学家会首先用Rosetta模拟出所感兴趣蛋白表面上的一个“口袋”，然后再设计出大量不同的螺旋结构，形成稳定骨架。这些骨架上含有一些特定的氨基酸，有可能会与“口袋”进行完美的契合。

这个工作就像是在一把钥匙上不断打磨，最终使其完美地对应一把锁。

随后，研究人员们会根据设计合成所要的DNA序列，将其引入细菌细胞，期望它们能够产生所需要的蛋白。获取这些蛋白后，他们还会做两个测试：评估这些蛋白是否能如预期般折叠，以及折叠后的蛋白是否能如预期般结合所感兴趣的蛋白。

通常来讲，人工设计的蛋白极少能同时满足这两个条件。

而那些脱颖而出的蛋白，则会成为新一轮设计与筛选的起点，直至获得最佳的构象。

✦

四

✦

这并不是人工设计蛋白唯一的问题。除此之外，一个很容易被提及的问题是，这些蛋白与传统的抗体药物相比有何优势？几十年的发展下，抗体类药物已被证明安全有效，医药公司们也知道如何开发它们。而对于人工设计的蛋白，没人知道它的安全性如何——如果它们会引起强烈的免疫反应该怎么办？

这可能就涉及到另一个更为哲学的问题：什么是蛋白质？没错，许多科学家们能通过电脑程序，设计出他们想要的氨基酸链，并折叠成它们想要的形状，但这些新的分子和自然界中的蛋白质并不相像，充满了人工的痕迹。让人工设计的蛋白更接近自然，也是科学家们未来的发展方向。

又或许，我们没有必要一步登天。近日，一家名为Monod Bio的新锐公司宣布获得了2500万美元的种子轮投资，用于人造蛋白的设计。其首席执行官和首席科学官都来自于大卫的课题组。这家公司开发的不是药物，而是生物传感器。

传统的传感器往往使用电子芯片做的。而这家公司使用的蛋白传感器可以按需进行设计，检测疾病。如果样本中存在某种疾病相关的分子，蛋白传感器就能发出特定的光，而光的强度则代表了这些疾病相关分子的浓度。

而由于生物传感器的便捷性，在收集完样品后，研究人员们有望可以在几分钟内获得结果，而无需前往实验室进行复杂的分析。

倘若取得成功，这无疑会为人工设计蛋白开辟更大的发展天地。而如果要展望未来，大卫曾在一场TED演讲中提到了更多：通过应用创新的氨基酸，我们或许能扩展20个氨基酸的上限，产生更多元，具有更多功能的蛋白质。

此外，这些人造蛋白不仅可以用于疾病的诊断或是治疗，还能用于其他的方面。譬如经过精准设计，这些蛋白质可以靶向特定的细胞群体，促进精准的药物递送。此外，以这些人造蛋白为主体的新兴生物材料，还有望解决日趋严重的能源和生态问题。

这些目标看似遥远，却并非遥不可及。近期，《科学》上的一篇论文指出可通过蛋白质从头设计，产生一系列与红细胞生成素受体结合的配体，可能影响红细胞的复制存活，以及协助修复神经的损伤。另一篇《自然》上的论文也报道，科学家们设计出了一种类似天然IL-2，却不会产生相应毒性的新型蛋白，在小鼠模型中展现了治疗黑色素瘤与结直肠癌的活性。

尽管有不少人表示怀疑，大卫却充满乐观。他预计在5-10年的时间里，这一领域将迎来新的突破。“这么激动人心的时刻在科学生涯里并不常见。”他说道。

药明康德为全球生物医药行业提供一体化、端到端的新药研发和生产服务，服务范围涵盖化学药研发和生产、生物学研究、临床前测试和临床试验研发、细胞及基因疗法研发、测试和生产等领域。如您有相关业务需求，欢迎点击下方图片填写具体信息。