首页 > 科技 > 蛋白质和自然语言:人工智能使设计新型蛋白质成为可能

蛋白质和自然语言:人工智能使设计新型蛋白质成为可能

编辑 | 萝卜皮

蛋白质设计旨在构建针对特定目的定制的新型蛋白质,从而具有解决许多环境和生物医学问题的潜力。基于 Transformer 的体系结构的最新进展已经实现了能够生成具有类人能力的文本的语言模型。

受这一思想启发,拜罗伊特大学的研究人员描述了 ProtGPT2,这是一种在蛋白质空间上训练的语言模型,它按照自然的原则生成从头蛋白质序列。生成的蛋白质显示出天然氨基酸倾向,而无序预测表明 ProtGPT2 生成的蛋白质中有 88% 是球状的,与天然序列一致。

蛋白质数据库中的敏感序列搜索表明 ProtGPT2 序列与自然序列关系较远,相似性网络则进一步表明 ProtGPT2 是在对蛋白质空间的未探索区域进行采样。

ProtGPT2 序列经 AlphaFold 预测,可产生具有实施例和大循环的良好折叠的非理想化结构,这也揭示了当前结构数据库中未捕获的拓扑。

ProtGPT2 可在几秒钟内生成序列并且免费。

该研究以「ProtGPT2 is a deep unsupervised language model for protein design」为题,于 2022 年 7 月 27 日发布在《Nature Communications》。

近年来,自然语言处理(NLP)取得了非凡的进步。大型预训练语言模型已经彻底改变了 NLP 领域,随之而来的是人们日常生活中使用的许多工具,例如聊天机器人、智能助手或翻译机。领域内研究人员早就注意到蛋白质序列和人类语言之间的类比。蛋白质序列可以描述为来自化学定义字母表的字母、天然氨基酸的串联,并且像人类语言一样,这些字母排列形成二级结构元素(单词),这些元素组合形成域(句子) 承担某种功能(意义)。

最吸引人的相似之处之一是蛋白质序列,就像自然语言一样,是信息完整的:它们以极高的效率完全按照氨基酸顺序存储结构和功能。随着 NLP 领域在理解和生成具有接近人类能力的语言方面的非凡进步,假设这些方法为仅从序列解决蛋白质相关问题(例如蛋白质设计)打开了一扇新的大门。尽管蛋白质序列和人类语言并非没有差异,但几十年来,它们的类比激发了应用 NLP 方法解决蛋白质研究问题。

有监督的 NLP 方法,其中输入序列与其标签联合训练以产生预测模型,已应用于各种任务,例如检测结构相似性或预测稳定性。BioSeq-BLM 平台提供了大量应用于生物分子的监督语言模型。然而,自从 Transformer 诞生以来,在未标记数据上进行训练的无监督学习已经成为一种通用的语言建模工具。一些基于 Transformer 的模型,例如 TCR-BERT、epiBERTope、ESM、ProtTrans 或 ProteinBERT,已经证明与其他方法相比非常具有竞争力。

这些模型中的大多数使用类似 BERT 的架构和去噪自动编码训练目标,即,它们通过以某种方式破坏输入标记并尝试重建原始句子来进行预训练。尽管这些模型可以针对生成进行调整,但它们最直接的应用是序列嵌入。

语言模型的另一个重要分支受益于自回归训练,即模型被训练来预测给定上下文的后续单词。这些模型,其中最著名的可能是 GPT-x 系列,擅长生成长而连贯的文本——有时甚至引发了很多关于它们潜在滥用的争论。蛋白质自回归语言模型,如 ProGen、RITA 和 DARK 也已被研究,并显示了自回归 Transformer 用于蛋白质设计的潜力。

受到这些工作和 GPT-x 系列等英语模型不断增强的能力的启发,研究人员想知道是否可以训练生成模型来(i)有效地学习蛋白质语言,(ii)生成合适、稳定的蛋白质 ,以及 (iii) 了解这些序列与自然序列的关系,包括它们是否对蛋白质空间中看不见的区域进行采样。

拜罗伊特大学的研究人员提出了 ProtGPT2,这是一种自回归 Transformer 模型,具有 7.38 亿个参数,能够以高通量方式生成从头蛋白质序列。ProtGPT2 在对跨越整个蛋白质空间的大约 50 个未注释的百万序列进行训练后,有效地学习了蛋白质语言。

图示:在上下文输入后 GPT2-large 具有不同采样参数的示例。(来源:论文)

ProtGPT2 生成的蛋白质序列具有与天然序列相当的氨基酸和紊乱倾向,同时与当前的蛋白质空间「进化」相距甚远。二级结构预测计算出 88% 的序列是球状的,与天然蛋白质一致。使用相似性网络表示蛋白质空间表明,ProtGPT2 序列通过扩展自然超家族来探索蛋白质空间的「黑暗」区域。

图示:三个数据集之间的 Rosetta 和分子动力学计算的比较。(来源:论文)

ProtGPT2 可以生成与自然序列关系较远的序列,其结构类似于已知的结构空间,具有非理想化的复杂结构。由于 ProtGPT2 已经在整个序列空间上进行了训练,因此该模型产生的序列可以对任何区域进行采样,包括暗蛋白质组和传统上被认为在蛋白质设计领域非常具有挑战性的区域,例如全β结构和膜蛋白。

ProtGPT2 蛋白与远相关的天然蛋白结构的视觉叠加表明,ProtGPT2 还捕获了功能决定因素,保留了配体结合相互作用。由于人工蛋白质的设计可以解决许多生物医学和环境问题,研究人员认为蛋白质语言模型将有非凡的潜力。

图示:ProtGPT2 生成的蛋白质空间和蛋白质示例的概述。(来源:论文)

ProtGPT2 设计可在几秒钟内拟合球状蛋白质,无需在标准工作站上进行进一步培训。ProtGPT2 可以通过在用户选择的一组序列上微调模型来适应特定的家族、功能或折叠。在这种情况下,ProtGPT2 将能够筛选与天然蛋白质相似的蛋白质,以改善、微调或改变天然蛋白质的特定生化功能。

图示:序列 357 和 475 的预测结构以及 FoldSeek 中各自得分最高的蛋白质的叠加。(来源:论文)

对 ProtGPT2 设计的蛋白质库进行大规模筛选可能会识别出结构数据库中未捕获的折叠蛋白质和在自然空间中没有相关对应物的功能。ProtGPT2 朝着高效的蛋白质设计和生成迈出了一大步,并为未来探索设计蛋白质的结构和功能参数及其后续实际应用的实验研究奠定了基础。未来的努力包括包含条件标签,这将使特定功能的受控生成成为可能。

模型和数据集:https://huggingface.co/nferruz/ProtGPT2

论文链接:https://www.nature.com/articles/s41467-022-32007-7

相关报道:https://phys.org/news/2022-08-proteins-natural-language-artificial-intelligence.html

人工智能×[ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_114443.html
上一篇鸿海8月营收达4489.06亿元新台币!再创同期新高
下一篇EDA 软件销售大幅增长,华大九天上半年营收净利双双大涨

为您推荐

盖茨盛赞ChatGPT:人工智能历史意义不亚于“PC或互联网诞生”

盖茨盛赞ChatGPT:人工智能历史意义不亚于“PC或互联网诞生”

腾讯科技讯 2月3日消息,微软联合创始人比尔·盖茨表示,像ChatGPT这样的AI聊天机器人将变得与个人电脑或互联网同样重要。盖茨今日接受采访时表示:“AI将成为2023年最热门的话题。这是不可避免的。”他随后补充道:“ChatGPT将变得与个人电脑、互联网同样重要。”盖茨在20世纪80年代帮助开创了个人电脑时代。在微软和苹果等
专访墨奇科技CEO邰骋:人工智能需要新的AI数据基础设施

专访墨奇科技CEO邰骋:人工智能需要新的AI数据基础设施

“人工智能要发展到下一代,必然需要基础理论和基础设施的革新,特别是需要新的 AI 数据基础设施。”9月2日,新京报贝壳财经记者获悉,在近日举办的HICOOL2022全球创业者峰会上,AI(人工智能)基础技术和平台墨奇科技的项目团队获得“HICOOL 2022 全球创业大赛一等奖”。墨奇科技联合创始人、CEO 邰骋接受了新京报贝壳财
人工智能大会将举办智慧体育高峰论坛,发布AI+体育蓝皮书

人工智能大会将举办智慧体育高峰论坛,发布AI+体育蓝皮书

2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。  主办方供图AI+体育,将成为世界人工智能大会的全新命题和新亮点。2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。论坛上将发布由上海人工智能研究院牵头,联合上海交通大学、上海体育学院、首都体育学院、同济大学等单位编制的国内首本《“AI+体育”蓝
大脑还有多少秘密?世界人工智能大会首开脑机接口主题论坛

大脑还有多少秘密?世界人工智能大会首开脑机接口主题论坛

在2022世界人工智能大会上,天桥脑科学研究院(简称TCCI)转化中心联合中国科学院上海微系统与信息技术研究所、脑虎科技、中国神经科学学会、上海市神经科学学会共同举办“脑·机智能融合-让大脑连接未来”论坛,这也是脑机接口首次以主题论坛的形式登陆世界人工智能大会。英国皇家工程院院士、上海交大医疗机器人研究院院
我国人工智能学科主要奠基人涂序彦逝世,享年 88 岁

我国人工智能学科主要奠基人涂序彦逝世,享年 88 岁

IT之家 3 月 28 日消息,据北京科技大学消息,我国人工智能领域著名科学家、人工智能学科的主要奠基人、中国人工智能学会的主要创始人之一、第二和第三届中国人工智能学会理事长、北京科技大学计算机与通信工程学院教授涂序彦先生,因病医治无效,于 2023 年 1 月 1 日 0 时 10 分在北京逝世,享年 88 岁。IT之家附讣告原文
梁建章:人工智能如何影响经济和各行各业

梁建章:人工智能如何影响经济和各行各业

近日人工智能再次成为了热门话题。很多人好奇的是,人工智能未来到底会如何影响经济、人口和创新?今天,我跟大家分享个人的一些看法——谈谈人工智能对于经济以及各行各业的影响。自从深度神经网络出现以来,人工智能的发展速度超乎想象。ChatGPT的出现是个奇迹,超出了几乎所有计算机科学家的预料。一个简单的神经网络模
疫情下,居家运动+有效摄入蛋白质=免疫力升级

疫情下,居家运动+有效摄入蛋白质=免疫力升级

“ 女士保持每日55g蛋白质摄入,男士需保持65g蛋白质摄入 ”系统提示:你的“新陈代谢”已减速!“免疫力”已下降!新陈代谢,关乎我们跳动的心脏、运转的大脑以及流动的血液。久坐不动、季节更替、不良的生活习惯,都会导致新陈代谢减速,免疫力下降。疫情居家下,有效的「运动+营养」,才是加速代谢,提高抵抗力的有效
AI炒股新纪元?头部量化私募幻方宣布全力探索人工智能应用

AI炒股新纪元?头部量化私募幻方宣布全力探索人工智能应用

头部量化私募幻方宣布成立新的独立的研究组织,探索AGI(即通用人工智能,Artificial General Intelligence)的本质。4月14日,幻方发布公告显示,幻方将集中资源和力量,全力投身到服务于全人类共同利益的人工智能之中,成立新的独立的研究组织,探索AGI的本质,“我们将充分而持续地投入,不做中庸的事,用最长期的眼光去
挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

挑战英伟达?微软拟推AI芯片雅典娜:训练大语言模型,成本省三分之一

为突围芯片短缺困境,微软拟推出自研人工智能芯片。当地时间4月18日,据美国科技媒体The Information报道,微软(Microsoft)准备推出人工智能芯片,为负责理解和生成类人语言的大型语言模型(LLM)提供动力。两位直接了解相关项目的人士透露,微软自2019年开始开发内部代号为“雅典娜”(Athena)的芯片。据悉,微软已向一
卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

在早期成功押注ChatGPT的研发公司OpenAI之后,市场发现,微软在其武器库中还拥有另一个秘密武器:自研人工智能芯片,这一芯片将为生成式AI背后的大型语言模型提供强大动力。4月18日周二,据媒体援引两位知情人士的话说,微软早在2019年就开始开发内部代号为Athena的AI芯片。其中一位知情人士称,一些微软和OpenAI的员工已经
真正的应用级量子人工智能距离我们还有多远?

真正的应用级量子人工智能距离我们还有多远?

·“量子科技是强国竞争的战略制高点,但不能一哄而上,低水平重复内卷,或片面追求发论文、抢专利,各自为战,闭门造车,而缺少真正的技术投入和系统配合。”·“当下量子系统的规模非常重要,而这很大程度上取决于芯片。”当前,发展量子计算和人工智能已成为世界各国的重要战略,两者交汇而生的量子人工智能更是发展迅速
返回顶部