|
原标题:腾讯刘伟:AI药物发现存在一个中心问题,即模型是不是具备泛化才能 | MEET2023
萧箫 整顿自 MEET2023
量子位 | 大众号 QbitAI
AI制药,一个被称作明星赛道的行业。
不只融资动静隔三差五传出,更被以为是计算生物最有但愿落地的畛域。
据量子位智库预测,AI制药行业国际市场激进估量将达到2040亿元范围。
在这样的前景下,不只国际外高校博士生和传授纷纭投身守业,就连互联网大厂们也争相入资角逐。
如今AI制药步入热度顶峰后的瓶颈冲破期,各玩家的差别性也逐渐浮现。
作为国际互联网巨头的腾讯,比拟直接投资,三年前选择间接成立AI制药平台,成为赛道上角逐玩家之一。
当初,腾讯AI制药平台效果停顿如何?比拟同赛道玩家,其竞争劣势是不是得以体现?
在MEET 2023大会上,腾讯医疗安康AIDD技术担任人 刘伟,从腾讯制药AI算法理论的角度讨论了这一行业以后的现状。
cd4w51z1qvz.jpg
为了残缺体现刘伟的分享及思考,在不改动原意的根底上,量子位对他的演讲内容进行了编纂整顿。
对于MEET智能将来大会:MEET大会是由量子位主办的智能科技畛域顶级商业峰会,努力于讨论前沿科技技术的落地与行业运用。往年共无数十家主流媒体及直播平台报导直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总暴光量累积超过2000万。
演讲要点
在AlphaFold和AlphaFold2驱动下,AI药物行业开展速度十分快,而腾讯在蛋白质构造预测上的任务从2019年终就开始了。 骨架跃迁份子生成算法能在包管原有化合物活性的根底上,冲破原有份子专利的维护,或者优化份子的ADMET性质。 只靠数据驱动的AI不足可解释性,要与畛域常识相结合;药物AI是AI算法和畛域常识互相发现,互相晋升的进程。 AI辅佐药物发现存在一个困难就是泛化性,即在A靶点中训练的AI模型,通常难以运用到B靶点上做预测。这个问题的解决对技术的冲破相当首要。 (下列为刘伟演讲分享全文)
展开全文 腾讯云深智药是一个怎么样的平台?
我分享的标题问题为“腾讯制药AI算法理论”,会对腾讯过来3年积攒的AI制药技术进行一个展现。
我叫刘伟,是腾讯AI药物发现这一块的技术担任人。明天我要讲的内容,次要包罗三个部份:
第一部份是腾讯云深平台引见,它其实是积淀了腾讯AI制药技术的一个平台;第二部份是平台的案例分享;第三部份总结平台的技术劣势。
咱们先引见一下腾讯云深平台的两大功用模块,一个是 小份子药物发现,另外一个是 大份子药物发现,这里次要指抗体药物发现。
其中,小份子模块包罗蛋白质构造预测、份子生成等6个模块,大份子模块则由抗体构造预测、抗体亲和力、以及抗体人源化革新等几大模块组成。
tp3stqnq3vd.jpg
时间无限,咱们不会具体引见每一个个模块,次要会讲案例以及部份底层技术的完成。
腾讯云深平台四大案例分享
第一个案例是 蛋白质构造预测,这块腾讯在国际多是做得最先的。
比来在AlphaFold和AlphaFold2的驱动下,行业开展速度十分快,而腾讯从2019年终就开始做相干技术任务。
大家应该对比分明,蛋白质是生命及其流动中十分首要的组成部份,蛋白质构造预测则是指给定一个氨基酸序列,来预测蛋白质的三维构造。
咱们在2019年打造的一个预测pipeline,过后是基于份子能源学摹拟和AI预测相结合的办法,构建了一个叫tFold的蛋白质构造预测平台。
在2020年竞赛的时分,这个pipeline延续八周在评测平台排名第一。
m1oga35fyki.jpg
随后咱们还加入了CASP比赛,在国际获取了第一位, 颜宁传授在她的论文中还援用了tFold平台,这是对咱们在蛋白质构造预测上的效果的首要确定。
第二个案例是结合物理学特点和当地数据训练,咱们做了 ADMET性质预测系列模型。
也是从2019年开始的任务,想跟大家分享两点:第一点是成果晋升,以水溶性模块为例,咱们做的ADMET比拟头部商业软件成果均匀会有20%的晋升;第二点是ADMET预测成熟度,在与某药企协作上,咱们会提供一个能够说是十分根底的模型,在药企拿到这样的模型之后,会基于详细名目的管线生成的得多外部数据,即名目和靶点相干的特定数据。
用这些数据对根底模型进行从新训练 (retrain)、或者说做微调 (finetune)后,它会有一个更好的晋升。
好比咱们与某个药企协作剖析某系列化合物的心脏毒性,发当初名目中前期阶段,根本上与试验后果相干性达95%以上,起初药企就不太需求去做试验了,而是间接使用模型预测后果去做剖析了。
所以咱们在ADMET预测这块曾经做到十分成熟,目前模型包孕60多个属性预测模块,在腾讯云深平台上能够间接使用。
j21uvmsk33k.jpg
第三个案例是 骨架跃迁份子生成算法,这也是针对国际药企或者国际科研机构的一些实际需要打造的,目前一样曾经做得对比成熟。
经过骨架跃迁份子生成算法,就可以在包管原有化合物活性的根底上,冲破原有份子专利的维护,或者优化份子的ADMET性质。
咱们自研了骨架跃迁算法,与药企做了一些协作,这些协作不只帮忙到药企发现了纳摩尔级别的多个化合物系列,也很好地验证了咱们这个流程的硬朗性,在不同的靶点、不同的复合物上都完成了对比好的成果,目前部份钻研效果曾经颁发在期刊上。
zplmhlvdi1x.jpg
第四个案例是将 强化学习引入药物小份子的生成。
在生成份子的时分,咱们不只要斟酌份子活性,还要斟酌ADMET的属性,所以咱们把这些流程做了一个买通,你能够定制这些ADMET属性的要求。
在生成过程中,咱们用上强化学习,使得生成出来的份子合乎定制的属性要求,两个不同的模块可以互相晋升和强化,终究建立一个十分残缺的pipeline,这能够用在各种份子生成的场景中。
例如这个例子中,生成有两个要求,包罗不克不及经过血脑屏障、以及logP的属性:
1uur1vv5fkb.jpg
能够看到,在没有通过强化学习时,它的散布是对比弥散的,生成出来的化合物不太知足实际运用需要。但通过几轮强化迭代后,97%的份子都会知足生成的要求。
这一平台具备哪些技术劣势?
接上去,咱们总结一下腾讯云深通过两三年开展后,积攒出的一些技术劣势。
第一块是在 AI算法方面。大家知道,在药物研发这一块最主流的技术就是深度图神经网络,腾讯在做药物AI以前,在这方面做了十分长期的研发,也有十分深挚的技术积攒。
由于腾讯是一个社交网络公司,所以在深度图神经网络方面有深挚的研发积攒,包罗在一些AI顶会如NeurIPS下面,咱们腾讯AI Lab在下面颁发了十分多的论文,包罗大范围图随机采样、以及图自监视学习等,其中一些论文的援用量十分高。
第二块和第三块,就是 大算力、大数据方面的才能。
咱们知道化学空间十分大,以10的n次方为计数,在这么大的化学空间中发现药物份子十分不易。
通常的做法是鉴戒天然言语处置或者图象视觉技术开展而来的大模型预训练,使得模型自身可以了解化学空间的言语,好比像了解SMILES、3D份子构造,乃至是了解蛋白质构造。
所以这方面会见临针对大模型、大算力的微弱需要,咱们在这一块也做了十分多的任务,前面会具体引见。
最初一块,咱们基于腾讯在算法算力上的才能,将 AI与物理、化学做了一个结合,这是团队重生长出来的才能。
咱们以为,AI纯正只靠数据驱动是缺乏够的、不足可解释性的,做出来模型之后,它有时也会由于数据稠密、漂移发生一些问题。假如可以结合物理、化学常识进入AI算法模型,就可以够十分好地反应在化学、或是底层物理方面的一些特点和法则。这样做出来的AI模型,不只过拟合危险更低,实际运用中也有十分好的可解释性,这也是咱们比来几年重点开展的一个才能。
behzgkjyfj0.jpg
咱们再展开给大家分享一下这几块内容。
第一块是AI+量子化学方面的算法才能。
咱们开发了一系列用AI办法做量子化学计算的算法。量子化学是一个十分普遍而粗浅的技术畛域,它从对比低精度的教训性计算到十分高精度的多体计算,都曾经开收回了得多办法。
关于现存最高精确度的,例如全组态量子化学计算,它需求十分大的计算量,这对像药物份子、或者说drug-like这样的份子是不太可行的,只能自愿使用对比低精度的办法。
针对这样的痛点,咱们做了一个叫 DeepQC的框架,能够在以秒为量级的时间单位下,达到高精度大基组DFT的计算后果。
咱们还把DeepQC用在像晶体、催化体系上,也取患了十分好的成果,特别值得一提的是,在往年的催化剂相干竞赛Open Catalyst Challenge 2022上咱们还拿了冠军。
这也是基于咱们多年以来对AI和量子化学结合的探究根底之上做出的任务。
这样一套办法,咱们本来只是在无机份子上,咱们看到将其推行到催化的外表体系,以及晶体的周期体系,它依然能够十分高精度、十分疾速地实现工作,它的速度比用量子化学摹拟要快一个数量级。
第二块是咱们在图卷积神经网络标的目的的技术开展。
腾讯之前做的得多图卷积神经网络任务在社交网络方面,但咱们把它拓展到蛋白质构造上,发现也有十分好的成果。
实际上不论是蛋白质,仍是这些配体和药物体系外面,它其实都有十分好的档次构造,和社交网络十分类似。
蛋白质通常被分为几层构造。从最底层的原子、乃至电子,再到氨基酸,氨基酸又组成蛋白质多肽链,再到下面三级构造或四级构造,假如在各种不同的层级用不同神经网络建模办法,就能把它做得更好。
2uasitw0rrl.jpg
咱们把档次图卷积神经网络用在抗体构造预测上,成果超过了AF2、IgFold等模型的后果,目前相干论文也曾经被NeurIPS收录,也曾经在arXiv上地下。
第三块是大份子预训练模型。
咱们方才提到,药物化学空间十分大,然而详细到某个药物研发名目中时,数据十分少乃至没有,所以你必需解决过拟合的问题。
我在做某一个名目、某一个靶点的时分,它的数据可能就只要几百乃至几十个,这类状况下假如没有大数据作为根底,是十分容易过拟合的。
咱们在2019年就意想到这样的问题,颁发了一个大范围份子预训练模型叫GROVER,当初简直这个畛域的一切任务,都会援用现在咱们在GROVER上做的效果。
咱们是国际最先在份子图上做预训练的,而这也是腾讯云深平台十分底层的技术,不论是在份子属性预测、仍是蛋白质构造预测、仍是抗体药物设计上,它都是十分底层的公共技术模块。
不论是针对2D仍是3D份子,都会基于embedding做特点提取,而后也是预训练+微调这样来用,也是行业内的一个范式。
最初,就是咱们往年最新的一个任务。
咱们在做AI辅佐药物发现时,发现了这样一个问题,在A靶点 (A场景)中训练的AI模型,会十分难以运用到B靶点 (B场景)上做预测。
这个其实就是OOD (out-of-distribution)问题。这个是机器学习本身的一个中心问题,当初也没能100%彻底解决。
为了验证咱们模型的无效性,咱们去做了一个名叫DrugOOD的开源框架,当初它也曾经奉献给了行业和社区。
咱们会按照不同的domain把它做一个划分,好比根据骨架、试验assay、或者靶点区别,这样训练出来的模型就会十分纷歧样。
这个过程当中,咱们实际上但愿模型在不同场景具备一定的迁徙才能,否则模型只能合适某一训练数据场景,这并不是咱们所但愿的,由于这样的模型顺应才能十分弱,没方法运用到新的问题上。
在DrugOOD中咱们会有一个数据Curator的模块,之后咱们会做一个联系,这样在训练不同模型时,咱们就能根据不同的标注去自动写一个配置文件,测定咱们新训练的模型在不同的蛋白质家族上不同的成果,这样对模型的泛化性就可以有一个十分明白的意识。
— 完—
「2022人工智能年度评比」榜单揭晓
领航企业TOP50
点这里 ?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~ |
|