雷峰网 //m.drvow.com //m.drvow.com/resWeb/images/common/lp_logo.png 雷峰网 //m.drvow.com 2015 m.drvow.com All rights reserved. zh_cn Tue, 04 Feb 2025 10:00:48 +0800 专访四川大学生命科学学院曹洋:AI 时代的药物设计需要从理论到实践的突破 //m.drvow.com/category/shengwuyiyao/CWEw2bwr40hghjid.html “做科学研究,不仅要认识世界,更要改造世界。”

曹洋在自己的个人实验室网站上,将物理学家理查德·费曼的名言放在了显眼的位置,让每一位网站访客都无法忽略。“What I cannot create, I do not understand.”这是他以自己的方式提醒自己和所有科研人员,莫忘初心。

20 年前,曹洋坐在中科院挤满人的大礼堂里,上一门叫做《生物信息学》的课,台上讲课的是“中国生物信息学研究开拓者”--陈润生院士。在陈润生院士的启蒙下,曹洋进入了这个当年甚至还不是一个明确二级学科的新兴领域。

如今作为四川大学生命科学学院副教授的曹洋,已经在生物信息学领域深耕数年,具体研究方向包括药物分子设计算法与应用、蛋白设计和三维结构预测及序列分析与功能预测。

在曹洋看来,科研工作不能仅停留在认识层面,只有研究成果转化为实际应用,真正做到改造世界,这是他做科研的初衷。在未来,他希望在 AI 技术的助力下,药物设计领域能达到“画好图纸”就能“盖好房子”的水平,让前期准备工作完美落实到实验阶段,提高药物研发的成功率。

近期,2024 年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。来自四川大学生命科学学院的曹洋副教授受邀参会。

借此契机,曹洋副教授与雷峰网进行了深入对话。以下为对话全文(经编辑):

开生物信息的大门

雷峰网:从学科背景来看,您在本科阶段学的是应用物理相关专业,为何硕博时期转向生物信息学?

曹洋:本科时期我对物理比较感兴趣,所以选择了应用物理大方向下的电子科学技术专业。到了研究生阶段,我有幸进入中科院的生物物理研究所学习。

在 2004 年中科院入学的时候,新生要在各个实验室轮转,然后双向选择确定导师和研究方向。我当时有考虑过选择结构生物学,用 X 射线衍射方法解析蛋白的三维结构;也考虑过神经生物学,看人的认知是怎么建立起来的。

最后下定决心学生物信息学,是在研究生一年级上了陈润生院士和凌伦奖老师主讲的《生物信息学》之后。课堂上讲了很多让我耳目一新的内容,比如怎么把生物学问题变成数学问题,非常引人入胜。我还记得当时上课的场景,研究生院的礼堂万人空巷,水泄不通,很多同学没有位置,只能坐在走道上听。陈老师的讲课内容对我来说是一个很好的启蒙,受益匪浅。

那时从事生物信息学研究的蒋太交教授刚好从国外回来组建实验室,我被他有关蛋白结构预测、设计的研究吸引了,因此成为他的第一批学生。

那时候生物信息学还不是学科体系下的二级学科。我入学的专业是生物物理专业,到我毕业的时候,毕业学位证上变成了生物信息学。

雷峰网:您在本科学习的物理学知识,对您之后的研究工作有没有影响?

曹洋:影响还是挺大的。因为生物信息学是交叉学科,对数理的要求比较高。特别在早期,很多算法和软件还不成型的时候,需要自己去做开发,理解背后的原理。而我做的生物信息方向和分子模拟非常相关,比如蛋白三维结构预测,需要在结构的基础上分析生物学功能,其中会涉及到计算能量、相互作用、自由能等,如果前期没有数理知识作为基础,后面很多问题理解起来肯定会比较困难。

我也注意到,在生物信息学领域,物理学、计算机背背景的科研者比较偏向方法学研究;而生物学背景的则偏向生物学问题研究。所以不同的学科背景对后续科研方向有潜移默化的影响,但学科背景不是绝对因素,只是有这样的趋势。

雷峰网:在您看来,进入生物信息学这种跨学科领域,需要具备什么样的能力?

曹洋:我认为,要有很好的逻辑思维能力和很强的学习能力,能够迅速掌握相关的学科知识,并懂得如何在研究中运用上。

你会发现,在这个交叉学科里,需要综合应用很多专业的知识来解决具体问题,不可能只学生物、化学等某一学科的知识就足够,而没有谁是能够在大学本科就把各个专业知识都学完。所以从事前沿工作,一定要有开放的心态,有很好的自学能力,才可以跟上整个领域的发展,有进一步的创新突破。这是我这些年感受非常深的一点。

雷峰网:在中科院生物物理研究所学习期间,您的主要研究方向是什么?

曹洋:我当时主要做蛋白质三维结构预测的算法和应用。2010 年,我所在的蒋太交教授实验室所研发的蛋白质结构预测方法,进入了国际蛋白三维结构预测比赛 CASP 的前二十名,是当时国内参赛队里成绩最好的。此外,我还研究了一些生物学问题,包括流感进化突变带来的影响,比如在结构建模分子模拟的基础上,研究流感病毒和细胞受体之间的相互作用。

雷峰网:您在结束学业之后没有进入企业,而是选择高校继续科研工作是出于什么想法?

曹洋:我个人偏向在学术方面进行一些比较自由的探索。在高校的话,可以根据兴趣去选择研究课题,但在企业可能没有办法实现。当时刚好有一个机会,就入职四川大学了。

AI 入场药物设计领域后

雷峰网:请介绍一下您现在正在进行的研究工作?

曹洋:我们课题组主要研究是围绕计算机辅助药物设计展开的。这几年,我们团队将重心放在了做生物医药相关的算法和软件的开发,同时进行一些针对具体靶标的药物设计与筛选。在计算机设计方法不断落地,促进药物研发的历史进程中,我们希望贡献一份力量。

雷峰网:您如何看待目前的药物设计开发领域的发展?在开发靶向药物的计算方法方面,您有哪些研究成果可以分享?

曹洋:此前,在蛋白三维结构预测领域有一个很大的突破——AlphaFold。在药物设计开发领域,我们也期待能有这样的突破。尽管现在出现了一些新的算法和技术,但还是跟生物医药研究的实际需求有很大距离。我们团队开发了一系列的分子模拟计算法方法,比较有代表性的是分子对接 CB-Dock 系列。

雷峰网:请详细介绍一下上述全自动化分子对接算法 CB-Dock 的优势?

曹洋:这个算法平台的核心优势在于其高效和准确,用户使用门槛低。

首先,它能准确识别靶标的分子结合口袋。这里采用了前期开发的算法 CurPocket,它基于分子的表面曲率,可以在给定蛋白质三维结构的情况下提取到其分子可能结合的口袋。这个口袋识别算法和下游计算能够很好地匹配,使整个过程实现全自动化。

其次,它的分子对接可以学习已知的分子互作信息。我们开发了算法 FitDock,内置在 CB-Dock 里,在预测新分子与已知靶标的结合模式方面有很大优势。

再有,我们在 CB-Dock 的软件开发和维护方面很用心,使得操作软件和分析结果都比较容易。它面向的是广大生物医学研究同行,能一定程度上减轻他们的学习负担,更聚焦在研究具体问题上。

雷峰网:这套算法平台现在使用率如何?

曹洋:我们这套计算服务器已经发布五年,国内外同行提交了超过 30 万次计算任务,现在每天的使用量都有超过千次,相关论文的引用数量也上千。我发现在一些社交平台都有这款软件使用的视频,是国内外同行的使用体验和推荐。对此我觉得由衷高兴,感到我们的努力对社会是有用的。

这套软件用户来自世界各地,我常收到用户的邮件,咨询相关的问题,也有为我们在改进软件方面出谋划策。比如前段时间我们服务器的安全证书到期了,没有及时去更新,就有好多用户给我们发邮件说遇到问题了,问我们能不能赶紧解决。也有一些企业联系我们,申请使用软件的授权。

雷峰网:接下来对于这套算法软件的迭代更新有什么方向吗?

曹洋:前段时间,有一个斯坦福的用户给我们反馈,他建议可以在计算的过程中研究怎么样合并不同对接算法的结果,还提到了批量的受体提交模式。因为现在这个软件是一个受体对应一个配体,只能单个提交。这位用户希望可以添加批量化提交的方式,这样他们可以利用其做小规模的横向对比研究。我觉得这是一个比较好的建议,还是得想方设法满足相关研究的实际需求。

雷峰网:我注意到您的团队还建立了 AbRSA,AbAlign 等抗体分析算法,请介绍一下该算法的开发过程?

曹洋:我们也关注抗体相关的研究,这是生物药里的主要类型。前些年,我们在做抗体人源化设计的过程中,遇到一个难题,就是业界的各种分析软件都没办法对手头上的抗体样本进行识别。这激发了想要我自己开发相关算法的念头,我们花了一年多的时间,开发了一款抗体可变区编号算法 AbRSA ,解决了我前面遇到的困难。

这款算法对各类抗体或者 BCR 序列有很强的适应性,能准确地界定 CDR 区域、FR 区。在此基础上,我们又进一步提出了抗体专用的多序列比对算法,可以对超大规模的抗体/ BCR 数据测序进行处理,进而帮助抗体的筛选和设计,同时也可以作为个体免疫状态的分析。这些算法的源头,都是我们在解决实际问题中想到的。

雷峰网:这个抗体分析算法的实际应用效果如何?

曹洋:软件在发布后吸引了非常多用户,包括国外很多知名的高校,还有像美国 FDA 食品药品监督局这样的用户,以及国内的一些专利公司和做创新药物开发的公司。现在在这个领域,国际上能获得的类似计算工具大概就三款,我们是其中之一。

雷峰网:您觉得这款软件在同类型中的核心竞争力是什么?

曹洋:从算法角度上讲,它的健壮性更好,能超快速度处理大规模数据。因为抗体从基因重排到体细胞超突变,其中的多样性非常大。若想在不同序列模式上进行准确界定,就需要从算法上做比较细致的优化。

雷峰网:除了算法方面的研究成果,请分享一下您此前设计人工蛋白的科研过程?

曹洋:在十年前,要想设计全人工蛋白,大家都觉得这是困难的事情。即便前有华盛顿大学的 David Baker 教授的成功经验,但对于普通实验室团队或者没有深入了解这类研究的人看来,完成全人工蛋白的设计还存在很大的困难。而且这类实验的成功率很低,经验不足就容易失败。

我进入人工蛋白设计领域是 2016 年到 2017 年期间,当时我正在美国密歇根大学张阳教授的实验室做访问学者,在那时候参与了 EvoDesign 的开发与实践。我当时做了几个靶标,包括 EGFR 这些靶标的结合蛋白设计,比较成功地设计出了高亲和力的人工蛋白。

在设计出人工蛋白之前,我个人对这个领域还有很多怀疑。做完之后我发现,人工蛋白完全可以走向应用,相信在不远的未来,它会在生物医药研发中大放光彩。

雷峰网:您觉得人工蛋白设计技术现在发展到什么阶段了?

曹洋:我感触特别深的是在 2020 年以后,AI 技术被大量引入蛋白设计领域,可以观察到整个领域都蓬勃发展起来,其中不乏一些极富创意的设计新思路。

不仅仅是像 David Baker 团队这样的先驱,还有很多实验室都取得了长足的进步,比如说科大刘海燕教授的从头设计氨基酸序列算法 ABACUS、SCUBA,计算所卜东波教授的蛋白质序列设计算法 ProDESIGN,北航叶盛教授基于电子密度的设计算法 CUTEDGE 等,都像雨后春笋一样被提出来,并且还有很多成功应用的案例。

同时,我们也看到了很多企业在往这方向发展,他们对人工蛋白设计技术表现了很大的兴趣。人工蛋白设计正处在其广泛应用的前夜。

以创造性思维做科研

雷峰网:在您看来,当前药物设计算法领域处在什么阶段?面临的主要挑战是什么?

曹洋:药物设计算法已经取得了长足的进步,但是距离生物医学的实践需求还有较大的距离。我所期待的药物设计技术,就像盖房子一样,只要满足力学规则,就能使用软件设计出符合想象的结构。但是实际上,现在药物设计领域的技术还远远达不到上述理想状态。往往很多时候是在设计阶段想尽各种办法达到指标,满足要求,但最终实验成功的概率只有千分之一,甚至万分之一。虽然这个领域已经出现了很多分子设计的成功案例,有一些已经完成临床甚至上市,但还没有达到成熟的阶段。在我看来,现在药物设计领域面临的最大挑战在于,我们对于分子层面的规律认识不到位,计算能力不够,这样带来的结果就是不够准确。

雷峰网:对于现在想要进入药物设计领域的年轻科研工作者,您有什么建议?

曹洋:我的建议是,要保持一颗努力学习的心。整个领域进步很快,需要的知识专长非常多,几年前的知识可能现在已经落后了,所以要随时保持学习,争取走在前沿,有所突破。同时还希望密切结合应用实践,推动整个领域的发展进步。

总而言之,时刻保持学习,瞄准这个领域的重大问题去做开发、做研究。

雷峰网:您怎么看待未来 AI 制药的前景?

曹洋:引入这种人工智能系统来辅助药物设计,是近年来最大的一个突破。虽然早期的工作也用了一些机器学习的方法,但不像现在这么大规模、广泛的使用。而且新的 AI 技术建立在更多的数据基础上,拥有更好的模型。相比之前的方法,有质的飞跃。

但即便现在 AI 制药的概念和相关研究工作这么火,还是有很多没有落地,并没有在实际药物研发中产生突出的作用。我们很希望接下来,不论是实验算法也好,还是理论的研究也好,都能够转化为实际上市药物,真正地推动整个领域从理论到实践上的突破。

雷峰网:我注意到您的个人实验室网站首页有一句很显眼的名言,是费曼的名言 “What I cannot create, I do not understand.” 请问您对这句话的理解?

曹洋:很多研究是试图去解释它背后的道理,但是解释并不代表真正理解。排除所有可能性之后,如果能够创造出预设的结果,才能够称之为真正理解。

这也是为什么我们看到很多研究,在解释逻辑方面头头是道,似乎很让人信服,但一旦应用到生物医学场景,就会遇到很多问题。就以药物设计的工作来说,我们要去创造实际的分子,不能仅停留在解释现象。作为科研工作者,我们不仅要认识世界,更要改造世界,只有这样,我们对世界的认识和理解才能更加深刻。

雷峰网:请介绍一下您第二届生信大会上的演讲内容?

曹洋:我主要介绍了实验室近期有关抗体/ BCR 的数据分析、建模方面的工作进展。一方面是有关 BCR 或者抗体序列的多序列比对的新算法,在效率和准确性上达到了业内领先。另一方面是在这个基础上的抗体三维结构预测,成药性分析,就内部测试的结果,相比已知的抗体可变区预测方法,我们的准确性是最好的。我希望通过这次报告,跟国内同行分享相关的成果,也希望收到同行的建议和意见,把研究工作做得更好。

雷峰网:您在第二届生信大会上有什么收获吗?

曹洋:收获挺大的。我注意到现在生物信息领域的研究和医学实践已经深度联系起来了。有几个印象深刻的报告,比如有通过 BCR 的研究去分析人的健康状态,进行免疫力解码;蛋白设计新方法在蛋白活性和实验成功率方面取得突破;还有基于 AI 算法在毒性毒理代谢、重定位等研究的创新。我回去后还要好好消化学习。


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/CWEw2bwr40hghjid.html#comments Tue, 30 Apr 2024 10:10:00 +0800
专访苏州系统医学研究所邓立宗:医学领域需要基于场景做深度的“大模型+” //m.drvow.com/category/shengwuyiyao/BuiE0SB4BuMIfnS2.html

一个机器医生的诊断,你敢信吗?

苏州系统医学研究所副研究员邓立宗的研究目标,就是让人们能够放心地信任医学人工智能。在他的理想场景里,医学人工智能最后都能转化为实际生活中可被大众信任和日常使用的一种基础医疗资源,让权威靠谱的医学信息查询和获取不再成为问题。

要想获得人们的信任并不容易,更何况人工智能本身还存在“幻觉问题”。一边是容不得半点差错的严肃医学,一边是经常会“胡说八道”的人工智能。就算只是一些微小的语义差异,对于医学判断来说,差之毫厘就失之千里。

如何训练、调教“不听话”的人工智能使之服务于医学严肃场景,是邓立宗博士及其团队的主要研究目标。在邓立宗博士看来,要实现这一目标,最核心的要素是要实现领域知识和大模型的有机融合。因此在之前的工作中,他和团队研发了能够自动进化的医学文本数据处理算法——中文电子病历的表型信息智能结构化与标准化系统(PIAT)算法,并成功入选“2022年度中国医学人工智能代表性算法”。

除了有面向医学领域科研人员的算法平台,邓立宗还与团队开发了一款目标用户为医学生的备考软件。借由大模型与医学数据的结合,标注出教科书上的重点考点,为用户定制个性化的备考助手。

正如邓立宗在与雷峰网的对话中所提到的,大模型的出现对他所在的领域来说是个很好的促进,能让他不再局限于传统的算法模型里,而是可以专注于“大模型+”的探索研究。

近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。来自中国医学科学院苏州系统医学研究所的邓立宗副研究员受邀参会。

借此契机,邓立宗副研究员与雷峰网进行了深入对话。以下为对话全文(经编辑):

为什么要“大模型+”?

雷峰网:请介绍一下您目前的您现在的研究方向?

邓立宗:我主要的研究方向是医学大数据和人工智能,尤其关注中文医学文本大数据的处理。

举个例子,现实中,我们知道医生看病是需要先学习教科书上的知识,再到实际场景中,查看这个病人有什么症状,需要做什么检查,最后下诊断、开药,这一系列活动都要结合实际病人的情况做进行。这些动作的产生,都建立在他了解这些医学知识的基础上,以及懂得如何运用这些医学知识。

现在我们的研究工作,就是要机器去学习并应用这些医学知识,从文本中学习这种语言、知识。但本质上,这是一种概率式的学习,而医学是一个非常严肃的领域,我们需要在这研究过程中,尽量提高计算机学习医学知识的精度和准确度,让它能够在严肃场景中生成让用户觉得靠谱的内容。

在过去的五到十年间,我们建立了一整套面向医学文本数据的知识表征、抽取、标化和应用的完整技术体系,这算得上是大模型出现前的知识工程时代积累下来的工作基础。

大模型技术的出现,对于各行各业都是一个大的冲击。以前,每处理一个任务都要单独去写一个对应的算法或模型。现在,一个大模型就能够很好地完成很多任务,不管是实体识别、还是关系抽取,甚至是直接诊断,都能够做到。所以我们的研究方向也在发生变化。

我们现在主要在做的事情是:如何利用大模型技术来强化我们之前整个医学文本大数据处理和加工的流程。

因为我们以前的那些技术,主要还是基于一些小规模的传统训练语言模型,而大语言模型时代,它本身就像个通才,已经拥有很好的知识基础,但它可能还没有一些专业领域的知识,所以我们希望能够好好训练它,思考如何将我们的专业知识有效地灌入大模型中,使其能够更好地服务于医学领域。

简单来说,我们现在在做的是“大模型+”的工作。大模型本身,不是我们研究的全部,但是我们肯定会顺应大模型的发展,让大模型能够很好地和医学大数据的加工技术,以及医学知识的应用技术整合在一起。

雷峰网:是什么契机让您进入医学大数据这个研究领域?

邓立宗:进入医学大数据这个领域主要还是受师承的影响。大约2013年,我的导师蒋太交教授去美国访问,当时他接触到了一些关于医学大数据研究方向的前沿进展。这些进展都共同提到了美国哈佛医学院开展的一个医学信息化项目i2b2(Informatics for Integrating Biology and the Bedside,由美国国家医学图书馆搭建的集成生物学及内部的信息共享平台),主要致力于发展先进信息技术将医学大数据转化为临床应用。

在那几年国外也成立了很多医学大数据公司,医学大数据这个概念在当时非常火热。受此启发和指引,我们也迈入了这个看起来前景光明的领域。在我博士毕业后,蒋教授来到了中国医学科学院,并作为创始人之一创建了苏州系统医学研究所,我也因此跟随蒋教授来到了苏州。

在那时候我面临着一个研究方向上的选择。

第一个是继续此前的研究方向——蛋白质结构预测、病毒序列、结构的分析,

第二个选择是利用当时医科院的数据优势,发展医学大数据。因为上述原因,我选择了后者,医学大数据和人工智能方向。

我们当时的最终目标是想把这种医学文本知识给充分利用起来,去发展机器医生这么一个场景。

雷峰网:从您的学术生涯来看,您从本科到硕博是经历了一次专业的转换,这种跨学科的教育背景对您现在的研究方法和角度有什么影响吗?

邓立宗:是有影响的,我相当于是跨了领域。我的本科在中科大学习生命科学,之后在中科院攻读生物信息学的硕士和博士学位,当时主要是利用AI技术和学习算法进行蛋白质结构的分析和预测。而我后来从事的其实是医学信息学(正确)这方面的内容。这两个学科的发展差异是非常大的。

因为当时我在生物信息学专业学习阶段,整个生信领域数据的规范性和成熟度都要远远高于医学信息学领域,特别是中文医学信息学领域,所以后来在医学信息学领域我们借用了很多生物信息学的理念。

比如说,蛋白质序列或者基因序列,其实也是一种语言,只不过它们更规范——就像蛋白质就是20种氨基酸,提到基因组就是ATGC。他们通过这些不同的符号组成了很多这种排列组合的生物学语言。后来我们做医学大数据的时候,主要处理人类语言。如果你把它想象成是很多单词或者文字的组合,从语言学的角度来看,处理生物符号和人类语言之间,其实差别也不大,所以我们当时把整个生物信息学的方向迁移过来使用了。

就像当初处理蛋白质结构预测的理念是,从序列出发,我搭建一个识别语言的建构,基于这样的语言结构、知识单元,再去做智能化的抽取,形成一个知识图谱,最后让机器利用起来。我把学习到的两种东西以这种方式融合起来。

雷峰网:您和团队对大模型所带来的改变有什么看法?

邓立宗:它的出现,给我们指明了未来技术发展的方向。刚开始出来的时候,我们确实非常受到震撼,当时以为会像蛋白质结构预测领域一样,直接被颠覆,但是后来其实并不像我们所想的那样。它只不过是打开了一个新的口子,让科研人员可以顺着这个方向,进一步去做更多事情。

在大模型落地医学场景的时候,我们也发现了各种各样的问题。

因为大模型在本质上是世界知识的一个压缩器,属于概率化的模型。而医学场景是非常严肃的,它对可解释性和精确性的要求极高。但是大模型有时候可能会胡说八道,要怎样消除这种幻觉问题,让它真正地能够落地。比如,用积累的知识图谱、医学知识去强化大模型,降低大模型的幻觉率。这是我们在探索和思考的方向。

整体来说,我觉得大模型的出现,对我们这个领域有非常大的促进作用。它让我们从以前各种各样的模型里解脱出来,现在我们只需要专注于“大模型+”就好了,它成为了我们整个技术体系的重要拼图。

雷峰网:针对大模型落地产生的幻觉问题,现在有什么解决办法吗?

邓立宗:对于这样的一个对话模型,我们所要解决的问题就是,希望大模型在医学场景回答的时候能够更准确、更可溯源,不容易胡说八道,避免给患者或者医生带来困扰。现在有一些新的技术,比如在检索增强方面进行改进,但我们通过实验发现,其实还是没有办法有效避免幻觉问题的出现。

通过深入分析发现,要解决幻觉问题,对医学知识的精准表征很重要。

举个例子,像医学的同义词,比如发热、发烧、体温39度等,这些都指向相同的概念,但其中发热有分高热和低热,腹痛也分为上腹痛、下腹痛。这些微小的语义差异对于医学判断来说,差之毫厘就失之千里,因为它可能完全导向不同的疾病。所以现在我们正在通过把这些知识规范化,使大模型能够大幅度地提升知识检索的精度。

为了验证这一说法,我们当时做了一个大海捞针式的实验。先是一个精准的信息检索,模拟医生翻书看病的过程,也就是检索咨询的过程。我们发现,通过目前这种向量化的表征方式,大模型的检索质量并不好。而知识规范化后,其检索精度就能发生显著改变。

所以我觉得,在未来要思考,怎么样让大模型这样的类人智能在类似医学的垂直领域成为专家。我们不能够那些知识通过字符串凭空生成,而是要让它能基于很精确的知识基础发挥作用。不管是在大模型生成之前就进行精准化提高,还是在其生成中间或者之后,我认为都有和精准知识基础结合的必要。

雷峰网:您团队所开发的基于中文电子病历的表型信息智能结构化与标准化系统(PIAT)是如何解决这一问题的?

邓立宗:PIAT(Phenotype Information Annotation Tool)系统是我们团队开发的一个医学文本数据处理的自我进化平台。它能够自动精准标注医学新知识和医学信息,还能够自动对其进行规范化表达和统一表征。这个系统不仅能够识别术语型和数值型表达,还能将它们映射到国外医学语言系统,从而实现医学文本数据的结构化、标准化。

此外,该系统还有专家帮助机器进行校对。如果计算机识别有误,专家则予以修正,所累积的错误信息可用以更新底层知识库和模型。通过这种方式,系统就能不断地提高处理效果,所获得的数据也能够为后续的智慧医学应用开发提供参考。

在实际应用上,PIAT系统此前也用于和北大人民医院合作的一次课题中。我们利用PIAT系统对类风湿、关节炎进行亚型分析,还基于这种结构化、标准化的电子病历数据做了辅助诊断模型。目前,PIAT系统主要在科研层面与专家合作。我们也希望未来能与医学信息化方向的企业合作,因为他们具有将信息系统打通的能力。

对于PIAT这个平台,我投入比较多。因为它不是单纯的科学研究,我不像以前只是做算法的评估和技术。在开发过程中,需要协调很多资源,包括IT开发、算法开发,并做好统筹规划,包括涉及到整体的交互设计,需要去研究如何让这个界面对用户更友好,还有一些底层的进化设计,我由此收获了工程化思想的体验和技能。

以进化式思维对待从0到1的挑战

雷峰网:现在国内医学大数据分析领域现在发展到什么程度?主要面临什么样的挑战?

邓立宗:相较于十年前,现在国内医学大数据领域进步得特别快。从国家层面提出大数据战略之后,各种产学研的目光都被吸引过来了,我们这个领域也获得了很多关注,大家开始在这个赛道上发力,现在在应用层面算是百花齐放。

但就整体而言,这个领域好像还没有深入地影响到整个社会层面,还不能够在深度诊疗环节发挥核心作用,真正地解放医生的工作量。举个简单的例子,就像是现在,我们还没办法完全信任一个机器医生给出的诊疗结果。

就挑战而言,我觉得第一,尤其在中文领域,它的整个标准化体系相对来说比较缺乏。国际上有很多成熟的医学术语标准,比如SNOMED这样统一的语言体系。第二就是在发展算法的时候,我们会面临训练数据比较稀缺,导致其泛化能力不够强的问题。这好比我们在做学术研究的时候,训练题做得很好,但并不意味着在真正实践时就能做得好。

后来我们解决这个问题的思路是,用进化式的思想来做。按目前的程度,肯定不可能一下做到完美,做到90分都很难。就像互联网公司经常提到的“数据飞轮”,先建立一个体系,让用户用的时候给你反馈。而这个反馈能够反映到底层模型的迭代更新上,不管是知识库的积累还是模型的更新,最后它会变得逐渐进化。抱有这样的学习系统或者进化系统的理念,才有可能不断地从60分做到90分。

雷峰网:说到医学术语标准化体系,现在我们国内的医学术语标准化体系有哪些团队在做?大概处于什么样的水平?

邓立宗:就如我刚刚提到的SNOMED系统,应该是目前世界上最大的医学术语标准化体系,它是美国国立图书馆在做。我们中国其实也有不少这类标准化机构,影响大的就是国家卫健委所组织的。他们非常重视标准,同时也在陆陆续续发布很多常用的临床医学术语。我还听说还有个企业也在做这类标准化业务,浙江的OMAHA公司,做的也非常好。

整体来说,这种标准化系统的建立和推广都需要很多力量投入,所以不管是对于学校还是研究组,都是一个庞大的工程。

我们国内的标准化体系发展起步相对比较晚。当年我的导师蒋太交研究员2013年在国外接触到i2b2的时候,其实那时候他们已经研究了很多年,也发了很多的文章,进行了各种应用。而那个时候,国内才刚注意到这样的概念,才开始对这块领域有所研究。

我们也有尝试过在医院里实际治理过一些数据,当时发现挑战非常大,因为整个流程体系都没有建立起来。后来通过各方的努力,才慢慢把标准化的链条理顺。从0到1走完之后,从1到100就相对好一点了。

雷峰网:那您觉得要推进中文医学术语标准化系统的建立,应该在哪方面发力?是从高校对于医学生的教育开始,还是从医院的实际应用上开始?

邓立宗:我们确实注意到,有些医院也在做结构化、标准化的病历数据处理,并且做得特别好。但是医护人员需要花比较多的时间进行填写,开发这个系统本身投入巨大,填写这项工作还需要很多的投入。

这个病历系统在医院运行多年,要改造肯定会伤筋动骨,包括像医学指南或者教科书,也不可能进行结构化处理,不然人就看不懂了。

所以这种情况下,我们觉得未来的很长一段时间,还是非结构化、非标准化会占主导,因为很难去约束人们的使用习惯。就像我们讲话一样,人在讲话时就不会在意语言。如果在意语言语法的规范性,反而会限制正常交流。

我们能够做的就是,第一个在技术层面上能够怎么样去改进、第二个在当前的数据和技术条件下,我们怎么样能够最大程度地把医学数据发挥出它应有的价值。

把问题作为导向,可能会比单纯地去思考要怎么样改变现有系统、把这些东西都进行结构化处理会更加有效率且成本更低。

雷峰网:在研究成果转化应用方面,您还有哪些案例可以分享?

邓立宗:我们团队开发了一款名为“文心医考通”的智慧医学应用,用来帮助医学生怎么样快速地看书、背书和备考,让他们能够更好地去掌握医学知识。

当时我们开发这个应用时,就是希望把“大模型+知识”融入一个具体的场景里,去帮助学生背书、考试。最开始的时候,我们想让大模型去形成学习计划类的内容,但是发现它不可控,学生也因为它不够精确,吐槽得多。

后来,我们通过各种各样的技术融合手段,比如知识增强和知识融合,把大模型嵌进去,相当于是一个混合的系统。在适当的地方,知识与大模型互为补充,以这种方式融合在一起后,就能够完成医学生看书背书的一整套流程,如同把一个学霸的思维工具化,提高学习效率。

因为医学是一个以知识记忆为主的学科,像内外妇儿这几本书动辄几百万字,比四大名著还要厚。而医学生要复习的第一步就是要抓住重点考点,这个应用就可以通过大模型的知识融合技术,基于真题,抓出教科书里的重点。

如果一段文字过长,应用还能将这段文字变成问答型的小卡片整理出来,方便用户助学助记。另外,在刷题时产生的错题,应用会基于学习记录,去为用户定制更有针对性的强化训练。用户可以和大模型进行交互,让它成为个性化定制的备考助手。

下一步,我们会想,能不能利用这个AI去学习?比如利用历年的真题出题规律来押题。这是一个很有挑战性的任务。但本质上,就是让大模型去学习规律,再进行知识分析,融合起来,最后提高押题的命中率。

这个应用推出还不到一年的时间。目前APP的注册用户大约是2万多人。就使用频率而言,一周内大概有四五千名医学生会使用我们的APP。

我们的APP并没有与高校进行正式合作,主要通过公众号平台、小红书等渠道进行推广,所以会吸引到各个院校、地区的医学生。现在整体用户体验不错,至少不会再有关于出现事实性错误的吐槽。

抓住“文心”

雷峰网:您对于这个领域发展成熟后的理想落地场景是什么样的?

邓立宗:我理想中的场景,就像在科幻时代大家所畅想的,大数据最终转化为医学人工智能,在我们生活中发挥作用。比如变成我们可以非常信任的健康助手。当我们身体出现什么小毛病时,可以通过手机或者别的设备直接线上问诊,马上获得很准确很靠谱的医学信息,先让自己心里对这个疾病有个底。这个东西暂时肯定是没法取代医生的,特别是无法取代医生的核心诊疗作用,但作为日常的院外咨询和自我管理还是可以的。

雷峰网:您认为,在未来几年,您所在的领域会有哪些趋势?

邓立宗:在我们这个领域,首先问题导向肯定不会变,也就是怎样做好医学人工智能,让它去帮助临床场景。

大模型在未来是一个绕不开的基座,但在这个基座之上,我们怎么样能够让大模型和医学领域有更好的交叉融合,精准知识这一环少不掉。但受制于大模型本身的原理,幻觉问题避免不了。如果大模型是用于创作,比如讲笑话、讲段子,出现这种幻觉问题没什么所谓。可是对于医学这种严肃场景,未来肯定要进行精细的打磨和强化。

雷峰网:您现在的团队大概是有多少人?苏州系统医学研究所有给您和团队在科研上提供过什么样的帮助?

邓立宗:我们团队的人不多,包括我在内的话是5、6个人。我所在的苏州系统医学研究所,是中国医学科学院19个二级单位之一。我觉得我所在的环境“地利人和”。首先是所里的领导很重视人工智能及转化方向,尤其重视我们这个方向的医学人工智能;同时也会运用一些人脉帮我们进行推广。其次因为我们的研究需要很多的算力,研究所建有一个高性能平台,正好能够满足我们研究所需的算力资源。

雷峰网:团队现在的主要合作对象和合作医院有哪些?

邓立宗:我们所合作的医院主要还是医科院体系内的。我们现在正通过医科院的创新工程,在和协和医院的专家合作,处理他们的数据,以此发展一些关于人工智能的辅助诊断,比如涉及早筛早诊早治的一些应用。

雷峰网:在近日结束的第二届生物信息与转化医学大会上您做了什么样主题的报告?参会后有什么感受和收获?

邓立宗:在大会上,我主要围绕医学文本数据处理这个主题做了报告。我当时用了个词“文心雕龙”,意思是我们做的所有事情,就是为了怎样抓住文本,文本的核心就是那个“心”,如何把“心”抓出来,然后再用高质量数据去“雕刻”智慧医学应用。抓住这个文心是最关键的,接下来的雕刻、应用反而没那么难。

所以我们所有的技术都放在知识的精准表征上,也就是高效的抽取、规范化和标准化,然后通过算法,建立出体系。

我参加这次大会,主要是想去和不同领域的人进行交流。因为我们这领域是个交叉领域,领域跨度越大,带来的灵感和碰撞也就越多,交流也更有意义。不然有时候容易陷入闭门造车,反而解决不了问题。


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/BuiE0SB4BuMIfnS2.html#comments Fri, 26 Apr 2024 11:36:00 +0800
专访南医大生信系主任余光创:没有哪个专业绝对优越,生信人做好「工具人」也不简单 //m.drvow.com/category/shengwuyiyao/xEc9LwCgXfltah79.html

生物信息学和医学,能碰撞出什么火花?

余光创教授的科研实践,给出了这一问题的答案。

作为南方医科大学基础医学院生物信息学系的主任和教授,余光创的关注点在于,生物医学、数学和计算机科学的交叉融合。

这不算一条科研捷径,多学科的知识储备曾吓退一众学者。对于余光创来说,其中也有冒险的成分。

他的学术之路起于华南农业大学的生物技术专业,到安徽医科大学的生物化学与分子生物学,再到香港大学公共卫生学院的系统发育研究,再到如今的南医大基础医学院的教研工作,每一步似乎都愈发偏离原来的轨迹。

但用余光创的话来说,这是他的“特色”、“赶上了好时机”。

实际上,这段经历中还有段小插曲,他原本硕士报考的是中科院上海生命科学研究院,复试环节失之交臂,才有了调剂的一说,从此结下与医科类大学的不解之缘。

2018年,一通来自南医大生信系的前任系主任李金明教授的电话,将余光创的科研生涯扎在了那里。

应聘、入职、次年担任该系副主任、协调全系改革入选教育部“双万计划”,拔得全国唯一入选生信专业的高校头筹,这些工作开展得紧锣密鼓。

目前,余光创的研究重点集中在组学数据分析和工具开发。

他的团队通过多组学研究,开发了能够预测代谢组数据的 MMINP 工具,以及专门用于单细胞和空间转录组学研究的 SVP 软件包。

这些研究成果,为从微生物生态和系统发育关系的角度进行研究提供了新的切入点,更在疾病机理探索、药物靶点发现等领域展现出巨大的潜力。

如今,“生信人”已经成为余光创的一个重要标签。

他指出,生物信息学已经从辅助性角色转变为科研的主导力量。随着高通量数据的普及和成本的降低,生物信息学在数据分析和解读方面的重要性日益凸显。

同时,他也鼓励年轻学者积极投身于跨学科研究,“不同的学科背景意味着不同的视角,没有哪个背景绝对优越”,要善于利用不同学科的视角和方法,开展有特色、有创新性的工作。

近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办,余光创教授受邀参会。

借此契机,雷峰网与余光创教授进行了深入对话,以下为对话全文(经编辑):

生信人和医学类高校的不解之缘


雷峰网:首先,请您分享下教育背景和研究领域?当时主要课题是什么,它们如何塑造了您的专业技能和研究视角?

余光创:我本科是华南农业大学生物技术专业。那是在2001年,正值人类基因组计划公布草图,生物技术迎来它的黄金时代。

本科期间,我对计算机科学产生了浓厚的兴趣,并自学了相关知识。硕士阶段,我本想转向生物信息学领域,但由于这是一个新兴学科,国内能提供该专业研究生教育的机构并不多。后来去了安徽医科大学,专业是生物化学与分子生物学,师从秦宜德教授。

硕士期间,我有幸跟随军事医学科学院的伯晓晨教授,继续从事生物信息学研究,并在他的指导下深入学习了编程和数据分析技能。当时,我们主要进行微阵列(microarray)数据分析,尽管二代测序技术开始兴起,但在国内尚不普遍。此外,我们还探索了基于“基因本体学语义相似性度量”的一些计算方法,这在当时也是一个较新的研究领域。

硕士毕业后,我在暨南大学生命健康工程研究院工作,主要进行蛋白质组学研究。在那里,我参与了与肿瘤相关的蛋白质组数据分析工作,专注于蛋白质层面的研究。

工作几年后,我意识到,仅有硕士学位在学术界的发展受限,因此决定攻读博士学位,并最终选择了香港大学。在那里,我加入了管轶(港大公共卫生学院)教授的实验室,管教授在非典疫情期间做出了重要贡献。在管教授的指导下,我从事了与流感等传染病相关的系统发育研究。

可以说,硕博期间让我接触到了截然不同的研究课题,也让我认识到拓宽思维和视野很有必要。

目前,我在南方医科大学基础医学院,主要进行组学数据分析和工具开发工作。尽管我现在不直接从事系统发育研究,但我一直在思考,是否可以从系统发育和微生物生态的角度,探索组学数据分析的新方法。

当前,无论是宏基因组还是单细胞空间转录组研究,都是对群体的测量,这为我们从微生态和系统发育关系的角度进行研究提供了新的切入点。

雷峰网:什么契机下加入了南方医科大学基础医学院?如今担任生物信息学系系主任,要承担哪些工作?

余光创:在港大毕业后,我留在了管教授的课题组,继续从事博士后工作,同时寻找工作机会。 当时,南方医科大学生物信息学的老主任李金明教授打来电话,向我介绍了学校和专业情况。李教授的介绍打动了我,我来到这里应聘,并在2018年顺利加入。

事实上,2018年和2019年是南方医科大学引进高层次人才的高峰期,不仅我们学校,许多其他学校也在大力引进人才。随着时间的推移,尤其是疫情的影响,学校经费有所减少,人才引进的力度也有所减弱。现在,学校更倾向于引进海外人才,并依托学校申请相关项目。我算是赶上了好时机。

2019年7月以来,我开始担任生信系主任,我的工作涉及更多的行政和教学任务,主要是为学生和系里的教师服务。

实际上,我们的生信本科专业成立于2005年,是国内较早开设此类专业的院校之一。就在2019年4月,教育部推出了“双万计划”,旨在建设一万个“国家级”一流本科专业、一万个“省级”一流本科专业。我们在专业建设上做了很多工作,包括硬件、软件、教材和课程改革。我们的专业也成为首批入选国家级一流本科专业建设点,而且是首批入选的生物信息学专业。

我认为,作为教师,除了科研,教学同样重要。这不仅有助于我个人成为一名更全面的教师,而且对教育下一代、促进社会和国家的可持续发展具有重要意义。

雷峰网:因为生物信息学融合了多个学科,包括生物医学、数学、计算机科学,您为什么对交叉研究感兴趣?

余光创:这要追溯到本科时代。那时我在图书馆偶然发现了一本名为《Developing Bioinformatics Computer Skills》的书,这本书可以说是我的启蒙之作,让我对生物信息学产生了浓厚的兴趣。

从那本书里我了解到,生物信息学是一个融合生物医学、数学和计算机科学的交叉学科。

我本身学习生物,而当时大家对生物技术的前景非常看好,加上我对计算机有着浓厚的兴趣,我认为这正好是我专业和兴趣的结合点。

因此,我决心朝这个方向发展,虽然当时还处于一个相对懵懂的状态,但内心充满了向往。

但我是直到研究生加入了伯晓晨老师课题组,才真正开始接触生物信息学,学习计算机和数学知识,并将其应用于生物学研究。

这让我有了实实在在的一手研究经验,并且我对这一领域始终保持着浓厚的兴趣。多年来,无论是工作还是继续深造,我都保持着这种兴趣驱动,这对我来说非常重要。

雷峰网:您刚才提到了人类基因组计划,这个全球性的项目对整个研究领域带来了哪些变化?生物信息学领域经历了哪些发展阶段,直至您目前的研究领域?

余光创:人类基因组计划对现代生物医学研究产生了深远的影响。

在该计划之前,研究工作主要集中在克隆单个基因及其产物上,研究进展相对缓慢。许多研究者可能一生都在研究一个基因或一个蛋白,而且通常是针对那些已知与疾病相关的基因。当时,我们对基因间相互作用的理解还非常有限。尽管人类与小鼠或黑猩猩的基因差异很小,但在调控层面的复杂性却有很大差异。

人类基因组计划完成后,我们获得了完整的人类基因组序列和较为完善的注释信息,这使得研究范式发生了根本性变化。

用一个比喻来说,以前的研究就像是在钓鱼,而现在则像是撒网捕鱼。

当下,我们可以先获取大量数据,然后让数据驱动研究,从而发现一些之前未曾预料到的线索。这种数据驱动的研究方式,不仅改变了研究策略,也加速了许多研究领域的发展,包括精准医学等。

如果没有人类基因组计划奠定的基础,这些进展是不可能实现的。

当好“工具人”并不简单

雷峰网:您目前的研究重点是哪块?近期有哪些新进展?

余光创:目前我的研究重点是组学数据分析和工具开发。我们进行了多组学研究,并针对微生物组学开发了 MicrobiotaProcess、MMINP、SVP 等软件包。

之于MicrobiotaProcess ,我们设计了一套数据结构来管理微生物组学数据,并提供了一系列分析工具。

之于MMINP ,可以通过微生物组学数据预测代谢组数据。许多人通过宏基因组或16S rRNA测序来鉴定肠道微生物,但往往缺乏相应的代谢物组学数据。我们开发的这个工具可以填补这一空白,做出更全面的分析。

此外,我们还开发了SVP软件包,专门用于单细胞和空间转录组学研究,可以在单细胞水平对细胞功能进行刻画,基于此,我们可以鉴定具有空间特异性的生物学功能。

目前,我们的工作主要集中在基础研究领域,尚未有具体的转化应用。但我认为这些研究成果是具有转化潜力的。

例如,我们通过预测得到的代谢物信息,理论上可以帮助我们节省研究成本。我们可以先通过计算方法进行初步探索,然后再通过靶向验证等方法进行深入研究。

雷峰网:您在开发生物大数据分析算法和软件时,有哪些方法论?这些工具如何帮助科研人员更好地探索和分析数据?

余光创:在开发算法和软件时,我们主要关注下游需求和应用场景。

在生物信息学领域,上游算法如序列比对等,通常注重准确性、速度和计算性能,而我们更专注于下游方法的开发和软件设计。即,如何将这些技术与生物学需求相结合,为生物学家提供实际帮助,发现分子机制。

在方法论和心得方面,我认为最重要的是,面向用户群体和软件生态系统。一个良好的生态系统和社区可以显著降低开发门槛,并促进不同软件包之间的协作与功能互补。

以我们开发的 clusterProfiler 软件为例,它面向广泛的科研人员,通过功能富集的数据分析,帮助他们探索分子机制,阐明各种生物学过程和通路如何受到扰动。

这种分析可以应用于多种疾病的研究,不局限于特定领域,而是可以适用于广泛的研究场景,因此它的使用范围非常广泛,受众群体也很大。

雷峰网:与此同时,这个过程中最大的挑战是什么?

余光创:在开发过程中,我主要是针对具体的应用场景,我们经常在数据分析中遇到一些问题,且手头并没有合适的工具。

其次,当前大数据时代,我们面临的一个主要挑战是计算能力,但算力并不总是容易获得。

例如,美国对中国的显卡出口限制对许多研究工作构成了限制。此外,许多大型IT公司也在进行类似的研究,与它们相比,高校在硬件资源上往往难以匹敌。

第三,问题的复杂性日益增加,团队合作变得越来越重要。当然团队协作可能是解决这些问题的一个关键因素,这本身也是一个挑战。

雷峰网:您目前的合作项目和伙伴有谁?

余光创:我目前有一个合作项目是与一位妇产科主任(宁波大学,陈夏)合作的,我们正在研究肠道菌群与多囊卵巢综合症之间的关系。

在这个项目中,我们收集了大量的宏基因组和代谢组数据。

在研究肠道微生物时,以往大多数研究都集中在细菌上。但我希望从噬菌体的角度来探讨这个问题,因为噬菌体可以感染细菌并调控其功能,并影响整个微生物群落的生态。

我们希望通过分析宏基因组数据,来探索噬菌体与宿主细菌之间的关系。此外,我们还自行收集了一些样本,使用特定技术捕获细菌和噬菌体之间的相互作用,并进行了相应的序列分析。

另一个合作项目是与神经生物学家(南方医科大学,曹雄和陶涛)合作,我们使用了小鼠抑郁症模型进行空间转录组研究。

我们在小鼠大脑具有代表性脑区的五个不同位置进行了空间转录组测序,希望通过这些数据找到与抑郁症相关的分子机制和信号通路。空间转录组技术能够在原位测试细胞,这对于神经科学研究来说是一个非常有前景的应用。

这项技术相对较新,我们目前正在进行这方面的合作和探索。

 时间验证一切

雷峰网:您在The Innovation、Gut Microbes、Molecular Biology and Evolution等期刊发表的论文中,有哪些特别有影响力的工作?这些研究成果对于生物医学领域的长远影响是什么?

余光创:如果要谈论影响力,我认为我们最有影响力的工作是之前提到的 clusterProfiler 工具。

它的第一版发表于2012年,已经过去十多年了。2021年,我们在《The Innovation》杂志上发表了一个新版本。这个工具被广泛使用,目前引用次数已超过25000次,对我们领域的研究产生了一定的影响。

实际上,许多学生和研究人员告诉我,他们在学习生物信息学时,首先接触到的就是我开发的这个工具包。因为它使用起来相对简单,能够快速为初学者提供反馈。分析完成后,我们可以得到许多可视化的结果,这有助于他们立即理解分析结果。

此外,另一个我认为有较大影响的工作是,我在博士期间开始的系统发育相关研究。

我们开发了一系列软件包,这些软件包不仅能够整合和可视化系统发育数据,还能帮助研究人员解析和映射各种数据到系统发育树上。随着实验技术的发展,我们现在拥有越来越多的高通量数据。将这些数据或分析结果映射到系统发育树上,可以帮助我们发现新的或意想不到的演化模式。

这些工作发表在《Molecular Biology and Evolution》杂志上,共有三篇文章;还有一篇文章最早发表在2017年的《Methods in Ecology and Evolution》上,后来该杂志在庆祝创刊十周年时,将这篇文章选为“十篇代表作”之一。

我还写了一本介绍这些工作的英文书籍,由国外的CRC出版社出版。这本书后来被翻译成中文版,并在国内由电子工业出版社出版。这本书受到了读者的喜爱,在京东上一度售罄。

这些工作可以说是我最具影响力的成果。很多研究成果的影响需要时间来验证,一开始可能不会立即被大家认为特别好,但随着时间的推移,如果使用的人越来越多,就说明这些工作经受住了时间的考验。

雷峰网:除了开发这些工具外,您是否也有数据库开发工作?

余光创:我们没有直接开发数据库。尽管数据库在生物信息学中扮演着非常重要的角色,但我们的研究重点并不在此。

当然,数据库的建立可能是一些研究者的工作重点,他们可能通过收集数据并发表文章来展示其成果。但有一个现象是,很多人为了发表论文而开发工具或数据库,一旦文章发表,他们就不再继续投入。

但我认为,数据库的真正价值在于,它能够持续积累数据资源,并促进研究者自身课题的研究进展。

雷峰网:您入选全球高被引学者、全球前2%顶尖科学家榜单和中国高被引学者。您能谈谈您的研究成果被广泛认可的经历吗?

余光创:对于我来说,我对自己开发的工具充满感情,始终在不断地维护和更新。比如,我之前提到的那个工具,从2012年发表文章到2021年发布新版本,这中间的九年时间里,我一直在持续进行维护和更新。

这种长期的维护和更新是可以看到的,也形成了一定的口碑。随着时间的推移,大家对我工作的认可度越来越高。因此,这也是一个积累的过程。当大家普遍认可你的工作,愿意使用你开发的方法和工具时,引用量自然会增加。正是由于大家的认可和支持,我才有幸入选了这些高被引学者的榜单。

雷峰网:我之前撰写了一系列关于生物信息学过去30年发展历程的文章,一些教授会提到过去生信研究者会处于一个尴尬的位置,可以说是辅助性角色,而非课题的主导者。现在这种状况有所改变吗?

余光创:情况确实在逐渐改善。

过去,我们的角色更像是辅助性的,因为我们不直接产生数据。其他课题组或基础研究、临床研究的同事产生数据后,他们可能不会分析,于是找到我们希望合作,我们基本上就成为了提供帮助的辅助方。

而且,我们在进行生物信息数据分析时,有时会遇到挑战,包括我刚才提到的,有时需要自己开发工具来解决问题,这并不容易,需要一定的专业背景和科研经验积累。

在基础研究或临床研究的同事眼中,他们有时可能会低估我们的贡献,认为我们只是个跑程序的工具人,因此我们的贡献在他们看来可能相对较小。这可能是因为他们自己的认知限制,难以准确评估合作者的贡献。这种情况以前让研究者感到尴尬。

但现在,情况有所好转。我们这一代可能比前辈们面临的挑战要小一些。

首先,现在获取数据的可及性更高。许多大型项目产生的大量数据都是公开的,我们可以根据这些公开数据进行研究。

而且产生数据的成本越来越低,以前数据生成成本很高,因此产生数据的研究者感到自己很重要。但现在,随着高通量数据方法的成本降低,我们越来越容易生成数据,生物信息学在分析和解读数据方面的需求和重要性越来越大。

另外,我们也可以通过数据驱动的方式,找到好的研究点或重要发现。继而可以寻找合作者来验证我们的假设和发现,这样我们就能够在一定程度上主导研究。

所以总的来说,随着生物大数据的普及,越来越多的研究者开始认识到生物信息学的重要性,它不是一个辅助学科,而是一个独立的学科,甚至在主导研究方面的作用将会变得越来越明显,认可度也会逐渐提高。

雷峰网:您认为未来几年内,这一领域将会有哪些新的趋势或突破?以及,您有哪些规划?

余光创:在规划方面,我认为当前的一个重点主题是人工智能。

这是一个无法回避的时代发展趋势,我们不期望人工智能完全取代或颠覆现有的方法,但至少能够赋予我们更多的能力,帮助我们解决更多问题。

在生信的应用场景中,人工智能的应用肯定会越来越多。众所周知,在蛋白质结构预测等领域,人工智能已经开始发挥作用,并有可能在转化研究中发挥更大作用。

虽然我和团队并非人工智能领域的研究者,但必须要拥抱人工智能,我的规划是,在我们擅长的领域内探索与人工智能的结合点。

雷峰网:关于人工智能,您和团队之前有在使用相关技术吗?

余光创:我们主要是用传统的机器学习方法。至于深度学习,我们之前并没有太多涉及。不过,在空间转录组分析中,我们正在尝试利用深度学习技术。

当前我们进行空间转录组的测量时,虽然是在谈论空间信息,但实际上我们处理的是二维的组织切片。我们正在尝试通过深度学习技术重建这些数据为三维结构,目前在这方面正在进行一些探索。

雷峰网:关于跨学科合作,您个人在这方面有哪些经验?或者对年轻学者有什么建议?

余光创:跨学科合作的经验,我认为关键在于多沟通、多交流。因为不同学科背景的人交流时,可能会存在语言和概念上的障碍。有时候你说的我听不懂,我说的你也听不懂。增加交流可以更好地理解彼此的需求和目标。

此外,跨学科交流还能打破学科界限,拓宽思路。无论是在合作项目中,还是在参加学术会议时,多听听别人的报告,都能开阔视野和思维。

对于年轻学者,我的建议是,跨学科学习确实不易,如我硕士导师所说,你需要准备好付出额外的努力。

但这并不等于,需要等到掌握了所有相关学科的基础知识才开始工作。这种方法是不现实的,因为你很难全面掌握所有知识,而且可能会偏离你的研究课题。相反,应该以项目为驱动,边做边学。

当然,跨学科也有其优势。不同的学科背景意味着不同的视角,没有哪个背景绝对优越。如果你能利用好自己的学科背景优势,并找到合适的切入点,你就能做出有特色、有特点的工作。

雷峰网:您现在还在指导学生吗?他们主要的专业背景是什么?

余光创:是的,我要指导学生。目前我的学生大多数是生物信息学专业的。他们在本科阶段可能就已经学习生物信息学,因为我们学校本身就有这个专业。

此外,还有一些学生来自生物技术、生物制药等生物领域。

计算机科学的学生在我们这里相对较少,因为我们是医科大学,学生可能更关注与生物医学相关的领域,因此这类背景的学生更倾向于选择我们。

我目前指导毕业的学生还不多。有的学生出国深造,有的在医院担任科研人员,还有人进入公司工作,从事生物信息技术开发和数据分析等与我们专业紧密相关的工作。

所以,他们的就业方向通常与生物信息学领域相关,无论是在高校、医院还是公司。

本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,欢迎同道微信交流:icedaguniang  

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/xEc9LwCgXfltah79.html#comments Thu, 25 Apr 2024 10:40:00 +0800
在 AI 制药圈「做局」的英伟达们 //m.drvow.com/category/shengwuyiyao/CgUfrpwp9DWxiQSZ.html “研发一款创新药,需要十年时间、十亿美元。”

在制药业漫长的历史中,这句话仿佛一个魔咒,吞噬着无数药企的时间和资源。

凭借在药物设计阶段展现出的高效率,AI制药一度被寄希望于颠覆传统制药流程。

在资本市场的追捧之下,AI制药也曾在二级市场写下神话,例如上市于2018年的BioXcel Therapeutics,2020年至2021年间股价暴涨近6倍。

二级市场的欣欣向荣一度引爆了AI制药一级市场,投资热潮蔓延至国内,尚未进入二级市场的中国AI初创药企们备受资本追捧,如融资总额超7亿美元的晶泰科技、估值增长了数十倍的英矽智能等等。

“几年前TMT基金大量转入医疗赛道时,很多都选择了AI制药这个方向,他们的估值逻辑和医疗行业原本的估值逻辑完全不同,对当时的一些项目给出了过高的价格。”

一位医疗基金合伙人陈俊解释,站在风口上的AI制药初创公司们被捧上了原本不属于他们的高度。

狂欢过后,二级市场开始进入冷却期,AI制药上市公司大部分开始出现亏损,一级市场的资本也迅速退潮。

2023年接近尾声,AI制药乃至生物医药行业仍在持续忍耐寒冬,大洋彼岸AI制药临床管线折戟、企业裁员的消息不断传出,而中国的AI药企们,却开始尝试在寒冬中登陆二级市场。

赴港申请IPO的英矽智能首次提交的招股书已于12月28日失效,晶泰科技又将面临怎样的命运?

在中国市场,还有更多的AI药企距离上市遥遥无期,仍在行业寒冬中为融资挣扎,因为资本的不断撤退而断绝生机。

“中国AI制药第一股”的名头不好拿

“一上市就会下跌,直至跌到一个各方达成共识的价格,才会稳定下来。”

生物医药赛道投资人李晴说起赴港申请IPO的晶泰科技时,态度并不乐观,“作为一家CRO公司,却没有稳定的现金流生意,即便进入二级市场,也很难有好的表现。”

今年11月30日,从事CRO服务的AI制药公司晶泰科技向港股递交招股书,申请上市。

在AI制药领域,晶泰科技是第二家赴港申请IPO的公司,英矽智能早在半年前就已经向港股递交招股书,在晶泰科技申请IPO前不久,英矽智能的上市备案已被证监会予以确认,同意发行7089万股。

据港交所12月28日日常更新显示,英矽智能首次提交的招股书目前已经失效。

虽说招股书失效并不等同于企业IPO失败,但一定程度上也表明了英矽智能的上市之路并不是一帆风顺,而较晚一步申请IPO的晶泰科技,或许也将面对相似的情况。

英矽智能与晶泰科技为何要选择现在上市?其中一个原因或许是来自于投资人的压力。

在2020到2021年间,资本市场抱着极大的热情与信心将资金注入AI制药赛道,其中成立于2014年、发展较为迅速的英矽智能与晶泰科技,在AI+自研管线与AI+CRO服务两种不同的发展路径的AI制药公司中算得上是代表案例,彼时正处于C轮、D轮融资的两家公司在一级市场吸纳了无数资金。

以晶泰科技为例,2021年度全球AI+药物研发领域共发生73起融资,总额超42亿美元,其中仅晶泰科技的D轮融资就高达4亿美元,占全年融资额的近十分之一;英矽智能也在2021年拿到1.87亿美元的高额融资。

重注的投资人们,期待着AI药企为他们带来丰厚的回报,作为后期入场的基金,最好的退出方式就是二级市场。

“如果企业在上市之前被收购,按照现在的行情来看,金额肯定不会特别好看。”李晴分析,从投资人的角度来看,还是等企业进入二级市场后再退出会更合适。

虽然如今二级市场的行情也不好,但至少是不断波动的,投资人可以在合适的时机灵活选择退出,只要退出时的价格比买入时高就是赚了。

即便遇到最坏的情况——上市即破发,对投资人来说也只是赔多赔少的问题,“如果一直拖下去,公司死掉了投资人可就全赔光了。”

除了来自投资人的压力,对英矽智能与晶泰科技自身来说,也到了不得不上市的时候。

2021年7月晶泰科技获得4亿美元的D轮融资后,在长达两年四个月的时间里再无资金注入,直至今年11月30日在港交所递表申请上市。

且作为一家以CRO服务为核心业务的公司,晶泰科技却始终没能实现盈利,自2020年起至2023年6月三年半累计亏损近50亿。

同时,晶泰科技的研发开支也不断攀升,2020-2022年以及2023年1-6月,分别为8354万元、2.13亿元、3.59亿元、2.34亿元,甚至超过同期内公司收入。

据晶泰科技招股书透露,公司预计2023年将继续亏损。

英矽智能面临的形势也不乐观,自2021年6月拿到1.87亿美元的融资后,后续两年里的3轮融资金额断崖式下降,仅为0.15亿美元、0.6亿美元和0.34亿美元,远远支撑不起公司做自研管线的巨额消耗。

如今的一级市场再也拿不到动辄数亿美元的高额融资,英矽智能与晶泰科技只能转向二级市场寻求新的出路。(添加作者微信qiaoyw186,交流更多AI制药行业消息。)

12月18日,赴港申请IPO半个多月后,晶泰科技便对外公布已与中国银行深圳分行签署战略合作协议,获得中国银行深圳分行总额不超过50亿人民币的授信支持。

“上市之后,企业在二级市场会有更灵活的资金渠道。”李晴表示,进入二级市场的公司信誉度会更高,未来甚至可以抵押股票换取资金用于企业发展。

进入二级市场的英矽智能与晶泰科技将面临怎样的命运,投资人们看法不算乐观。

陈俊认为,产线能力将决定公司在二级市场的表现,“AI制药公司的两条‘腿’要一起成长,一是自研管线的选择与进展,二是与大药企合作的能力。”

大部分AI药企作为初创公司,很难独立完成一条药物研发管线从开端到临床三期的全部工作,当管线推进到后期的时候,必然要与大药企达成合作,共同推进临床实验与产品开发。

因此,AI药企与大药企之间的达成良好的合作关系就尤为重要。

作为一家AI+Bbiotech公司,英矽智能当前的业务十分依赖于大客户,与复星、赛诺菲的合作为公司贡献了目前为止的绝大部分收入。

据招股书显示,2022年英矽智能来自五大客户的总收入为2730万美元,占当年总收入的90.6%。

过高的客户集中度或许将为公司的未来收入带来更多的不确定性。

而作为CRO服务机构的晶泰科技,不仅至今未能实现盈利,还在持续在研发、行政等方面进行远超营收数字的大额投入。

一家CRO机构,应该在公司发展前期通过客户订单把投入的钱赚回来,实现盈利后再继续投入、扩大产能,继而吸引更多的客户,形成正循环。

而晶泰科技的CRO订单收入还远远覆盖不了公司投入的成本,变成了反向循环,前期投入资金进行公司、团队建设,却接不到多少订单,接不到订单又继续投钱。

“上市即破发,大概率是晶泰科技的结局。”

而作为国内的领头羊,英矽智能与晶泰科技在二级市场的表现,也将直接影响国内AI制药一级市场的信心,“一级市场几乎永远跟着二级市场走”。(添加作者微信qiaoyw186,交流更多AI制药行业消息。)

会打算盘的英伟达

这场AI制药的寒冬仿佛看不到尽头,每当人们以为即将触底反弹时,就会迎来新一轮暴风雪。

据不完全统计,今年8月国内AI制药公司融资事件数达到本年度高峰,当月共有7家公司获得融资,到9月时,这一数字下降为4家,10月、11月则分别只有一家获得投资。

“今年下半年国内医药行业的大规模反腐对市场影响很大。”

投资人赵伟介绍,叠加医疗政策不清晰、医保议价情况不明确等原因,投资人们对AI制药乃至生物医药行业信心不足,“大家还没有想透中国创新药应该怎么发展。谁也不知道创新药上市了到底能不能赚钱。”

美国生物医药行业随着整体经济环境的好转有所回暖,但政府持续推进的药价谈判——“美国式集采”,同样对行业发展造成了负面影响。

业内投资越发趋于谨慎的情况下,一位特殊的投资者开始进入人们的视野。

今年以来,从事芯片设计与生产的人工智能计算公司英伟达开始频繁在AI制药领域投资出手,5月至11月半年间陆续投资了9家AI制药公司,其中有2013年成立、管线已进入临床三期的Recursion Pharmaceuticals,也有今年刚刚成立、募集种子轮投资的新公司。

在国际市场,近期发生的几乎所有大额融资中,都能看到英伟达的动作。

第一家被英伟达选中的Recursion Pharmaceuticals,在获得5000万美元的投资后股价上涨了78%。

与投资消息一同公布的,还有两家公司的合作:

Recursion计划利用英伟达庞大的专有生物和化学数据集(超过23PB和3万亿个可搜索基因和化合物关系)来加速NVIDIA DGX云上基础模型的训练,以便在NVIDIA的云服务BioNeMo上获得可能的商业许可/发布。

英伟达投给Recursion的钱,转了一圈又以数据费用和服务费的形式回到自己手上,这与CRO机构们几年前就在做的布局不谋而合。

在雷峰网此前文章《千亿市值的制药CRO巨头们,需要AI自救》中,曾介绍过CRO从药企的服务方变身投资人、曲线争取客户订单的策略,以获取更多的业务收益。

作为基础硬件设备的供应商,英伟达要不断发掘出更多需要持续的强大算力支撑的下游行业,才能撑起他们上游的业务量,AI制药刚好符合这一要求。

对英伟达来说,最希望医药行业的形态不断发展,最好所有的药企都用AI计算,所有的药企都买它的显卡。

那么,英伟达在制药行业的渗透率就会大幅提升,相当于开拓了一片几十个亿的新市场,并且几乎没有竞争对手。

相比未来可能从AI制药行业获得的回报,英伟达现在的投资实在微不足道。

“从投资的角度来看,制药行业是生物产业中单笔投资回报率最高的类别,只要投资的公司中出现一个重磅药物、达到10亿美元的年销售额,这家公司的估值就会达到数十亿甚至过百亿美元。”

赵伟指出,“英伟达在初创企业估值几千万或几亿美元的透明时期投资,未来获得的回报未必会比它卖显卡差,更重要的是,英伟达有能力承受失败的风险。”

科技、互联网等领域的头部大厂们布局AI制药,大多基于以上逻辑。

今年8月9日,亚马逊云宣布与生命科学行业商业服务提供商EVERSANA合作,共同推广AI驱动制药等应用;

10月25日,谷歌云宣布与生物制药上市公司Insmed合作,利用AI技术提高效率,减少新药开发和交付的时间。

腾讯、百度、阿里、字节等巨头也在持续布局,AI制药业内头部的英矽智能、晶泰科技等公司背后,都有这些大厂的身影。

巨头们都在培育自己的下游客户,下游的客户群体发展越稳定、越蓬勃,他们对上游产品的需求才会越明确。(添加作者微信qiaoyw186,交流更多AI制药行业消息。)

缩手的投资人,尴尬的B、C轮

不同于英伟达这类“放长线钓大鱼”、意在培育下游客户的投资者,大部分以一级市场投资活动为本职业务的投资机构们,并没有借助业务合作收回成本的机会,他们要考虑的核心问题就是投资回报。

投资人们并没有放弃AI制药,只是很少出手了。

根据不完全统计,截止11月底,今年国内获得融资的30家AI制药企业中,绝大部分都处于天使轮到A+轮阶段,仅有1家公司获得B+轮融资、2家公司获得C轮融资。

融资情况统计来源于公开资料

投资人们在这一轮选择中,明显更属意处于早期阶段的初创公司们。

李晴介绍,当前一级市场出现这样的投资风向主要受三方面因素影响。

其一,如今处于D轮、C轮甚至B轮阶段的公司,大多经历过TMT基金涌入医疗赛道“搅风搅雨”的日子,估值被拱得太高,远远超出公司的实际价值,对投资机构来说再投下去就不划算了。

其二,行业形势较差的情况下,投资人出手更谨慎,“大家都怕亏钱,处于早期阶段的公司投资金额一般比较小,即使公司没活下来也亏不多,风险在可控范围内。”

其三,AI技术近年来正处于快速发展、迭代之中,自去年以来新兴起的大模型技术为AI带来了颠覆性的影响,AI制药模型也随之有所进展,因此投资人们更愿意投资早期阶段的公司,期待它们做出与以往AI制药公司不一样的成果。

综合考虑各方面因素后,投资人们更倾向于选择早期项目,而非较为成熟的那一批公司进行投资。

处于B轮、C轮阶段的公司,则陷入了十分尴尬的处境中。

A轮及以前的初创企业,仍旧有投资人愿意持续注入资金,且公司在这一阶段的资金消耗较少,即便遭遇行业寒冬,也可以暂停研发进展、缩减团队规模,“处于僵尸状态撑个两年问题也不大”。

已经融完D轮的公司,例如英矽智能、晶泰科技,即便在一级市场融不到钱,也能另寻出路,转向二级市场谋求生机。

只有B轮、C轮的公司卡在中间不上不下,行业火爆时估值被拱到天边,导致如今无人敢再接盘,而公司的产品又尚未得到充分验证,当年的融资不足以支撑公司走到明显的里程碑阶段,离上市更是遥遥无期。

想要活下去,也许只能向资本妥协,主动降估值或是接受其他更加苛刻的条款。

人们对AI技术与药物研发融合的尝试仅仅过去十年,相比制药行业百余年的历史,AI制药依然是一项新兴产业,还需要一定的时间进行验证,才能发展成熟。

观望中的投资人们也在期待着一条顺利度过临床实验的管线出现,重振一级市场的信心。

作者注:文中陈俊、李晴、赵伟为化名。添加作者微信qiaoyw186,交流更多AI制药行业消息。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/CgUfrpwp9DWxiQSZ.html#comments Fri, 29 Dec 2023 14:42:00 +0800
千亿市值的制药CRO巨头们,需要AI自救 //m.drvow.com/category/shengwuyiyao/Em5uqLm4wKvXLhyP.html “国内的CRO企业,价格战非常严重。”

疫情放开一年,CRO从业者刘明还未感受到行业的复苏,迎接他们的只有极度拥挤的赛道与数量锐减的药企订单。

通俗来说,CRO是指医药研发外包。

CRO行业于20世纪70年代后期在美国兴起,1996年,加拿大制药公司美底生公司投资,在北京设立了中国第一家真正意义上的CRO,从事新药的临床研究。

后来,其它的跨国CRO企业先后在中国设立分支机构,如昆泰(Quintiles Transnational)、科文斯(Covance)及肯达尔(Kendle)等,中国本土的药明康德、泰格医药、昭衍新药等CRO企业也陆续发展壮大。

有人将药企比作挖矿人,最终成功上市的药物管线是金矿,CRO就是那个卖铲子的人。作为服务于药企研发的外包组织,CRO的行情与生物医药市场息息相关。

今年以来,CRO们的日子却不太好过。刘明所在的CRO公司,旗下有着数条价值过亿的生产线,每年仅设备维护费用就高达数千万,如果接不到订单,就相当于每天都在亏损。

同时,作为人力密集型行业,公司旗下还养着大批的药化团队,每个月的薪资支出也是庞大的资金流水,一旦开不出工资,团队将面临分崩离析的风险。

12月初,药明康德、康龙化成、泰格医药、昭衍新药、凯莱英等龙头集体大跌。当时,一位投资人分析,是与药明生物下调业绩预期有关。

实际上,今年三季度,国内CRO股业绩下滑就已现端倪:凯莱英三季报营收、净利润均下降超18%,昭衍新药营收虽然保持增长但净利润却几乎腰斩,药明康德、康龙化成、泰格医药虽然业绩同比继续增长,但是环比基本也都下滑。

恶劣的行业形势下,CRO人人自危。这些耕耘多年的传统CRO机构,一边在行业寒冬挣扎求生,一边还要应对新对手AI制药公司的冲击:一部分AI制药公司依托于AI,开始为药企提供药物设计服务,不断蚕食CRO行业的蛋糕。

CRO已经到了切换下一条赛道的关键时刻。

01 当传统CRO遇上AI“卷王”,躺赢的日子一去不复返

“AI制药技术出现时,我们十分担忧是否会影响CRO的业务。”

CRO行业资深从业者赵一玮,回忆起三年前那一场来势汹汹的AI浪潮——以AlphaFold 2为代表的科技力量,产生了“革命性”的行业影响。

2020年,二级市场有6家AI制药标的扎堆上市,其中最火的Schrödinger(薛定谔)市值高达四十亿美元。

TMT基金闻风而动,大量资金迅速涌入生物医药领域,打造了一批由AI驱动的药物研发公司。

AI对药物研发的加成最先体现在药物发现环节。

作为劳动密集型的工作,化学合成早在十余年前就被药企剥离出来,交由专门的CRO进行,通常要先合成数千甚至上万个候选化合物,再从中筛选出数百个进入临床前研究。

AIDD(人工智能辅助药物设计)出现之后,凭借强大的预测能力缩小了候选化合物的范围,为药企降本、增效的同时也节约了资源。

比如2020年英国AI制药上市公司Exscientia公司开发了一种完全由人工智能设计的强迫症药物DSP-1181,在当时即将进入临床人体试验。

得益于AI技术,这款药物的开发时间由四年半缩短至不到12个月。

对CRO机构来说,这可算不上好消息。

另一位CRO从业者周宁感慨,“CRO机构才不管资源浪不浪费、行业进不进步,他们得赚钱。”(欢迎添加作者微信qiaoyw186,交流更多CRO行业消息)

AI的强势入局使CRO业务中的CADD(计算机辅助药物设计)与早期测试两大板块都受到了影响。

另一方面,AIDD的高预测性,使得其候选化合物的数量相比CADD大幅减少,这会直接削减CRO早期测试阶段的业务量。

换言之,传统CRO公司可以躺着挣钱的日子一去不复返了,因为有AI这个“卷王”的加入。

不过,AI制药公司逼着传统CRO一起卷,但是两者也存在着既是对手又是合作伙伴的“矛盾”关系——AI制药公司和传统药企一样,依赖于CRO机构帮助他们完成大量的化学合成与生物测试工作,这为CRO带来了新的业务量。

举一个通俗的比喻:AI制药公司打了CRO一棒子,但也给了CRO一些甜枣。

CRO为二者提供的服务基本一致,不同之处在于,AI技术设计的药物有着更强的针对性与可预测性。

一方面,AI制药公司为CRO机构给出了明确的测试方法,要求CRO机构严格执行,一定程度上降低了CRO机构在方案设计上的难度;

另一方面,AI制药公司对产品在CRO测试中的结果也有着明确的预期,更加考验CRO机构的综合实力。

这让CRO机构既有甜蜜,也有压力。

传统制药公司是“撞大运式”的测试,他们对产品的测试结果没有明确的预期,即便CRO机构的测果失败,传统制药公司也只能据此结果调整自己的产品。各CRO的表现差异性不大,毕竟候选分子的特性,都是以CRO机构的测试结果为准。

周宁表示,“但AI制药的情况不同,他们的候选分子都是经过大模型预测的,有明确的结果预期。这些公司会将CRO得到的实验结果与自己AI预测的结果进行比对,分析结果的差异性。针对某些不一致的结果,AI制药公司甚至会要求CRO重复实验,以进一步判断实验结果的可靠性,这对CRO行业来说是也一种挑战。”

因此,想要在新一轮竞争中抢占市场先机,CRO也必须借助AI的加持,既是为了更好地服务AI制药客户,也是为了转战新的战场。

正如周宁所说,“药物设计之后的早期测试环节,市场将会急剧萎缩,CRO已经到了切换下一条赛道的关键时刻。”

02 AI公司虎视CRO业务,目标瞄准药康明德

AI制药研究的主力军——大批的AI初创药企们,大致有三种主流商业模式:SaaS服务、CRO服务以及自研管线。

其中商业回报最高的自然要数自研管线。只要熬过前期“十年时间、十亿美金”的魔咒,药物一经上市即可为企业带来丰厚的报酬。

“但这条路必然会被种种顾虑束缚,(自研管线)远没有SaaS与CRO模式轻盈。”

相比之下,风险低、回报快的CRO业务,反而成为大量AI初创药企的首选,他们加入本就拥挤的CRO赛道,和传统CRO们抢夺同一块蛋糕,不断冲击前辈们的生意。

这其中有一家代表性的企业——晶泰科技。

2014年,来自麻省理工学院的四名博士后温书豪等人,在美国波士顿成立了AI制药公司晶泰科技。

联合创始人赖力鹏、温书豪、马健

2015年,晶泰科技初创团队回国,成为国内最早的AI药企,并获得了由腾讯领投的2400万A轮融资。

凭借这笔资金,晶泰科技建立起位于北京的人工智能研发中心,将大量资源投入到小分子药物晶型结构预测的研究上,拿下了辉瑞等头部药企客户。

晶泰科技也成长为国内头部的以CRO服务为核心的AI制药公司之一(下文简称AI CRO),并于今年11月30日向港股提交上市申请。

相比药明康德、昭衍新药等传统CRO公司,既有AI能力,又想做CRO服务的初创企业就像是一个“复合型人才”。

但是,正如上文所说,这类AI CRO公司的短板也会比较明显——AI发挥作用的环节只在药物发现阶段,对在临床前及临床研究阶段却无力干预,利润空间十分狭小。

我们将目光拉远,放在整个药物研发流程环节之上,就会发现AI能做的事情并不太多。

即便是曾经让赵一玮等传统CRO从业者颇为担忧的AIDD环节,AI技术目前也并没有发挥出颠覆行业的实力,还有颇大的提升空间。

赵一玮打了个比方,假设研发一款药物的需要合成、筛选10000个化合物,AI技术如果能够将这一数字缩减为1000个,将对CRO的业务造成毁灭性的打击。

然而,AI技术如今力所能及,只是将10000个化合物缩减至9500个。“少做几百个化合物并不会让CRO伤筋动骨。”赵一玮坦言。

仅仅依靠AI,或许能够让这些瞄准CRO服务的AI初创公司从传统CRO机构手中分一杯羹,却还不足以支撑它们在行业中扎根。

“AI能解决的问题有限,不论从周期还是资金投入上看,在整个制药环节中占比都不足1/10。”生物医药领域投资人李成表示,“临床端的投入才是大头。”

AI CRO企业想要发展壮大,首先要丰富服务类型,不能仅仅局限于AI技术。

以小分子药物为例,进入临床阶段以前整体投入在2000-3000万元之间,而CRO公司在这一环节能够赚取的服务费用仅有一两百万。(欢迎添加作者微信qiaoyw186,交流更多CRO行业消息)

李成表示,企业要把业务铺开才能吸引客户。

作为龙头企业的药明康德,从药物发现环节,到临床前的生物实验、化学实验,再到临床一、二、三期及临床药物生产,以及最后的药物商业化生产,实现了对药物研发全流程的覆盖。

其他头部CRO即便做不到像药明康德一样全面,也会覆盖研发流程中的大部分环节,以提升公司利润。

因此,为主动掌握议价能力、保障利润空间,这些AI CRO公司不得不以AI辅助药物设计的服务为起点,不断延伸自身服务链条,最终成长为更全面的CRO公司。

例如上文提到的晶泰科技,已经率先在药物发现之后的环节进行了布局。早在2019年,晶泰科技就建立化学合成实验室,开始向药企提供化合物设计与合成服务。

凭借逐渐拓宽的服务链条,以及更早积累的AI能力,这些愿意铺开业务的AI公司在CRO行业有了立足之地,甚至有了与药明康德等行业巨头掰手腕的实力。

当AI CRO企业只做药物发现环节时,他们的服务对象既可以是药企,也可以是不具备AI能力传统CRO机构,AI CRO与传统CRO机构尚能互利互惠。

随着AI CRO服务链条的不断延伸,二者终将站在对立面。

03 传统CRO何以求生?将AI变成自己的工具

传统CRO们对AI技术,并不是固步自封。

这几年,药明康德不断招募算法和数据人才自建AI团队,公司旗下负责一体化靶标与先导化合物发现解决方案的HitS事业部,很早就开始将计算化学、CADD和深度学习等方法用于苗头化合物的开发;

维亚生物旗下的计算化学部也从以往的CADD研究拓展到探索AIDD技术;

泓博医药2019年就成立了CADD/AIDD技术平台,并与AI公司深势科技达成合作,利用其Hermite药物计算平台,实现工业规模的先导化合物优化筛选,提升药物研发效率;

药石科技早在五年前就成立了专门的AI团队,开发了基于该动态超大化学空间的AI先导化合物发现算法,帮助提高药物筛选的命中率,该算法经过内部验证后,2022年底已正式对外服务。

一位接近药石科技的人士告诉雷峰网,“公司在AI领域的提前布局,正是为了AIDD这部分工作将来从药企走向外包做准备。”

为补齐AI短板,有些财大气粗的CRO选择直接收购小型AI CRO公司。

李成指出,在融资困难时期,小的AI CRO公司现金流减少、估值下跌,正是收并购的最好时机。

当前AI制药公司以及大型药企的AI部门,都具备做自己AI研发的能力,当这些企业逐渐发现使用CRO机构的AI服务,比自建团队更具性价比,AI制药就会像曾经的化学合成一样被剥离出药企。

“除非药企能够训练出独一无二的模型。”

这与周宁的看法不谋而合,“我们应该把工作从甲方手中抢过来,变成我的AI服务,帮助AI制药企业、大型药企等客户完成AI辅助药物研发的工作。”

在他的设想中,未来的AI制药模式下,甲方只需要出一个idea,其余的全部交给CRO来完成——CRO将承担起整合AI资源的角色。

经历过技术爆发初期对AI的狂热后,药物研发的从业者与投资人们逐渐趋于理性,认识到AI无法成为竞争壁垒。

李成介绍,AI只有在面对人力密集型公司时,才有高效率、低成本的明显优势。

“AI不会颠覆行业,而是会渗入行业。”李成预测,“AI未来会成为一个制药行业通用型的工具,帮助人们探索在现实空间极限中无法触及的可能性,而这或许就是成药的新机会。”(欢迎添加作者微信qiaoyw186,交流更多CRO行业消息)

04 从供应商变身投资人,曲线争取客户订单

CRO是一个看得见营收天花板的行业,身处漩涡之中的传统CRO机构,自然也清楚这一点,早在行业寒冬来临之前,CRO们就已经在寻找新的增长点,例如尝试以投资Biotech新公司的形式布局研发药物研发。

曾在某头部CRO公司任职的李林介绍,自2019年起,他帮助公司建立起系统化的投资业务,领导过近五十家企业的投资,其中不乏AI制药公司。

他指出,传统CRO投资的Biotech公司,一般只占其20%-25%的股权,不会超过30%的红线,以避讳“CRO不做自研管线”的行业禁忌。

在投资项目的选择上,CRO机构也有一套自己的逻辑。

在维亚生物高级副总裁蔡建华看来,当前AI制药行业的商业模式闭环依然在探索,AI制药公司想要通过AI服务产生巨大价值从而获得回报并不容易,“目前更受认可的模式还是生物技术公司管线模式,这也是众多AI公司所选择的商业模式。”

因此,维亚生物在筛选投资企业时,也会更加注重企业所持有的研发管线,“如果管线研发顺利,将来这些公司被大型药企收购,维亚生物作为早期投资人自然就能退出。”

除投资回报外,CRO的投资行为还能够为公司带来可观的业务收益。

比如药明康德投资了英矽智能,同时也作为乙方为英矽智能进行合成和测试的工作。

英矽智能首款AI设计的药物进入临床I期后,与药明康德旗下的合全药业合作,由合全药业为其提供管线产品原料药、制剂等开发工作以及新药申报等一系列服务。

周宁指出,CRO机构在投资时,一般会将公司与被投企业的业务合作写进合同里,“投了10个亿进去,换回来业务可能是 50个亿、100个亿,杠杆作用非常大。”

一位头部CRO机构高管告诉雷峰网,公司每年约有20—30%的CRO业务来自于被投企业。这正是CRO的投资布局带来的最直观的回报。

借助这些投资活动,CRO机构既实现了对制药行业上游技术的布局,又提前养成了未来客户。(欢迎添加作者微信qiaoyw186,交流更多CRO行业消息)

05 结语

作为人力密集型产业,国内的CRO行业具有明显的人力、物力成本优势,随着国际药企CRO业务向中国转移,以及国家政策的不断推动,2015年以来中国的CRO行业迎来了长达数年的红利期。

直到2022年生物医药行业遇冷,投融资收缩导致行业下游需求持续走低,中国CRO进入了看不到尽头的寒冬。

实际上,即便是在行业红利期时,从业者们对CRO行业近在眼前的天花板也早有认知。

不论是加码AI技术、投资Biotech企业甚至是亲自下场做自研管线,都是CRO们试图开辟新的增长曲线、反哺既有业务的一场场自救。

在AI时代,留给CRO巨头们的时间已经不多了。图片

作者注:随着A股Q3季度报的披露,医药生物行业展现出了穿越周期的韧性:生物医药企业中八成以上实现盈利,度过两年的产业蛰伏期与估值消化期后,行业开始回暖。

AI制药却仍旧不被看好,有投资人表示,AI制药企业的估值仍旧虚高,只有良币驱逐劣币之后,行业才能回归正常。

雷峰网后续将推出新话题《AI制药的估值逻辑》,欢迎添加作者微信qiaoyw186交流。


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/Em5uqLm4wKvXLhyP.html#comments Thu, 21 Dec 2023 15:36:00 +0800
未知君FMT药物XBI-302获美国FDA反馈,可进入临床二期 //m.drvow.com/category/shengwuyiyao/PhbKLpOZYX5TwzPs.html 日前,未知君宣布其代号为XBI-302的肠菌移植(后简称:FMT)药物,EOP1申请获美国FDA反馈,可正式进入治疗急性移植物抗宿主病(aGvHD)的临床二期试验阶段。

公开信息显示,XBI-302的历次管线进展,均缔造了中国微生态制药领域的里程碑。根据来自Informa Pharma Intelligence的公开信息,2021年,XBI-302成为中国微生态制药企业首个获得其临床批件的FMT药物;此次XBI-302获得许可进入临床二期,再次成为行业年度事件。

未知君联合创始人、CEO谭验博士表示,“XBI-302获批是未知君的重大管线进展,也推动着中国微生态制药再次向前迈出一大步。2022至2023年,全球已有两款FMT药物率先获批上市,验证了肠菌移植的成药、上市路径。XBI-302瞄准在具有紧迫临床需求的急性移植物抗宿主病,未知君将继续推进这一管线的快速开发和申报,期待尽快为患者带来临床收益。”

XBI-302主要适应症为胃肠道受累的急性移植物抗宿主病,后者是移植物抗宿主病(GvHD)的一大分型。该病是异基因造血干细胞移植后的常见并发症,是指供者的免疫细胞攻击受赠者的脏器,产生的临床病理综合征。

XBI-302将患者体内遭破坏的肠道菌群置换成健康菌群,在不影响移植物抗宿主病治疗的前提下,帮助机体重建免疫系统,最终实现减少疾病复发、改善愈合。 

FMT治疗通常操作复杂,并且菌液不便于保存。XBI-302依托于在美注册申报过程中建成的一套在生产流程、工艺、质量标准等方面均获得美国FDA认可的微生态药物生产体系,将活菌成分以胶囊的形态保存,弥补了传统治疗方式在运输和时效性上的不足。 

XBI-302的临床一期试验是一项两部分、随机、安慰剂对照、双盲、单中心的研究,旨在评估XBI-302口服给药在健康志愿者中的安全性和耐受性。共入组了36例健康受试者,结果表明XBI-302在单次/多次递增剂量下,均安全且耐受性良好。

据悉,随着供体及其提供肠菌的不同,FMT药品有望治疗更多种疾病。下一步,未知君在加快XBI-302临床试验进程的同时,将借助AI微生物组研究与产业转化平台,进一步拓展FMT肠菌移植其在其他适应症的治疗潜力。

在进行药物注册申报的同时,未知君也在国内积极拓展FMT肠菌移植的医疗技术转化,与医院、大健康机构合作,提供可有效干预多种慢性疾病、亚健康症状的FMT解决方案,让前沿科学技术造福更广大人群。

未知君以FMT管理工具与配套产品支撑,提供贯穿移植FMT全周期的整体解决方案。方案提供包括FMT产品开发、检测与分析服务、移植后养菌产品、定制微生态方案、菌群资源库建设、技术支持与培训、数据分析服务、咨询服务在内的“八位一体”全矩阵服务,致力于为各级医疗机构、健康中心提供高品质的FMT定制服务与技术支持。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/PhbKLpOZYX5TwzPs.html#comments Thu, 21 Dec 2023 09:00:00 +0800
未知君基因工程微生物管线,获批进入临床二期试验 //m.drvow.com/category/shengwuyiyao/VvaWrOl81vbkYPaG.html 近日,深圳未知君生物科技有限公司(后简称“未知君”)宣布,其适应症为糖尿病足溃疡,注册申报代号为AUP1602-C的药物管线,正式获得国家药品监督管理局(后简称:NMPA)的临床试验批准通知书,可在国内直接进入临床二期试验。

公开信息显示,AUP1602-C是首个在NMPA获得临床批件的基因工程菌药物管线(信息源:国家药品监督管理局药品审评中心,医药魔方数据库,全文同),为中国微生态药物研发再次树立全新里程碑。

目前,糖尿病足溃疡正面临全球性医疗困境,仅在我国,每年就有数以百万人因此面临截肢风险;我国糖尿病人占比已超过10%,糖尿病足溃疡的医疗负担尤其沉重。AUP-1602C快速进入临床二期,有望尽快满足该疾病患者巨大、迫切、未被满足的临床需要。

未知君联合创始人、CEO谭验博士称,“很高兴看到AUP1602-C成为未知君第一个进入临床二期的项目,这也标志着未知君进入了一个全新的发展阶段。公司成立以来短短六年的时间里,在药物管线研发上已形成完善、高效、互补的中美双报布局,各药物管线经过科学决策、高效研发,也已形成了梯队推进的态势。

AUP1602-C在国内顺利进入临床二期,是未知君在药物研发,FMT和益生菌三大战略布局向前迈出的一大步,也是公司长期致力于差异化创新和商业化落地策略下的又一项亮眼的成就。”

据悉,AUP1602-C是欧洲药物研发企业Aurealis Therapeutics在研的一款经过基因工程改造的乳酸乳球菌,也是一种非致病性益生菌。

其内部搭载多种再生因子的编码基因,可表达人类碱性成纤维细胞生长因子(FGF2、bFGF)、白细胞介素4(IL-4)和巨噬细胞集落刺激因子(CSF1、mCSF)。AUP-16于伤口处局部给药并覆盖敷料,用于治疗糖尿病足溃疡、下肢静脉溃疡、压力性溃疡等慢性伤口。

进入伤口微环境的AUP-16相当于数以百万计的“免疫激活生物反应器”,随即启动再生因子的表达,持续调控免疫系统,通过诱导M2巨噬细胞极化来逆转慢性炎症,在此基础上,通过促进血管新生、肉芽组织形成和再上皮化来最终实现伤口的快速和完全愈合,创新性解决当前主流疗法有效性和成本控制的两难困境。

2022年,未知君与Aurealis Therapeutics共同宣布,就开发及商业化该管线达成大中华区独家合作与许可协议。公开信息显示,这是亚洲首个合成生物学药物管线的全球化合作项目。未知君随后向NMPA递交临床试验申请,并于2023年08月31日获得受理;最终,于日前获得正式批准,得以在国内直接进入临床二期试验。

AUP1602-C是国内第一个申报的基因工程改造活菌制剂,由于中欧监管的差异,导致AUP1602-C中国IND的申报面临诸多挑战。未知君团队积极与NMPA就相关问题进行了沟通,最终与NMPA达成一致。

目前,该药物在欧洲正在同步开展临床试验,临床一期已经完成,所有受试者按“3+3”剂量递增原则分为安全剂量、低剂量、中剂量和高剂量组,共计16例患者接受AUP1602-C局部治疗。

临床结果显示,AUP1602-C表现出了良好的安全性、耐受性和积极的疗效,无剂量限制性毒性或全身毒性发生,无严重不良反应,83%的患者达到完全愈合。临床二期试验在欧洲也在开展过程中,正处于患者入组阶段。

目前,将合成生物学技术应用于药物研发等产业化场景,在全球范围内尚属前沿学科及新兴领域。AUP1602-C在中国NMPA获得临床试验批准通知书,直接进入临床二期,标志着未知君围绕合成生物学技术进行活菌药物开发的技术平台、申报路径已处于国际先进水平。

与此同时,AUP1602-C的注册申报工作,也打通了基因工程微生物药物在国内进行注册申报的可行性路径,引领、推动了行业的健康、快速发展。

下一步,未知君将和欧洲伙伴一起,加速临床试验的进程;同时着手技术转移,最终实现该产品的本土化生产。未知君也将进一步加深与欧洲合作伙伴在研发层面的合作,就该药物在更多适应症上的治疗进行探索。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/VvaWrOl81vbkYPaG.html#comments Thu, 16 Nov 2023 10:00:00 +0800
46人上榜!腾讯「新基石研究员项目」公布第二期资助名单 //m.drvow.com/category/shengwuyiyao/4cdHrIhq0LxSwXGc.html 10月30日,经过7个月的前期工作,2023年第二期“新基石研究员”名单终于揭晓。

本期入选的新基石研究员共46位,来自13个城市28家机构,平均年龄47岁。在项目设置的两大领域中,数学与物质科学领域入选21人,生物与医学科学领域入选25人。

从地域分布来看,天津,济南、武汉,广州等城市首次上榜;

从机构来看,研究员的分布也更为广泛,良渚实验室等新型研究机构、四川农业大学、云南大学、香港科技大学等高校第一次有了“新基石研究员”。

“新基石研究员项目”是一项聚焦原始创新、鼓励自由探索、公益属性的新型基础研究资助项目。由腾讯发起,10年内出资100亿元人民币,长期稳定地支持一批(200~300位)杰出科学家开展探索性与风险性强的基础研究,实现“从0到1”的原始创新。

资助类别分为两类:实验类每人5年资助2500万元,理论类每人5年资助1500万元,研究员对资金使用有充分的自主权。

连续资助 5 年之后,该项目的科学委员会将对每一位研究员进行一次评估,如果通过会继续支持5年,也就是一共可以有10年的支持。未通过的也会获得2年的缓冲期。

雷峰网《医健AI掘金志向》对话了中国科学院院士、西湖大学校⻓、“新基石研究员项目”科学委员会主席施一公,他回顾了两期遴选的概况:

去年是从近1000位申请人中选出了58人,今年是从583人中选出了46人,两期共有104人入选,鼓励科学家们进行原始创新和自由探索,据了解,这是目前国内社会力量资助基础研究力度最大的公益项目之一。

作为年轻的科研资助项目,“新基石研究员项目”还在持续优化。

最明显的一大调整体现在项目开放周期,在2022年、2023年连续两年开放“新基石研究员项目”之后,第三期“新基石研究员项目”将于2025年开放申请,并形成每两年开放一次的长期制度。

新基石三大特色:企业出资、科学家主导、选人不选项目

2022年4月,“新基石研究员项目”正式启动,今年已经是第二个年头。

坚持“宁缺毋滥”的原则,第二期“新基石研究员”计划资助不超过50人,实际入选46名。数学与物质科学领域共21人,包含数学与理论计算机领域5人,化学7人,物理学9人;生物与医学科学共25人,包含生物学17人,医学科学8人。

46位研究员平均年龄47岁,远低于55岁的申报门槛,包括5位女性科学家、10位“80后”,最年轻的年仅38岁,来自清华大学数学科学系的薛金鑫。

从28家科研机构的分布来看,北大、清华各有8人入选,中国科学院有7位,中国科技大学3位、复旦2位、上海交通大学等高校和机构都各有1位科学家入选。

据施一公介绍,新基石项目采取单位推荐和自由申报两种方式,其中自由申报入选20人。

施一公院士

今年特别重要的是,有3位来自临床一线医师科学家入选,分别是徐文东医生(复旦大学附属华山医院)、苏士成医生(中山大学孙逸仙纪念医院)、黄秀娟医生(香港中文大学医学院)。

“医师科学家”,是指独立开展医学科学研究的临床医生,他们从临床实践中凝练重要科学问题,通过科学研究取得重要突破。

此外,透过今年入选人员的研究关键词,也凸显目前基础研究最前沿的一些领域。

在数学与物质科学里面,有量子通信、催化加氢、光学微腔、大模型凝聚态物理、高分子化学、两项湍流、欧拉方程等。在生物与医学科学领域,关键词有表观遗传、脑可诉、单细胞测序、代谢物、机械力感知、人脑、登革病毒等。

据悉,今年“新基石研究员项目”终审现场,绝大多数答辩人的PPT里只有一页个人简介和以往荣誉,他们更多地是展示自己对科学问题的设想与思考。也有答辩人略带羞涩地表示:“我参加别的项目答辩,应该不会说这个想法,有点像吹牛,但这个问题我已经思考了十来年。”

评价他们的是近千位具有国际视野、在国内外经历过大型科学项目评审的一流科学家,他们按照原创性、重要性、突破性三个标准,对申报人进行评审。

中国科学院生物物理研究所研究员、中国科学院院士王志珍担任该项目的监督委员会主席,她在在第二期“新基石研究员”名单名单发布会上指出,“新基石研究员项目”采取严格的回避制度,同时对任何形式影响评审工作的不当行为“零容忍”。

其一、在评审机制上,“新基石研究员”的遴选需要经历初筛、初审、终审三个阶段,并实行了‘断开式评审’,避免同一批专家“一评到底”。与第一期有所不同,今年的“初审”阶段首次实现了100%的海外同行评审,旨在最大程度地体现多样化的科学品味,同时避免国内人情利益等关系的影响。

其二、项目采取了严格的“评审专家回避制度”。担任所在机构主要领导的申报资格是受限的、评审专家与申报人存在亲属关系、存在师生关系、同一法人单位、最近几年内科研项目论文和商业合作直接竞争关系,都可能影响公正性,则回避相应申报人的评审。

其三、所有参与第二期“新基石研究员”项目的评审专家,均签署评审专家承诺书,承诺按照项目评审标准,独立、客观、公正地开展学术评价,不以任何形式使用或对外透露评审相关信息。所有工作人员均签署保密协议,履行对全部评审工作的保密义务。

对此,施一公也表示,“项目启动以来,科研界有人建议扩大资助范围或增加资助金额,该项目的公平性和公正性得到了肯定。”

发挥社会资金灵活性优势,探索成为国家支持基础研究的有益补充

“‘新基石研究员项目’是在中国大地上刚刚出现的一棵幼苗,对于我们国家基础研究今后的发展,我个人认为是非常重要的,一颗幼苗希望大家要呵护、希望大家要支持。”施一公院士称。

有人购买了渴望的科学设备,有人招募到优秀的研究助理,有人组织起顶尖国际学术交流……在项目的资助下,研究员们正在全力开展工作。

社会资金的灵活性,不仅体现在申报时鼓励科学家提出梦想,也体现在实施时资助强度大、自由支配度高,给予研究员们完全的科研资源支配权和研究路线选择权,一切都从科研工作实际需要和基础研究客观规律出发。

“新基石研究员项目”充分发挥社会资金灵活性的优势,探索成为国家支持基础研究的有益补充,为研究员 “十年磨一剑”创造安稳的科研环境。

在经费支持之外,“新基石研究员项目”也为研究员们提供着跨学科、跨地域科学交流与合作的全新机会。

2023年9月,首届“新基石科学会议”举行,这是以“新基石研究员”为核心的非公开的学术活动,研究员们在会议上分享自己科研想法甚至未发表的工作。

参加会议的首期“新基石研究员”胡海岚表示,项目不仅仅是经费支持,更重要地是创造了一个自由、开放和合作的科研环境。

“未来的10-20年,是中国科技发展的关键时期。要从量的积累,迈向质的飞跃,离不开基础研究‘从0到1’的突破。”

腾讯公司董事会主席兼首席执行官马化腾表示,“因此,我们通过‘新基石研究员项目’支持一批杰出科学家潜心基础研究、聚焦原始创新,呼应国家发展需要, 最终助益人类福祉的提升。”

生物学、医学入选研究员

|生物学17人

陈良怡,北京大学分子医学研究所教授。主要研究方向是糖尿病发病过程中胰岛素分泌异常机制,发明了一系列的高时空分辨率生物医学成像的可视化手段。

1995年于西安交通大学获生物工程与医学仪器专业学士学位,此前曾就读于西安交通大学少年01班。1998年,于华中理工大学获生物电子学专业硕士学位,师从康华光教授和瞿安连教授。2001年,于华中科技大学获生物医学工程专业博士学位,师从康华光教授和邹寿彬教授。2001年至2004年,在美国华盛顿大学生理与生物物理系进行博士后研究工作,导师为Bertil Hille教授。

2004年6月回国后,任中国科学院生物物理研究所副研究员。2010月6月起,任北京大学分子医学研究所研究员,并从2020年1月起任北京大学分子医学研究所博雅特聘教授。

陈学伟,四川农业大学水稻研究所,主要从事水稻重大病害理论与应用研究。

1997年本科毕业于四川农业大学,2000年硕士毕业于四川农业大学,师从周开达院士、李仕贵教授。2003年在中国科学院获得遗传学博士学位,师从中国科学院的朱立煌研究员。后在中国科学院遗传与发育生物所从事一年研究工作。2004到2011年在加州大学从事博士后研究,并成为加州大学-戴维斯分校项目科学家。2011年回国后,就职于四川农业大学水稻研究所,继续从事水稻重大病害理论与应用研究。2019年,他获得了首届“科学探索奖”,是当年榜单中唯一的农林类高校得主。

丁胜,清华大学首任药学院院长。他带领的实验室一直致力于开发全新的化学方法,并将其用于干细胞与再生医学的研究,以期发现和鉴定可以调控细胞命运和功能。

1999年,在加州理工学院获得化学学士学位。2003年,在斯克里普斯研究所获得化学博士学位。2003年至2011年间,先后在斯克里普斯研究所化学系任职助理教授,副教授;2011年,任职于美国加利福尼亚大学旧金山分校药物化学系,在格拉德斯通研究所担任冠名资深研究员及教授。2016年起,受聘于清华大学,担任首任药学院院长、拜耳特聘教授。 2022年,丁胜不再担任药学院院长职务。

丁胜教授是开发和应用全新化学手段研究干细胞和再生医学的引领者,一直致力于发现和鉴定可以调控细胞命运和功能(例如,不同发育阶段及不同组织中干细胞的维持、激活、分化和重编程)的小分子化合物。2022年6月21日,丁胜及其团队首次发现了全能干细胞的体外定向诱导及其稳定培养的药物组合,在线发表于国际顶级学术期刊《Nature》。该研究有望开启全新的生命创造研究领域。

高彩霞,中国科学院遗传与发育生物学研究所,研究方向是重要农作物基因组编辑技术,利用基因组编辑技术实现品种的精准设计与培育。

1991年获甘肃农业大学学士,1994年获甘肃农业大学硕士,1997年获中国农业大学博士,1997-1998年,在丹麦DLF-Trifolium公司科研部进行博士后训练,并在此后十年担任该公司科研部Research Scientist,课题组长。2009年9月回国,在中科院遗传发育所植物细胞与染色体工程国家重点实验室任研究员,课题组长。

胡凤益,云南大学,自1991年起从事水(陆)遗传、育种、资源、生理及栽培研究等专业技术工作。研究重点集中在陆稻新品种选育、多年生稻遗传改良、野生稻有利基因发掘利用、利用生物技术改良农作物品种及应用等4个方面。

1991年,获西南农业大学农学系农学学士,2002年获西南农业大学与国际稻作研究所联合培养农学硕士学位,2010年获中国农业科学院研究生院作物科学研究所理学博士学位。曾在1991-2011年,担任云南省农科院粮食作物研究所副所长,2011年-2015年担任昆明市农业科学院院长,2017年8月起,担任云南大学农学院院长。

2022年11月,胡凤益团队宣布,已经成功培育出了能够连续多年生长的水稻PR23。同期,其团队联合国内外相关团队在国际知名学术期刊《自然.可持续性》发表了题为“多年生稻的可持续生产力与生产潜力”的研究论文,并同步发表了题为“多年生稻变革促进可持续农业”的研究简报。这一创新研究,基于亚洲栽培稻与长雄野生稻种间杂交,成功创制多年生稻,培育了系列多年生稻品系,在全球多年生粮食作物育种领域具有里程碑意义。

金鑫,华东师范大学,主要采用分子,电生理,光学成像,光遗传和行为学手段研究大脑基底节神经环路与运动控制,及其在运动和精神疾病中的机理。

2002年获中国农业大学学士学位,2007年获上海交通大学博士学位,2008-2011年在美国国立卫生研究院从事博士后研究。2012年起任索尔克生物研究所助理教授,2018年起任索尔克生物研究所副教授,2021年全职回国加入华东师范大学生命科学学院任特聘教授。

研究工作曾获得美国国立卫生研究院拉特里奖,美国神经科学学会格鲁伯国际研究奖和麦克奈特记忆与认知障碍奖等。

李国红,武汉大学,主要从事染色质结构和表观遗传调控研究,重点研究发育与疾病发生过程中染色质高级结构动态变化及其表观遗传调控的分子机理,阐明染色质高级结构动态调控在细胞命运决定中的生物学功能和分子机理。

1995年获武汉大学病毒系学士学位,1998年获北京大学医学部生物物理系硕士学位,2003年获得德国海德堡大学马普细胞所博士学位。2003年至2010年,先后在美国新泽西医科大学、美国纽约大学医学院进行博士后训练,2010年全职回国,担任中国科学院生物物理研究所研究员。2022年12月起,担任武汉大学生命科学学院院长。

刘默芳,中国科学院分子细胞科学卓越创新中心,从事RNA调控在精子发生、男性不育和肿瘤发生等过程中的新功能机制研究。

1991年和1994年本硕毕业于华东理工大学,1997-2000年,获中国科学院上海生物化学研究所博士学位。2000 -2005年在美国国家健康研究院癌症研究所 (NIH)进行博士后研究,2005-2006年在约翰霍浦金斯医学院遗传和分子生物学系任研究助理。2006年加入中科院上海生化与细胞所,目前担任生物化学与细胞生物学研究所研究员、博士生导师。

她系统地揭示了RNA调控在精子形成中的新功能机制,首次证明Piwi基因突变致男性不育并揭示致病机理,阐明miRNA在肿瘤发生中的新功能机制,取得了系列开拓性原创研究成果。

刘清华,北京生命科学研究所,研究兴趣主要集中在哺乳类动物的睡眠分子调控机制,利用自主研发独特高效的小鼠遗传筛选平台来鉴定调控睡眠的核心基因, 运用遗传, 细胞,生化, 神经科学多学科交叉研究, 深入揭示睡眠稳态的分子底物,睡眠时间的调控机制,生物节律调控睡眠的机制,以及睡眠疾病的分子机理。 
1992年获武汉大学生物化学专业学士,2000年获美国贝勒医学院博士学位,2001-2004年在美国德州大学西南医学中心进行博士后训练,2004-2010年担任美国德州大学西南医学中心助理教授, 2010年晋升为终身副教授。2018年回国担任北京生命科学研究所资深研究员。

彭汉川,东南大学,深耕于脑科学和医疗应用中的脑大数据采集、管理、可视化、分析、知识挖掘、结构功能模型、人工智能应用等前沿研究。IEEE、AIMBE、AAIA Fellow。

1991年本科毕业于东南大学生物科学与医学工程学院,随后到Lawrence Berkeley国家实验室和John Hopkins大学从事博士后研究,并于2006年加入Howard Hughes医学研究所,2012年进入Allen研究所。2018年在东南大学创办了脑科学与智能技术研究院并担任首任院长,以及“东大-艾伦联合研究中心”主任。

2005年,他创办了国际生物图像信息学会议,并在生物信息学、BMC生物信息学、Nature Methods、Nature Biotechnology等主要生物信息学期刊上确立了“生物图像信息学”的新领域。他还是影像大数据领域常用的Vaa3D系统和机器学习和数据挖掘领域里常用的最小冗余-最大相关(mRMR) 特征选取算法的发明人。

戚益军,清华大学生命科学学院,研究兴趣是植物小RNA与长非编码RNA的生物学功能和作用机制、植物表观遗传的作用机制。

1995年本科毕业于南京农业大学,1998年硕士毕业于浙江农业大学,2001年博士毕业于浙江大学。2001年-2006年先后在美国俄亥俄州立大学、美国冷泉港实验室进行博士后研究,2006年全职回国加入北京生命科学研究所,2011年起担任清华大学生命科学学院教授。他曾发现和命名了多种新型的小RNA,在《Nature》、《Cell》、《Molecular Cell》等国际重要学术刊物发表大量论文。

汤富酬,北京大学,主要从事人类早期胚胎各主要器官以及生殖系细胞的单细胞功能基因组学研究,同时进一步发展和完善单细胞功能基因组学高通量测序技术体系,以深化对人类胚胎发育过程中基因表达网络的遗传学和表观遗传学调控机理的理解,促进解决相关临床疾病的诊断和治疗问题。

1998年及2003年分别获北京大学生物学专业学士、博士学位。2004年-2010年在英国剑桥大学Gurdon研究所进行博士后研究。2010年回国在北京大学组建自己的实验室,现任北京大学生命科学学院生物医学前沿创新中心(BIOPIC)研究员、清华大学-北京大学生命科学联合中心研究员、北京未来基因诊断高精尖创新中心研究员。他在国际上率先系统发展了单细胞功能基因组学研究体系,开启了单细胞转录组测序时代。

王佳伟,中国科学院分子植物科学卓越创新中心,研究领域是植物时序性发育和生命周期。

1999年本科毕业于上海交通大学生命科学与技术学院,2005年在中国科学院上海生命科学研究院植物生理生态研究所获博士学位,2005-2011年在Max Planck发育生物学研究所进行博士后工作,2011年至今担任中国科学院上海生命科学研究院植物生理生态研究所研究员。

王四宝,中国科学院分子植物科学卓越创新中心,主要从事媒介昆虫生物互作的分子机理及虫媒病虫害防控新策略的研究。
2003年-2007年,在中国科学院上海生命科学研究院获博士学位,2009年-2013年,在美国约翰霍普金斯大学分子微生物与免疫学系进行博士后研究,2007年-2009年,在美国马里兰大学昆虫学系进行博士后研究。2013年起,担任中国科学院上海生命科学研究院 植物生理生态研究所研究员。

肖百龙,清华大学药学院,研究方向包括:从原子级别空间尺度、毫秒级别时间尺度、皮安级别电流尺度以及皮牛级别力学尺度,深入探究Piezo通道的动态机械门控机制以及调控机制;揭示Piezo 通道如何利用其生物物理特性决定其重要的生理病理功能;发现与开发Piezo通道药物与技术;鉴定发现新型机械门控离子通道及其调控蛋白。

2001年获中山大学生物化学系学士学位,2006年获加拿大卡尔加里大学心血管分子生物学专业博士学位,导师是Wayne Chen教授。2007-2012年在美国斯克利普斯研究所做博士后研究,主要开展触觉痛觉分子细胞学机制的研究工作,导师是2021年诺贝尔生理学或医学奖得主Ardem Patapoutian。2013年回国加入清华大学医学院药学系,现任清华大学药学院副院长。

徐浩新,良渚实验室,长期从事神经生物学、细胞生物学、分子生物学等领域的教学和研究

本科毕业于北京大学生物化学专业,现任良渚实验室教授、浙江大学求是讲席教授。

徐教授是溶酶体离子通道和疾病研究的世界领军人物,组织并担任首届高登会议(Gordon Research Conference)细胞器离子通道和转运蛋白分会议主席,国际药理学TRP通道分会主席。

薛天,中国科学技术大学,长期从事光感受神经生物学的光信号转导、神经环路以及视觉再生修复等方面研究。

2000年获中国科学技术大学少年班系(强化班)学士学位,2005年获美国约翰霍普金斯大学医学院分子生理学博士学位,2006-2011年, 美国约翰霍普金斯大学医学院神经学系做博士后研究,  此后一年担任神经学系助理研究员。2012年回国担任合肥微尺度物质科学国家研究中心教授,中国科学技术大学生命科学学院教授。


|医学科学(8人)

程功,清华大学,长期从事针对虫媒病毒性传染病的致病机理研究及疫苗研发。

2003年获山东大学生命科学学院生物技术学士学位,2008年获得复旦大学微生物学博士学位,之后在美国耶鲁大学传染病系从事博士后研究工作,于2011年全职任教于清华大学,现为清华大学长聘教授、博士生导师,同时担任医学院副院长、党委副书记。

他的系列研究成果为重要蚊媒病毒的防治提供了生物学基础,促进了烈性蚊媒病毒传染病知识概念体系的发展和完善,代表着我国在蚊媒病毒传染病这一生命医学热点领域的重要突破,并推动相关研究成果应用于新型药物及疫苗研发,为新发突发传染病防控、公共卫生安全提供了重要技术支撑。

雷群英,复旦大学,长期从事营养与肿瘤代谢的研究工作,揭示了代谢物(营养组分)及酶可调控肿瘤细胞表观遗传和翻译后修饰,为可塑性代谢调控奠定理论基础,并以胰腺癌为突破口,系统阐明了代谢重塑在胰腺癌早期发生中的关键作用及其代谢靶向干预,指出了精准营养/饮食在肿瘤防治策略上的重要转化意义。

1993年获江西医学院预防医学专业学士学位, 1999年获苏州医学院生物化学与分子生物学专业硕士学位,2002年获复旦大学上海医学院生物化学与分子生物学专业博士学位。2002至2006年在美国加州大学洛杉矶分校作博士后研究, 2006年加入复旦大学。

黄秀娟,香港中文大学医学院,主要研究兴趣包括炎症性肠病(IBD)、大肠癌、肠道微生物移植、肠道微态。

现任香港中文大学医学院助理院长、内科及药物治疗学系教授、香港微生物菌群创新中心主任。

她目前为美国胃肠病学协会会员、伦敦、爱丁堡及香港皇家内科医学中心成员。同时身为GUT杂志副主编、Nature Review of Gastroenterology and Hepatology杂志高级顾问、国际IBD遗传学联盟委员会及世界胃肠病学组织委员会成员。

2017年,黄教授建立了亚洲首个粪便菌群移植(FMT)研究中心和FMT登记中心,以帮助开发基于个性化肠道微生物群的治疗和安全监测。该中心是香港卫生局唯一的FMT供应者,用于治疗复发性艰难梭菌感染等疾病。


苏士成,中山大学孙逸仙纪念医院,擅长乳腺癌微创手术为中心的早期乳腺癌多学科诊治,开创腔镜下术中导航乳腺癌保乳术,将大手术变成小手术;以免疫治疗为中心的晚期乳腺癌综合疗法。

2010年以年级第一毕业于中山大学医学院临床本硕连读班(全英班)。2013年师从宋尔卫教授,提前一年获得外科学博士。现任孙逸仙纪念医院乳腺腔镜中心主任、生物治疗中心主任、中山大学免疫系主任。


孙金鹏,山东大学,长期从事膜受体G蛋白偶联受体(GPCR)的相关研究。

1998年获中国科学技术大学生物学和计算机科学双学位,2007年获美国爱因斯坦医学院分子药理学博士学位,之后在杜克大学Robert J Lefkowitz教授(2012年诺贝尔化学奖获得者、GPCR领域奠基人)实验室,从事膜受体GPCR的相关研究。2011年2月全职回国,担任山东大学基础医学院生化与分子生物学系教授,博士生导师;2021年担任高等医学研究院常务副院长。

徐文东,复旦大学附属华山医院,长期从事中枢性损伤(脑外伤、脑中风、脑瘫等)后偏瘫的上肢功能重建研究、臂丛神经损伤等周围神经损伤性疾病的创新理论和手术方法研究。

1993年毕业于上海医科大学临床医学专业,2000年获医学博士学位,2004年于复旦大学神经生物学博士后流动站出站。1993年进入华山医院手外科工作,2006年破格晋升为教授、主任医师、博士生导师。2008年起任华山医院院长助理、院拓展办公室主任。2010年起任华山医院手外科副主任,2012年起任华山医院副院长、静安分院院长,2016年起任国家老年疾病临床医学研究中心常务副主任。

杨胜勇,四川大学,主要从事计算机辅助药物分子设计新方法,以及原创小分子靶向药物发现研究。

1990年、1993年和1999年在四川大学获学士、硕士和博士学位。1999-2001年,香港科技大学化学系博士后。2002-2005年,加拿大Calgary大学Research Scientist。2005年10月至今,四川大学生物治疗国家重点实验室教授。

张雁,天津大学,长期致力于酶学、生物化学、合成生物学等领域研究。他揭示微生物在基础物质(核酸、氨基酸和糖)、能量代谢上的多样性,利用发现的新酶、新基因作为合成生物学元件应用到医药、化工、材料及计算机科学等领域。

2006年毕业于美国宾夕法尼亚大学,获遗传学博士学位。2006-2012年先后在美国宾夕法尼亚大学和麻省理工学院从事博士后研究工作。2013年进入R&D Systems lnc.公司,担任资深科学家。2014年加入天津大学,目前担任天津大学药学院讲席教授。

2021年4月,天津大学教授张雁联合上海科技大学教授赵素文、美国伊利诺伊大学教授Huimin Zhao等研究团队,在生命科学领域取得突破性研究成果。他们解析了一种特殊DNA的合成机制,大量能感染细菌的病毒(也称为噬菌体)都含有这种DNA。这项重大发现对生命起源、物种进化、系统生物学的研究具有重要理论意义。

雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/4cdHrIhq0LxSwXGc.html#comments Wed, 01 Nov 2023 11:09:00 +0800
莱芒生物联合创始人郭雨刚:In Global for Global新常态,努力成为一家「苹果式」创新药设计公司|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/YMVtukHIi6bf4dwM.html 2018年12月17日,由君实生物研发的国内首个国产PD-1单抗获批上市,点燃了国内创新药领域的投资信心。

2022年2月底,传奇生物的西达基奥伦塞获得FDA批准在美国上市,代表中国CAR-T正式进军全球新药最多的美国市场。

今年6月底,英矽智能向港交所递交招股说明书,拟主板挂牌上市,冲刺“亚太AI制药第一股”。9月12日,英矽智能将一款肿瘤靶向药管线的全球独家开发和商业化权利转让给Exelixis,首付款8000万美元,代表AI制药公司正式进入管线交接期。

国产新药不断进击,和国际上新药上市进度几乎拉平,甚至赶超,留下一系列意味深长的问题:为什么中国制药刚开始“崛起”?下一个制药圈的轰动成果,会出现在哪座生物医药园区?

与有着被誉为“张江药谷”之称的上海相比,与入驻着国内数十家旗舰型生物医药企业的苏州相比,深圳的生物医药产业起步较晚,但也不乏“后发优势”存在。

在深圳福田区南部与香港接壤处,“河套深港科技创新合作区”坐落于此。作为大湾区以科技创新为核心的国家级平台,生物医药是这里的重点产业。

8月29日,一则由国务院印发的关于河套的发展规划指出:生物医药是河套重点发展的产业,港深共建一个河套,打造世界级科研枢纽。

现如今,河套已经进驻了一批生物医药企业,如晶泰科技、莱芒生物、希格生科、默元生物、联影医疗等,涉及的领域包括AI制药、细胞治疗、创新靶向药研发、自身免疫药物、罕见病等。

不仅如此,香港多所高校的研发中心,如,港中文,也将生物医药创新研发中心落地于此,并已引进并资助一批诺奖实验室及高校教授转化项目。此外,由著名结构生物学家颜宁担任院长的深圳医学科学院的院区永久场地一体化项目,8月初也在不远处的光明科学城正式动工。

时至今日,深圳释放出一个重要态度:承接国际优秀学者的转化项目,促进海外学者将深圳作为初创公司的第一站。

值得注意的是,随着制药行业的持续发展,收购小型创新公司已经是大型制药公司的惯用策略,甚至伴随着合作关系加深,CRO(合同研究组织)公司投资起制药公司,正成为制药圈子里的一道风景线。

实际上,莱芒生物就是这样的存在。

2017年至2022年初期间,郭雨刚作为Scientific collaborator就职于瑞士洛桑联邦理工学院(EPFL),结识了导师唐力教授。期间二人重点攻克了肿瘤免疫治疗领域的瓶颈难题:重新激活终末耗竭T细胞,合作开发的核心技术Meta 10,展示出治愈实体肿瘤的巨大潜力。相关成果发表于国际顶级学术期刊Nature Immunology等。

成果发布仅过两个月,得到晶泰科技董事长温书豪的关注,随后担任天使投资人之一,协助成立了莱芒生物。

在制药赛道上,公司定位很快从实验室里敲定:做创新型肿瘤免疫治疗药物。郭雨刚博士作为莱芒生物联合创始人,2022年2月回到深圳正式启动了公司的运营。

“牵手晶泰,回到深圳,落地河套,我们每一步都走得十分紧凑。”郭雨刚表示。

而作为AI制药圈内“老大哥”一般的晶泰科技,如今也通过莱芒生物补上细胞治疗这一板块。尤其是在深圳及大湾区缺乏大型、专业的CRO、CDMO等服务机构的背景下,尝到一波市场红利。

未来,深圳生物医药产业将走出一条什么样的道路,从创立初期就牵手晶泰的莱芒生物,能否在细胞疗法赛道脱颖而出?

近日,雷峰网《医健AI掘金志》对话莱芒生物联合创始人郭雨刚博士。以下为具体访谈内容,《医健AI掘金志》做了不改变原意的编辑和整理。

《医健AI掘金志》:公司在2021年成立,是因为当时做出了什么研究成果吗?为什么选择细胞基因治疗这一方向?

郭雨刚:我本科和博士毕业于中国科学技术大学,2017年至2022年初,作为Scientific collaborator就职于瑞士洛桑联邦理工学院(EPFL),师从唐力教授。

我所在的课题组专攻肿瘤免疫治疗领域的前沿研究,并且瞄准了这一领域的瓶颈难题--重新激活终末耗竭T细胞。

如何通俗理解?从字面意思来看,免疫治疗是近年来治疗癌症的一种前沿疗法,而在免疫疗法中,嵌合抗原受体T细胞(CAR-T) 则是一个重要代表。

也就是说,通过采集人体自身免疫细胞,经过体外培养,使其数量扩增成数百倍,靶向性杀伤功能增强,然后再回输到患者体内, 从而来杀灭血液及组织中的癌细胞。

但是这种疗法存在一个瓶颈难题--T细胞耗竭(T cell exhaustion)。T细胞耗竭是一种T细胞功能减退的状态,其特征在于T细胞效应功能和增殖能力的逐渐丧失,最终导致,CAR-T细胞治疗癌症患者效果不佳,特别是对于实体肿瘤无能为力。这促使学者们去探索CAR-T细胞耗竭在肿瘤逃逸中的潜在作用。

我和唐老师正是从免疫代谢重编程这一角度入手。

2021年5月,我们一起开发的基于代谢重编程的新型肿瘤免疫疗法,命名为”Meta 10”,重新激活终末耗竭T细胞,显著增强了T细胞抗肿瘤潜力,正式发表在国际顶级学术期刊Nature Immunology。我们做了一系列实验进行验证,发现这一疗法在多个实体瘤小鼠模型中实现了肿瘤彻底清除,并可诱导产生免疫记忆效应。

在此基础上,唐老师团队与浙江大学科研团队合作,进一步开发出代谢增强型CAR-T,在多个实体瘤小鼠模型上可达到100%的肿瘤治愈。这意味着为实现肿瘤的临床治愈带来曙光。相关工作入选了2021年度EPFL十大新闻。

后来,这一研究成果发表后,得到了晶泰科技董事长温书豪的关注,在其支持之下,2021年7月正式孵化出一家公司--莱芒生物。我们的目标很明确,就是基于免疫代谢重编程+前沿人工智能(AI)的创新技术,研发、生产和商业化新型肿瘤免疫治疗药物。2022年1月,公司获得近亿元天使轮融资。2022年2月,我回到国内开始着手莱芒生物的运营工作。

在公司的分工方面,唐老师是公司的董事长,主要负责公司的战略规划;而我则负责战略执行,包括团队建设、研发推进、商务合作等工作。

也就是说,从研究成果发表,到公司成立、融资、分工和建设,整个进程非常紧凑。我们是全球第一家用代谢重编程和AI去做免疫细胞治疗的公司,时间很重要。

《医健AI掘金志》:放在AI制药行业里看,你们算是成立较晚的公司了,如何和其他公司拼速度?

郭雨刚:这是一个很好的问题。实际上,我们的工作进展非常快,目前已经开发了多条具有巨大市场潜力的研发管线,并稳步向临床研究推进。回国后,仅用1年的时间就启动了代谢增强型CAR-T的IIT临床研究,并在之后的半年时间内,连续治愈了8位患有复发难治性白血病或淋巴瘤的癌症患者。

细胞基因治疗与传统的小分子药物开发有所不同,不需要先进行标准的临床前研究和IND申报,而是可以先采用研究者发起的临床试验,也就是IIT临床研究,去初步观察相关疗法的安全性和有效性。这也是我们研究成果能够快速应用到临床实践中的一个原因。

但是制药行业不只是拼速度,关键是找到差异化优势。

将AI技术融入免疫细胞疗法,这是我们自己开创的新的方向,并且是目前为止我们所知的该领域中唯一一家。其中涉及到使用AI算法来预测和设计最佳的代谢增强因子,提高其潜力;以及使用AI技术来预测和优化相关抗体,实现免疫细胞对肿瘤的精准识别,解决CAR-T的脱靶效应难题。

脱靶效应是指CAR-T在治疗肿瘤的同时也会损伤到一些低表达抗原的正常细胞,造成毒副作用。而通过AI技术改造抗体,能够特异性识别肿瘤细胞表面表达的特殊突变抗原,而不识别肿瘤相关抗原,从而增强细胞对肿瘤的精准识别能力,减少对正常细胞的损伤,增强治疗的安全性和有效性。

因此,不同于其他AI制药公司,我们的核心竞争力在于免疫代谢重编程技术,只是运用AI技术来进一步优化自己的产品,实现自身核心技术的迭代升级,而不是像其他大多数AI制药公司那样,利用AI去做药物筛选。

另外一点,我们的公司分布在不同的区域,各有侧重且相互补充。

莱芒生物公司的总部在深圳,另一个全资子公司位于瑞士,员工分布在深圳、杭州、合肥和瑞士洛桑四个城市。

不同城市有不同的侧重,比如深圳主要是总部和研发所在地,杭州和合肥则是临床研究相关的工作重心,瑞士则是加强和瑞士洛桑联邦理工学院的技术合作,并利用好当地的医疗资源和产业集群优势。

瑞士的制药产业发展非常领先,政府也非常重视,全球五大制药企业中有两家在瑞士。我们也在与洛桑当地政府在谈,希望能够获得类似于中国的研发补助和免房租等支持。而且瑞士的资本运作比较成熟,大部分初创医药公司更依赖于商业化投资,希望我们也能利用好这一点。

《医健AI掘金志》:肿瘤免疫治疗药物这一细分方向,目前行业发展到了哪一阶段?国内外有何发展差异?

郭雨刚:国内外的肿瘤免疫治疗行业中的一些头部企业,包括罗氏、辉瑞、诺华、BMS,以及国内的百济神州等公司,都有在肿瘤免疫治疗方面的研究和开发。尤其是肿瘤免疫治疗相对于传统的放化疗有一定的优势,能够延长部分患者的生存周期。

但是,目前肿瘤免疫治疗也存在一些问题,其中最突出的问题是整体响应率很低。

以PD1抗体为例,虽然被誉为“新一代药王”,但其整体治疗效率只有20%左右。

而莱芒生物的优势在于,自主研发的技术解决了肿瘤免疫治疗中的瓶颈难题--T细胞耗竭。因此,整体疗效特别好,临床前研究中,实体瘤小鼠模型基本上能够实现90%以上的响应率,有时甚至是100%的完全治愈。

公司在技术上很有信心,与其他公司的产品原理显著不同。

但是,为了避免误解,我这里仍然需要明确指出的是,我们这里的100%治愈仍然是小鼠模型上的肿瘤。治愈现实中人类的肿瘤,仍然需要一个转化过程。可能一开始我们仅能治愈一些特殊类型的肿瘤,未来随着我们研究深度的推进,越来越多的同行加入,将会治愈越来越多的肿瘤类型和肿瘤患者。

目前,国内外在肿瘤免疫治疗方面的差距越来越小,国内的公司已经能够做与国外类似甚至更好的工作。未来存在的差异在于公司的体量和掌握的先进治疗技术。

《医健AI掘金志》:这两年的发展中,你们遇到哪些挑战?医生和投资人怎么看待你们的技术路线?

郭雨刚:我们面临着一个最大的挑战,就是对传统观念的挑战。

长期以来,人们认为肿瘤是无法治愈的,这种观念根深蒂固,即使我们的数据和机制已经很丰富,也很难说服那些被传统观念束缚的人。

幸好临床专家是一个非常相信科学的群体。在临床研究中,临床专家对临床项目的挑选往往是非常谨慎的。目前我们已有两个正在开展合作的医疗团队,分别是浙江大学医学院第一附属医院院长黄河教授团队和中国科学技术大学第一附属医院的王兴兵教授团队。此外,从2023年2月我们启动临床研究以来,很多医生看了公司的数据后被说服,有些甚至主动找过来寻求合作。

在我们IIT启动后,临床PI对我们的项目非常有信心和激情,因为患者用了我们的药物,即便是非常低的剂量,仅仅1%~5%的常规剂量,治疗效果也非常好。这样不仅得到了临床专家的认可,也得到了越来越多的患者的认可和支持。

与此同时,尽管我们接触了很多投资人,但大多数都持怀疑观望态度。对于那些持怀疑态度的投资人,我们最好的做法是积累临床数据,用事实来说话。目前,随着我们临床治愈患者的增加,很多投资人也主动来找我们了,公司也完成了新一轮融资。

《医健AI掘金志》:公司在管线搭建上的方法论是什么,是否扩建?

郭雨刚:对莱芒生物而言,未来的战略目标是用核心技术研发针对实体瘤的新型抗肿瘤药物,公司的重点也会聚焦这方面。

公司目前有三大管线,主要是基于药物类型的特点来布局,包括生物大分子管线、代谢增强型CAR-T管线(细胞治疗)、AI超级因子管线。

其中大分子管线目前由CDMO或CRO公司负责推进,而且进展基本上很顺利,已经进入到CMC阶段。

第二条管线是细胞治疗。

其中代谢增强型CAR-T由公司团队亲自参与,主要是为了验证代谢重编程概念的临床可行性,包括安全性、有效性等问题。此外,TCR-T和TILs管线正在跟相关头部企业进行合作,把我们的Meta 10技术融入相关企业的细胞治疗产品,以便更快地推进实体瘤细胞疗法的开发。

最新的进展是,我们能够以极低剂量(5%的常规剂量,同类产品需要用到100%的剂量)新型CAR-T治愈复发难治性白血病或淋巴瘤患者。在临床试验中,已经连续有8位患者获得临床治愈。同时,经过研发团队和临床专家讨论,将给药剂量进一步降低至常规剂量的1%或更低,将极大地降低CAR-T细胞的制备周期和制备成本。

公司的目标一是从采血到接受细胞治疗,控制在3~7天之内;患者从接受治疗到完成治疗可能1个月就可以了。二是将目前的“天价”CAR-T药物从120万降低至30万以下,惠及更多患者。

第三条管线,AI管线,这是公司的一条特色管线。

也就是将AI技术融入到细胞治疗中,并且开发一些全新的更有潜力的代谢增强因子和靶点,然后将其融入到已有的大分子管线或细胞疗法管线中,提升技术门槛和储备下一代药物。

我们和晶泰科技的合作内容是开展AI超级因子管线的研发,利用他们的高精度计算化学和前沿AI算法,对超级因子进行定向进化,已经取得了很不错的进展。

此外,公司团队根据具体需求,设计出相应的工作流,然后找到合作公司去执行具体任务,比如委托科迈生物帮我们做抗体优化的AI模型,训练1~2轮,筛选优选序列,再找其他CRO公司进行序列验证。

由于我本人长期从事免疫学方面研究,最开始其实对AI还是有所怀疑的,认为其有一定的炒作嫌疑。真正对AI改观是源于和晶泰科技的深度合作,推动AI超级因子这条管线的研发,做出来的效果非常惊艳,直接改变了我的想法。

总的来说,我们更像一个药物设计公司,擅长做药物的早期研发,但对于中后期的生产和临床试验,则是与一些合同研究组织(CRO)公司进行合作。

如此一来,我们的项目能够更快地从早期研发进入临床试验阶段,有效缩短了研发周期。眼下我们想把IIT(研究者发起的临床研究)完成一定数量之后,率先选择1-2款针对实体瘤的代谢增强型CAR-T进入临床。接下来的1-3年,我们也会继续推进3条管线的研发,包括大分子、细胞治疗和超级因子。

当取得一定的进展后,我们会在瑞士、澳洲或者美国启动相应的全球多中心的临床研究。当然这是一个非常烧钱的过程,所以会先在国内将结果反复确认后,才有可能做全球多中心的临床研究。

团队方面暂时没有大的扩建计划,因为莱芒生物是一家创新驱动的研发型公司,核心技术例如代谢增强型Meta 10核心技术平台已经初步形成,核心技术迭代升级借助业内领先的晶泰科技,其余生产、临床等工作委托成熟的CRO公司以及优秀的医疗机构。

我们希望成为一家像苹果一样的公司,专注于技术创新和药物设计,同时利用好合作伙伴和CRO公司的专业能力和资源,实现更高效的药物研发和推广。

《医健AI掘金志》:在深圳发展的感觉怎么样?

郭雨刚:深圳是一个办事效率很高的城市,工作节奏很快,也很卷,与在瑞士的工作状态完全不一样。

深圳的优势也很突出,是人才聚集地和产业集群地。最近深圳提出发展壮大“20+8”产业集群,明确把“细胞与基因”作为未来产业重点发展方向,并配置了相关产业基金,势必会进一步推动相关产业的发展。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/YMVtukHIi6bf4dwM.html#comments Thu, 21 Sep 2023 11:15:00 +0800
希格生科创始人,CEO张海生:比动物更好的试药替身「类器官」,正迎来大药企争相布局的风口|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/ipsv8A21Grik8Nfg.html 临床失败的药物比比皆是,原因主要为缺乏临床疗效、毒性难以控制,以及类药性差。

因此,在制药圈子里,一个流传甚广的数据是:90%的药物进到临床都失败了。

这并非对最终受益于此的患者没有压力,制药企业对单个药物的投入越高,最终少数跑到上市的药物则需要患者和政府为更大的成本买单。

研药是一个需要极度理性的科技行业,曾经一度无奈执行“快杀”策略,失败得越早,越省时间和资金。直到最近这十年,一些企业尝试用流水线模式、人工智能、以及类器官等手段进行探索性的尝试。

“新药研发失败率高的一个重要原因在于,体外模型跟人体真实环境相差较大。如果在体外建一个活的个性化模型,进行多种药物的药效评估,能大大提高研发效率。”

近日,雷峰网《医健AI掘金志》对话希格生科创始人,CEO张海生博士,他指出,类器官可以以理解为一种高度模拟体内真实器官特征的,但又非常小型化的“器官模型”,在器官发育、精准医疗、再生医学、药物筛选、基因编辑、疾病建模等领域都有广泛的应用前景。

“利用类器官疾病模型平台,不仅能更细致真实地模拟人体的反应,也能够对病程溯源,还原整个病变过程,可显著提高新药研发效率。”这为当前的药物研发提供了另一条可行性思路。

2020年12月,从哈佛大学Dana-Farber癌症研究所完成博士后的张海生,将与导师创立的生物科技公司「希格生科(Signet Therapeutics)」带回国内,落地深圳。

这是一所全球顶尖研究所,在长达70多年的发展时间里,以癌症病人的基因组学特征为基础,结合对疾病生物学原理的洞见,形成了1100项在研的临床实验项目。张海生评价,“这些美国学界的学术大牛们基本已经把大瘤种研究过了,要想再有所建树恐怕很难。”

与此同时,也不断考验着张海生这类后辈们的转化能力。

读博期间,他和导师Adam Bass教授“量体裁衣”地打造了一种药物筛选平台--专攻癌症疾病的「类器官疾病模型」。

从性能上看,利用接近病人基因组学特征的类器官疾病模型,在药效评价及新靶点发现中的关键作用,结合AI人工智能筛选、合成和优化小分子化合物,开发first-in-class创新靶向药。

如今公司成立近三年,已规划出三条全新靶点的药物管线(市面上均没有上市的类似靶点药物),其中进展最快的是全球第一款弥漫性胃癌靶向药,如果进展顺利,应该明年上半年可以进入一期临床试验。

张海生谈到,从2015年至今,基本上很多大型药企都布局了类器官的疾病筛选平台,或者直接投资/合作一些类器官行业公司。如今这一方向也愈发引起政府层面的关注,

“今年1月,《Science》期刊发文,FDA取消了临床试验前进行动物试验的强制需求,给“类器官”行业带来想象空间。今年5月,罗氏宣布成立人类生物学研究所(IHB),专注一个研究方向--类器官等人类模型系统,还请来了类器官领域的先驱Hans Clevers担任药物研究和早期开发负责人。”

这是Hans Clevers深耕学术界40多年后首次全职至工业界,释放出一个强烈的信号:药企对类器官这一方向有了血拼的意思。

未来这一赛道将迎来什么故事?希格生科将做出哪些深耕?

以下为《医健AI掘金志》与希格生科创始人&CEO张海生博士的访谈内容,并对内容做了不改变原意的编辑和整理。

《医健AI掘金志》:为什么选择在深圳创业,你是博士毕业后直接创业,中间没有去过其他公司?

张海生:大家都有感受,很多海龟创业者来自于美东,特别是波士顿,因为那里活跃着一个创业圈。

每年MIT都会举办一场名为“中国创新与创业”的论坛(MIT-CHIEF),吸引了查尔斯河两岸的中国创业者,更有远在内地的团队跨洋前来参加,但最终脱颖而出的团队不到其中的十分之一。

而且直观感受是,和美国西海岸的硅谷车库文化相比,波士顿很多创业团队都是从实验室走出来的,年龄普遍偏高。而哈佛和MIT又有不同,哈佛重做研究,但是MIT的创业氛围会更浓,因为工科强调转化,很多创始人就会比较爽快。

我在哈佛期间2018年担任过MIT-CHIEF的主席,组织来自美国东部高校的创业项目全国路演。从看别人项目路演、听投资人提问,再到自己做项目和产投界交流,这个过程我更知道产业界需要什么,也帮我积累了商业方面的人脉。

2020年早期,我们在美国成立的Signet Theraeputics入选了美东最专业的生物医药加速器Mass Connect项目,同期还有另外三支团队,我们当时是唯一入选的华人团队。

这个加速器项目的好处是,它会根据每个公司的需求为他们寻找十几位不同的导师,这些导师可能来自不同的领域,如风投、大药企的高管、咨询以及律师等等,包括全球前三的CRO公司Charles River Lab的CSO,这十几位导师会专门为一家公司进行为期两个月的专门培训指导。

至于我回深圳创立了希格生科,做起了类器官疾病模型+AI模式研发癌症创新靶向药,实际上早在2018年底借着带团队的机会到深圳考察过。

2018年7月,我们带领了30多支美东创业团队来到中国的一二线城市进行巡回路演,当时我们在国内考察时,我们MIT-CHIEF全部cover了这三十多个团队来中国的所有的费用(两个星期所有的衣食住行)。

因为作为一个学生组织拿到经费是非常难的,所以需要我们的团队成员很好的募资能力,包括是跟园区政府、跟投资人去交流,但我们做的比较好,直到现在,整个美东就只有这一个学生组织能做到这么大的规模。

这次巡回路演的城市中包括深圳,深圳的高效的政府效率以及对人才、企业落地优惠、以及生物医药产业园区的规划、以及对生物医药产业重大公共服务平台和核心技术攻关专项资助,都是极大的吸引力。后来我回到哈佛继续做了两年研究,等到技术路线和市场优势都比较成熟,2020年底我正式回国创立了希格生科。

希格生科落在了河套国际生物医药产业园,这个园区内不少企业是我们的合作企业。我们与晶泰科技是楼上楼下,交流合作非常高效。晶泰设计合成化合物后立马送到楼上,我们验证药效后也快速反馈给楼下,因此我们的首条管线从选定靶点到PCC(临床前候选化合物)仅用了半年多。

现在我们在波士顿的朋友依然保持着像当年的比较频繁的聚会习惯,这种密切的关系让我们可以在创业路上互相帮助和合作。

《医健AI掘金志》:为什么选了“类器官疾病模型+癌症靶向药”这个方向,有什么独特之处?

张海生:怎么理解类器官呢?

类器官是一类基于干细胞在体外培养出的、具有真实组织结构和功能的微型组织或器官,可为新药研发的体外试验创造接近人体的环境。

与传统2D细胞培养相比,类器官具有更稳定以及更接近人体基因组的特征,能对病程溯源,还原整个病变过程;与动物模型相比,类器官模型操作更简单,也更适合于生物转染和高通量筛选等,优势更加明显。

那么我们是怎么用好类器官做药物研发?

首先,我们从疾病出发,通过研究疾病的发病机制和病理生理过程,寻找导致疾病发生的突变基因或蛋白质等分子。

其次,利用生物技术和计算机模拟等方法,建立疾病模型,重现疾病发生发展的过程,以便找到疾病的靶点。一旦找到疾病的靶点,就会基于这个靶点开发新药。这个过程通常包括药物设计、合成、药效学研究、药代动力学研究等多个环节。

最后,我们会使用独有的类器官技术,进行多种药物的药效评估。这一环节是我们的重头戏。因为新药研发失败率高的重要原因在于,药企是用体外模型(多使用2D肿瘤细胞)、动物模型来做药效评估,跟人体真实环境相差较大。而类器官技术可以看作“在体外建一个活的个性化模型”,不仅能够更细致真实地模拟人体的反应,还能够对病程溯源,还原整个病变过程。

总结起来,我们是从疾病出发,建立疾病发生发展的模型,找到疾病的靶点,然后基于这个靶点去开发新药,最后再用类器官疾病模型做药物筛选、效果评估。整个过程是严格按照疾病本身的特点和需求来设计的,将生物标志物贯穿于整个药物研发的过程中。

另一个点,找好了技术路线,做什么药呢?

我们的大方向是癌症靶向药,包含胃癌、卵巢癌、乳腺癌、联合用药、肝癌和肺癌、以及其他泛癌种。目前进展最快的是针对弥漫性胃癌的first-in-class创新靶向药。

实际上,能在胃癌这一管线上进展顺利,得益于我的博士导师,Adam Bass教授。我所在的哈佛大学Dana-Farber癌症研究所属于研究型医院,除了基础研究转化,还有1100项在研的临床实验项目,可以说,这些美国学界的学术大牛们基本已经把大瘤种研究过了,要想再有所建树恐怕很难。Bass教授选择了胃癌,并愿意做我的联合创始人后,自然就成了希格生科的第一项在研项目。

《医健AI掘金志》:你是怎么说服Bass教授创业的?国外很多都是“导师+学生”的创业方式?

张海生:可能他是被我一再说服打动的。Bass的年龄只有40几岁,非常年轻,希格生科是他第一个参与创立的公司。

在此之前,Bass的转化项目更多是跟大型药企合作,比如转让给BMS、诺华、默沙东等公司。在我们沟通时,他一开始犹豫是否应该重心是做科研,但后来主动成为公司的联合创始人,并分担早期的一些费用。

因为做学术研究,和做创业公司的要求是不同的:

在学术界,创新性是非常重要的,研究的想法越新奇,发表的论文就会越好。在创业公司中,创新与风险之间需要寻求平衡。

有些想法可能非常有创新性,但可能只是学术研究的水平,离落地还很远;即便某些靶点非常有潜力,但也存在一些风险,比如开发周期长、成熟度不够等;此外,推广新的技术也有挑战, 毕竟我们所从事的类器官疾病模拟和创新药在是比较新的领域。

《医健AI掘金志》:国内外对类器官疾病模型是怎么看的,认可这条技术方向吗?

张海生:今年1月,《Science》期刊发文,FDA不再强制要求在药物临床试验前进行动物试验,给“类器官”行业带来想象空间。

从2015年至今,基本上大型药企都布局了类器官的疾病筛选平台,或者直接投资/合作一些类器官行业公司。

近期罗氏的声音比较大。今年5月,罗氏宣布成立人类生物学研究所(IHB),专注于推进类器官等人类模型系统领域的研究。2022年2月,罗氏聘请了类器官领域的先驱Hans Clevers,担任罗氏药物研究和早期开发负责人。这是Hans Clevers深耕学术界40多年后首次全职至工业界。据说,预计在未来四年内,IHB将发展到约250名科学家和生物工程师。

对于国内而言,也能够感受到一些推动力量,例如一些类器官芯片公司的变多了,还经常举办一些国际性会议。

但是类器官疾病模型/平台,当前还存在一些技术难点:

一致性:由于不同病人之间的器官结构和功能可能存在差异,因此从不同病人收集的器官标本在建立模型时,可能存在不一致性。即使是同一病人不同时间点收集的器官标本,也可能存在不一致性。最终会影响药物筛选和药效评价的准确性。

异质性:类器官疾病模型与真实器官之间的异质性也是一个技术难点。类器官模型通常只包含疾病的部分特征,无法完全模拟真实器官的所有结构和功能,影响了药物筛选和评价的准确性。

稳定性:类器官模型在建立后可能会随时间发生变化,特别是在长期培养过程中。这种不稳定性可能会影响药效评价的准确性,因为药物可能需要更长时间才能显示出效果。

此外,类器官从基础实验室到产业界的研发仍处于比较早期的阶段,体系的标准化等方面仍有改进空间。但正因为如此,我们和美国等其他公司在同一起跑线上。

目前为了解决技术上的问题,我们根据疾病的基因组学特征,建立了基因编辑的类器官模型,将其与动物的器官相结合。类器官毕竟不是真正意义上的人体器官,下一步还需要不断从技术等各个方面突破,无限接近病人的真实反应。

《医健AI掘金志》:你们的研发管线是怎么选择的?

张海生:目前我们有三条药物管线。都是我们根据疾病生物学的深刻洞见出发,建立疾病发生发展的模型,然后去发现靶点,从而开发相应靶点的靶向药。这样可以从根源上去避免同质化竞争。

我们不会追逐热门的靶点,而是寻找适合该疾病发生发展的独特靶点。而许多其他公司可能会选择追逐热门的靶点,或者验证已经被其他公司验证过的适应症。

所以相比较而言,我们的模式可能面临更高的早期研发风险,因为我们是在寻找新的、可能只有少数公司在做的靶点。但是一旦研发成功,就可能会拥有巨大的市场空间。

目前我们的重点工作是在某些方面的数据上有所突破,这样就能够证明,我们的平台和技术都是值得关注和投入的。更重要的是,一旦一条管线成立后,意味着我们的平台成了一个更广泛的通用平台。

《医健AI掘金志》:不过,至今三轮天使轮累计近1.5亿元融资,你们后续会对融资节奏做调整吗?

张海生:最初我们主要关注创新药的研发,并将此作为主要的融资逻辑。然而,在研发过程中,我们发现自己的平台具有更加接近病人特征的一致性和高通量等优点,不仅可以用在自己的管线中,也可以提供给其他人使用。

此外,我们在与投资人接触时,也更希望投资人关注公司的平台和类器官模型的优越性,以及该公司未来的发展潜力。也就是说,我们和投资伙伴,都要从最初的只关注创新药研发,转变为同时关注新药的价值以及赋能新药研发的类器官平台的优越性和未来的发展潜力。

长远来看,希格生科的疾病模型平台不仅服务于自身药物管线,也积极赋能大药企进行新药研发,助力更多创新药的诞生。不过这是一个循序渐进的过程,要在资本寒冬下活下去。

《医健AI掘金志》:站在制药角度去看资本寒冬,对你们和行业带来了什么影响?

张海生:首先,资本寒冬对创业公司的融资和扩张造成了影响。

公司可能需要重新考虑他们的扩张策略,一些公司可能会推迟他们的管线进展,或者在招人方面更加谨慎。但是这也可能促使一些公司更加注重效率和成本控制

其次,市场环境的变化可能会影响候选人的价值。

在过去的几年里,市场上有一些公司为招聘候选人开出了过高的薪酬,在当前资本寒冬的情况下,这种情况可能会有所缓解,公司会更加理性地评估候选人的价值和薪酬水平。但是,一些人可能会说感受到了市场环境变化的不利,因为过去他们可能会被一些公司高薪招入,但很快又被裁掉,会影响他们的薪资判断。

第三,对于行业而言,因为资本寒冬可能会使得一些公司重新评估他们的策略和规划,更加注重基本面和业务质量,因此可能会减少市场中的过度竞争和劣币驱逐良币的情况,为真正具有创新性和实力的公司提供更好的发展环境。

而且行业里CRO企业的费用也会降低,这也降低了我们的运营成本。

《医健AI掘金志》:说完了融资规划,后续公司在平台上、管线上、团队上、竞争优势上,都有哪些规划?

张海生:公司将类器官平台作为一项重要的业务来发展,未来三年的目标是达到千万水平。目前我们没有将大模型转化为工具嵌入到平台中。因为平台的数据量还不够大,并且需要更有效的数据。我们正在探索自动化的方法,包括建立高通量平台,以增加数据量和提高数据的有效性。

公司目前有两条主要管线进展较快,其中第一条管线马上进入临床试验阶段,第二条管线正在进行临床前研究,目标是在明年下半年能够推进到IND申报。第三条管线我们也在持续推进。

团队主要由研发人员组成,其中研发团队占70-80%,此外还有与CDMO和CRO合作的中高层管理人员。

至于竞争是长期存在的,但不是我们主要的关注点,因为类器官行业还处于早期阶段,需要大家一起推动整个行业的繁荣和发展。我们更关注如何建立良好的平台和服务,提高药物的研发效率和成功率,而不是单纯地与竞争对手竞争。

而且我们认为公开技术和合作是推动行业发展的重要手段,只有整个行业起飞,才能有真正的领导者出现。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/ipsv8A21Grik8Nfg.html#comments Wed, 20 Sep 2023 14:08:00 +0800
微软研究院团队获得首届AI药物研发算法大赛总冠军 //m.drvow.com/category/shengwuyiyao/2BpD1ZfToAmqYeiF.html AI 药物研发是人工智能未来应用的重要方向之一。

自新冠病毒(SARS-CoV-2)首次爆发以来,新冠病毒的小分子药物研发备受关注,于近期举行的首届 AI 药物研发算法大赛便聚焦于此。

在比赛中,来自微软研究院科学智能中心的团队,凭借创新的 AI 模型系统 AI2BMD 和 ViSNet 取得了绝佳的成绩,斩获桂冠。

近日,由清华大学药学院、百度飞桨、百度智能云和临港实验室联袂主办的首届 AI 药物研发算法大赛公布了比赛结果,来自微软研究院科学智能中心的团队,利用研发的量子精度动力学模拟系统 AI2BMD 和通用分子三维结构网络 ViSNet 在初赛、复赛、决赛中均位列第一,并获得大赛的总冠军,展现了 AI 在促进药物研发方面的应用潜力。

微软研究院科学智能中心团队获得首届 AI 药物研发算法大赛冠军

本次大赛由中国药学会等机构支持,共有来自全球的878支团队参赛。作为一场全球性的技术创新活动,此次大赛聚焦于新冠病毒(SARS-CoV-2)小分子药物研发。

事实上,自新冠病毒首次爆发以来,新冠病毒的小分子药物研发就备受关注。

若要抵抗新冠病毒肆虐,深入了解病毒复制与感染机制至关重要。其中,新冠病毒主蛋白酶(Mpro)作为关键酶,负责感染过程中剪切病毒产生的蛋白质前体,促进病毒复制,所以主蛋白酶是一个潜在的治疗靶点,抑制其活性可有效干扰病毒的复制过程,为治疗方法提供突破口。

因此,本次比赛的初赛阶段,参赛者需要使用深度学习、分子对接等方法进行建模,预测小分子抑制主蛋白酶活性的概率,复赛则重点关注小分子在 Caco 细胞上抑制新冠病毒复制的概率。

在初赛对新冠病毒主蛋白酶的药物预测中,面对常用分子对接软件无法有效区分正负样本与靶点蛋白结合自由能的问题,微软研究院科学智能中心团队利用了最新开发的 AI2BMD 模拟系统,将药物预测精度显著提升。

AI2BMD 模拟系统实现了对超10000原子的各种蛋白质能能量和力的精确计算,并具有广泛的适用性。相较于密度泛函理论(DFT),AI2BMD 模拟系统的计算时间缩短了数个数量级。

凭借几百纳秒的动力学模拟,AI2BMD 展现了在探索蛋白质构象空间、预测核磁共振实验数据以及模拟蛋白质折叠过程等方面的卓越能力。与传统分子对接、经典动力学模拟方法相比,AI2BMD 系统在计算结合自由能方面也有明显优势。

AI2BMD 模拟系统论文链接:https://www.biorxiv.org/content/10.1101/2023.07.12.548519v1

复赛中,团队运用自主开发的分子建模几何深度学习模型 ViSNet  化合物分子进行了表征学习。ViSNet 是 AI2BMD 模拟系统中的机器学习势能函数。

作为一种等变的几何增强图神经网络,ViSNet 能在线性计算的复杂度下提取几何特征(距离、角度、二面角等)。在多个分子动力学基准(包括 MD17、rMD17 和 MD22)上,ViSNet 表现均优于其他先进方法,同时也在 QM9 和 Molecule3D 数据集上实现了卓越的量子化学性质预测。

团队在复赛阶段,还利用自主研发的首个蛋白大分子全构象空间数据集 AIMD-Chig 和小分子公开数据集 OGB 分别对蛋白和小分子的三维结构表征进行了预训练,然后通过多任务学习对模型进行微调。

该方法不仅取得了最佳的预测精度,而且以大比分领先比赛的第二名团队。在最终的决赛答辩中,微软研究院科学智能中心团队的新冠药物预测算法方案取得了总分99.60分的绝佳成绩,相较比赛亚军90.76分、季军85.31分的最终成绩具有显著优势。

微软研究院科学智能中心团队提出的新冠药物预测算法方案

通过此次药物研发大赛,微软研究院科学智能中心开发的量子精度动力学模拟系统 AI2BMD 展现了出色的实际应用潜力。

未来,AI2BMD 有望在生命活动的分子机理解释、药物设计、酶催化等方面进行更广泛的探索,助力 AI 药物研发的加速发展。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/2BpD1ZfToAmqYeiF.html#comments Tue, 12 Sep 2023 20:07:00 +0800
未知君创始人&CEO谭验:微生物药物公司是一条新兴赛道,只围绕1到2个明星菌株的模式已经过时|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/SdwuLxxl8FQAZ7KX.html 2017年,谭验回到深圳创立了一家微生物药物公司。

这是一个相对“现代”和“小众”的制药方向。在过去的一个世纪里,小分子药物(即传统的化学药)一直是药物研究的主导模式。即便有新的大分子药物模式(即生物药),如蛋白质水解靶向嵌合体(PROTAC)、RNA靶向小分子(RSM),以及生物学方法如基于抗体的治疗、细胞治疗以及基因治疗,微生物药物都不是一个广受关注的制药路线。

微生物药物会在药物研究中扮演什么角色?能否满足患者的治病需求?在谭验真正创业前,这些问题常是投资机构下注前的争议。

但谭验的履历打动了投资人。北大生科毕业,随后直博波士顿大学生信方向,师从两位导师,一位是麻省理工学院(MIT)和哈佛大学博德研究所(Broad Institute)当年8个核心PI之一的Jill Mesirov,另一位则是早年获得总统奖,而后去往默克又独立在加州创业的Nickolas Haining教授。

这段特殊的双导师求学经历锻炼了谭验的数学计算和生物学能力,也让他埋下了创立一家生物制药公司的种子。

他曾提到,查尔斯河是波士顿的母亲河,MIT和哈佛就坐落于查尔斯河的两岸,周边则是星罗棋布的全球制药企业、医疗机构、风险投资机构和资本公司。独特的产学研地理分布,持续造就了一批具有创新思维的高校精英。

谭验就是其中之一。

2015年,在他博士最后一年,曾担任过麻省理工学院中国创新与创业论坛的论坛主席。上一届主席则是如今星亢原创始人陈航。彼时,创立晶泰科技的“三剑客”温书豪、马健、赖力鹏,也经常活跃在这一论坛上。随着中国Biotech呈现出上升势头,这几位年轻人陆续回国,并将深圳、上海、北京等一线城市作为第一站。

如今,谭验所创立的公司已完成5轮融资,持续至B轮系列累计融资1亿美元,并划分出益生菌、FMT(肠菌移植)、药物发现三种业务方向,形成了从日常健康产品到药物的产品矩阵。

在管线方面,未知君拥有超过10条药物管线,已完成对微生态治疗主要药物形态的全面覆盖。其中已有4条管线进入临床阶段,临床、科研领域合作医院有北京大学肿瘤医院、北京协和医院、南方医科大学南方医院等。预计最快在今年或明年,会有1~2条管线进入临床II期。

总体来说,对于一家成立六年的公司来说,每一步都走得十分稳健。

但对于整个国内微生态领域,谭验仍能明显感受到产业链还不够完善。“比方说研发过程当中的各种服务商,包括菌株鉴定、筛选、工艺开发、临床申报、微生物药物临床实验服务相关的企业都还很缺乏。”在推动产业建设方面,未知君也付出了很大的资源和精力。

近日,雷峰网《医健AI掘金志》对话未知君创始人兼CEO谭验博士,以下为访谈内容,《医健AI掘金志》做了不改变原意的编辑和整理。

《医健AI掘金志》:北大本科,波士顿大学和MIT 博德研究所的博士,任职Tamr,加入峰瑞资本,2017年创立未知君,能谈谈整段经历吗?每段经历的契机是什么?为何回深圳创业?

谭验:我本科是北大生科(生物技术专业),师从朱怀球教授,他是国内很早做微生物宏基因组的算法和科学研究的学者之一。那时候很多同学都选择出国深造,但我跟其他的一些同学不一样的地方,我出国深造的专业是生物信息学。

这跟我之前读书的经历有关,因为我当时一开始进实验室学习的是细胞和分子生物学等实验,经典的研究是聚焦在一个基因或者一个 通路里面进行深入研究,但我知道自己想要从一个更整体的角度去理解生物学的过程和生物学机制。那个时候生物信息学兴起,我发现这个学科是从更宏观的组学角度出发,能让我从更宏观的角度来理解生物学问题,所以我就转到了生信。

[31] 而且因为这是NIH资助的项目,所以我可以拿着补助金在全美选实验室。正好我的导师Jill Mesirov是波士顿大学的客座教授,本身是MIT 博德研究所当年的8个核心PI之一,她在波士顿大学专门招研究助理,我就通过这个方式去了MIT Broad研究所。

实际上我的博士研究方向,一块是数学计算,一块是生物学。我的两个导师,Miserov是数学家出身,现在是UCSD计算药学院院长。另一位导师是Nicolas Haining,专门做免疫这块,他很早就得了总统奖,去了默克做肿瘤免疫部门的VP,后来自己出来创立了Arsenal Biosciences,后者现在是加州那边非常有名的一个肿瘤免疫治疗方向的公司。

加上博德研究所侧重从组学、计算驱动的角度研究生物学,所以那段经历让我拓宽了研究眼界。近几年博德研究所做得很成功,也是得益于这种研究方式。

第二,博德研究所很强调转化,研究所是2004年建立的,到现在马上20年了,已经培育出好多纳斯达克上市公司。我当时对创业也特别感兴趣,参与到麻省理工的中国创新创业论坛,担任过2015年的论坛主席。现在这个协会应该是美东最大的华人创业协会。从创业参与者,到成为组织者,我对创业的理解就是从那时形成的。

去Tamr(大数据整合平台公司)算是我学术的延伸,当时我导师跟另外一个图灵奖得主( Michael Stonebraker ),帮诺华做一个项目--临床试验及基因组数据整合,我们便开始用机器学习做数据整合。

当然一开始做的是医学方向,后来公司做了很多其他垂直方向,就演变成一家大数据整合平台公司。后来,峰瑞资本创立(2015 年),我因为学生会主席的经历,以及对接过美国创业公司的经历,就选择回到中国加入峰瑞。

那时候我更多是做中美跨境投资,当时还没有出现中美关系的波动,跨境投资还很热。比如,我在组织学生创业大赛期间认识了晶泰科技三位来自MIT的创始人,后来在峰瑞也投了晶泰。

总的来说,我当时加入资本很大一个原因是要创业,通过资本公司工作的时间做缓冲,多跟国内公司接触,直到2017年。两年中我的创业思路越来越成熟,商业规划也更清晰了,就在深圳成立了未知君,专注于AI驱动的肠道微生态治疗和药物研发。

《医健AI掘金志》:几乎和你同批回国创立AI制药公司的人还有谁,你为什么选择回国发展?

谭验:晶泰科技的温舒豪、马健是2014年回来的。精锋医疗是2017 年回国。星亢原的陈航也是我们协会的,他是早我一届的会长,2018年回国。剂泰医药联合创始人兼CEO赖才达2019年从波士顿回国。
我们看中的是中国Biotech领域的上升势头。美国相对成熟,做的更多是细分领域里的事情,我们能在中国填补的空白更多,做事的空间更大。

具体到微生态制药这个细分领域,今天未知君这个平台在全球也是非常稀有的,几年下来也积累了大量创新。

美国可能2012,2013年就在探索微生物药,持续了很长时间慢慢推起来。在中国,我们应该算比较早的。

我创业那会国内有很多做微生物测序服务的公司,但真正做Therapeutics(肠道微生态治疗)、FMT(肠菌移植) 、益生菌,特别是上游端的这种研发型的公司,几乎是没有的。

《医健AI掘金志》:谈谈选择 AI +微生物这一方向的原因,公司的平台布局,以及未知君名字的由来

谭验:微生物的挖掘天然就跟AI关。因为肠道里微生物太多,有数据表明人的肠道里至少有500-1000种菌,如果再考虑多个菌种共同作用的情况,做一个排列组合,就更多了。如果不用AI的方法,可能做了多年实验才能发现了一个特别好的菌株,再围绕它做转化。

这极具偶然性,而且属于单一菌株的开发,而我们想做的是微生物药研平台——建立一个AI驱动的微生物组研究的技术平台,系统地研究分析人体内庞大的菌种,从中发现药物管线,再推进管线研发。

制药是一个天花板相对更高的赛道,有了这一技术平台,除了填充微生态药物这一空白领域,我们未来也很容易将业务延展到消费产品或是检测上。

有了这个逻辑后,我们很快确定了公司的英文名——XBIOME。微生物组叫microbiome,其中对人类有益的微生物,像是未知的“X”,所以我们就取名为XBIOME。中文名为“未知君”。

具体怎么搭建技术平台,是从微生态制药技术中延伸出来的。

从宏观逻辑讲,微生态制药技术涉及两个方面:一个是从更多的临床数据和菌株的基因组数据出发,快速缩小功能菌株的筛选范围,以IT技术为主;另一个是BT技术为主,通过高通量的体外筛选和更好的动物疾病模型,进行菌株功能的验证。

在IT端,公司的AI平台由底层的计算平台、AI算法平台和分析平台、药物发现平台三块组成,覆盖了底层数据处理、算法迭代模型分析、AI加速药物发现的全流程。

通过AI,我们的研发团队可以从适应症出发,实现功能产物预测,也可以从机制出发,实现关键菌种预测。菌株筛选这部分,我们和中国科学院深圳先进技术研究院有合作,成立了联系实验室。

在BT端,未知君打造了高通量自动化实验平台、动物模型验证平台、生产及临床平台,可进一步评估早期候选药物,以进行快速验证和靶向优化。在动物模型环节,未知君和中国医学科学院动物所有合作,共建无菌动物的金标准等。

《医健AI掘金志》:公司产品和管线的搭建逻辑是什么?

谭验:公司基于同一个AI微生物组研究平台,划分出FMT、益生菌、药物发现三个业务和产品方向。

益生菌算是健康食品,已经发展出很大的市场体量。我们已经与国内与国际多家头部大健康公司完成商业合作与转化,并在持续推进自主产权菌株开发。

FMT在美国属于药物,已有2款FMT药物在美国获批上市。但在中国,FMT是介于药物和食品之间的医疗技术。我们一方面将自己的明星药物管线XBI-302进行中美双报,一方面与北京大学肿瘤医院、中国医学科学院北京协和医院等近20家国内知名三甲医院,开展了在不同适应症方向的肠道微生态临床研究合作,同时,开发了AI-FMT个性化肠道微生态精准治疗项目,将FMT推向医院和大健康市场,造福慢性病与亚健康群体。

药物研发这块,我们的产品包含了单菌、配方菌,包括基因工程改造菌,基本涵盖了微生态药物的所有主流形态。治疗领域上,我们选择的是肿瘤、消化、免疫、泌尿等相关疾病。

总体来说,我们形成了从日常健康产品到药物的产品矩阵。

管线方面,未知君已经拥有超过10条药物管线,多条管线属于FIC。未知君主要围绕微生物免疫调节展开研发,但适应症更广泛一些,覆盖肿瘤、神经系统疾病、消化系统疾病、免疫相关疾病等领域。当然微生物还有更多的功能方向,我们下一步会去拓展管线,比如代谢或脑肠轴方向。

当然,这是一个行稳致远的过程。目前,我们的重点仍然是免疫调节,这是毫无疑问的。今年,我们将资源更聚焦在进展最快的管线。我们现在也和国内外药厂开展合作研发,也会配合他们的投入和管线布局。

《医健AI掘金志》:管线进度如何?注意到你们两年前就有第1条临床管线,相比大分子药物和小分子药物,微生物药物的进展更快吗,你们的优势是什么?

谭验:我们有4条管线进入临床阶段,预计最快在今年或明年,其中1~2条管线会在中美进入临床II期。

进展最快的是自研管线XBI-302,这是亚洲首个(数据来源:Informa Pharma Intelligence)获得美国FDA临床批件的、针对急性移植物抗宿主病的FMT药物管线。

从2022年开始,我们已启动技术平台商业化,一是为消费类益生菌公司提供相关功能的菌株以及检测技术,帮助他们做出更好的产品。二是做平台服务,目前微生态领域国内的产业链体系还不太成熟,我们认为,技术平台的开放和赋能在这个时期非常重要。

在整个AI制药领域,做小分子方向最成熟,产业链也最为完整。微生态药物有自己的优势,这是一个新的药物形态,即“活体药”。

一是它采用发酵工艺,具有更好的经济性;

二是跟小分子、大分子药相比,是一个多功能、多靶点的复合作用;

三是它是活性物质,来源于人体肠道微生物,跟人作用的安全性更高一些。

另外,说起未知君的定位,相比一家“AI微生物制药早期发现”公司,我们更倾向于将自己定位为生物科技公司。

在微生物药物领域,我们能够完成整个从假设产生到假设的试验验证,再到推进药物研发生产的闭环,这一体系在行业内还较为稀缺,这是未知君的一个差异化竞争点,也是建立竞争壁垒的关键。

深圳将微生物药物作为重点产业方向来支持,这也是我们在深圳发展的长期优势。

《医健AI掘金志》:微生物药物这一领域也有CRO这种产业链公司吗?这一领域正处在哪一阶段?

谭验:目前我们能明显感受到国内微生态领域产业链还不够完善。比方说研发过程当中的各种服务商,包括菌株鉴定、筛选、工艺开发、临床申报、微生物药物临床实验相关的企业都还很缺乏。

未知君的药物和产品研发工作,主要在自己的技术平台内完成,这里说的研发,就是通过数据产生假设,并进行临床前的实验验证。

在生产上,我们有自己开发的工艺和生产、质量体系,也会用海外的CDMO做临床批次的生产。我们也希望跟国内的CDMO合作,但现在国内还没有专门的LBP,即活菌药物领域的CDMO。

最后在临床验证环节,因为微生态药物临床试验与常规临床试验有许多相同之处,如基本原则、临床试验目的、试验方案的制定等;所以我们也用CRO,特别是动物实验,会找具有GLP(良好实验室规范,Good Laboratory Practice)资质的CRO。

总体来说,微生态药物出现更晚,整个产业链都还处在发展的初期阶段,要靠企业自己去做完链条上的所有事情,这会给研发和转化效率带来一些影响

另外,国内目前在监管方面,还没有成熟的政策出台。比如,活菌药物有很多种不同形态,各形态药品的监督路径、指南,还有待明确。还有,在药物研发过程中,应该遵守哪些规定、应该跟CDE如何进行沟通等,都还没有明确的政策依据。监管的完善,将进一步促进行业发展。

《医健AI掘金志》:畅想一下,等到大分子药物、小分子药物、微生物药物等百花齐放,未来会形成一种怎样的创业模式、诊疗模式?

谭验:无论是医药还是大健康产品领域,现在都把肠道微生物和人体基因放到了同等重要的地位。现阶段,对人体基因的医药研究相对成熟,而微生物才刚刚兴起。随着技术的进一步发展,以及对微生物应用的探索进一步完备,微生物在医药领域占据的地位会越来越重要。

比如,在一些当前还没有治疗方法的疾病领域,如一些精神类疾病等,目前都有广泛的学术报道,通过肠道微生物调节可以取得较好的疗效;在部分抗生素无法治疗的消化道感染性疾病上,微生态疗法也有较好的治疗效果;此外,对于许多自身免疫性调节的疾病来说,也可通过肠道微生物的调节,弥补现有治疗手段的不足和缺陷。

所以我认为,面对很多复杂性的疾病,未来很大程度上会是一个靶点和肠道微生态双管齐下的格局,以便为患者带来最大的临床疗效。

雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/SdwuLxxl8FQAZ7KX.html#comments Tue, 29 Aug 2023 09:05:00 +0800
英矽智能任峰:进度较快的AI制药公司已到关键验证期,但还需2到5年迈过「死亡谷」|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/tT4YcG6WDxy9Sq5v.html 任峰创造了许多奇迹。

这是他所在的英矽智能的创始人兼首席执行官Alex Zhavoronkov,以及公司生物部、化学部、商务团队、公关团队乃至合作公司给出的一致评价。

任峰有一份漂亮的履历,名校哈佛出身、全球第二大药企的双部门负责人、中国龙头CRO公司上市路上的幕后关键,以及一家头部AI制药的中国合伙人。

但光鲜的背后并不容易。任峰曾讲,即便当时有哈佛博士的标签,但在2006年美国金融危机震荡前,已经感受到求职市场的寒意。“一大批药企掀起瘦身运动,新药上市持续缺乏,一些产品线处于废置状态。” 在当年跨国公司收缩head count的情况下,任峰跻身葛兰素史克(GSK),并在那里系统学习了药物研发的理念和流程。

另一边,中国的生物医药产业在上海张江筑巢引凤,迎来第一波创新的势头。

就在任峰加入GSK前一年,全球顶级头部跨国制药公司罗氏,决定在张江设立研发中心。继罗氏之后,辉瑞、诺华、GSK、礼来等跨国药企研发中心先后落户张江,促成了张江这一对外门户,也让一批制药人才有了落脚点。

2008年初,上海下了难得一见的大雪,任峰成为了GSK总部外派回上海的第一批核心力量,并跟着GSK的研发团队一直做到了2016年。这十余年时间奠定了他和张江这批归国科学家的关系基础,也埋下了他此后去往美迪西的线索。

任峰回忆,当时收到美迪西创始人陈春麟博士的邀请,帮助带领生物与化学两个团队。仅仅三年,在他的带领下两支团队从100人迅速扩张到800多人,美迪西也在2019年成功登陆科创板。2020年,任峰回归猎药人的本心,真正为自己的未来考虑。

“当一个药化学家经历了公司上市,他接下梦想肯定是做一款新药并推到上市。”任峰表示。

在CRO的这段经历,让他明白作为公司限制,CRO对于项目并没有决策权,甚至一些他们看好的分子和项目会因为种种原因停滞。

2021年2月,任峰放弃进入传统药企的机会,以首席科学官的身份加入英矽智能。

有一个讲法是,任博加入英矽智能之前,这家公司是没有真正做药的人,基本上都是一群 AI 工程师,连一个做结构的人没有。任峰的来意明确:让公司转型成为一家真正的AI制药公司。

他一手搭建团队,在关键的几个坑位上招兵买马、一手大刀阔斧,叫停低价值管线,集中力量推进高值项目,立项新项目,还要抽取精力与管线赛跑。2021年2月底,迅速提名了英矽的第一个PCC。

这也被视为英矽智能成立以来的第三次重要节点。相比前两次都是论文成就,这一节点意味着“全球首款AI药物的临床前候选化合物”诞生,提振行业士气,同样也是英矽智能将AI和DD(药物发现/设计)有机结合的证明。

6个月后,任峰带领团队提名了当年另一个PCC。到了2022年提名的PCC数量达到12个,至今英矽智能仍是业界记录的保持者。

最新的消息是,当年英矽智能最早提名的这款PCC,已进入临床II期阶段,除此之外,还有公司还将其他3个PCC推进到了临床I期。这在传统药企可能需要耗时多年的成果,任峰仅仅花了2年。值得注意的是,英矽智能在今年6月底递表港交所,将进一步验证AI制药行业的发展趋势。

无论如何,任峰的“新药”理想还在继续,而且到了关键时刻。

如今很多公司把英矽智能当作目标,以及过去的老板陈春麟博士也在一次圆桌会议上对任峰赞赏有加,任峰开玩笑称“这是捧杀。”

他很清醒地知道,目前为止,无论是AI制药公司单独推进的管线,还是合作项目,大多都已进入临床II期,却始终没有通过关键的临床患者验证。站在英矽智能的角度,这也需要2到5年。

近日,雷峰网《医健AI掘金志》对话英矽智能联合首席执行官任峰,共同探讨了AI制药行业的前景和趋势。以下为访谈内容,《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志向》:哈佛化学系,GSK研发小分子创新药、美迪西负责化学、生物两个部门以及药物发现平台,英矽智能,能讲述下你的4段经历吗?什么契机做了不同的职业选择?

任峰:在我的母校中国科学技术大学,有出国留学这么一个“传统”。所以在读完本科之后,我在新加坡读了两年硕士,最终还是希望去美国继续深造。毕竟当时大家都认为美国拥有比较先进的科学技术。

在博士临近毕业的时候,我决定从纯粹的理论研究转到更深层次的应用,从工业界的实践中进一步学习和药物相关的知识。在收到的几个offer里,最终选择了去葛兰素史克(GSK)做小分子创新药,当时是在美国。

后来,GSK在中国搭建研发中心,我怀着回国效力的梦想,转到了上海研发中心,做神经系统疾病相关的小分子创新药研发,一直工作到2018年GSK早期研发撤出中国的时候。

当时我面临下一份工作何去何从,要加入什么样的公司这样的问题。

我可以选择回到美国继续原来的研究,但我还是希望留在中国,也想要锻炼自己带领团队的能力、开阔眼界,于是拥有大型团队和大量合作客户的CRO(合同研究组织)公司成为了最好的选择。

2018年,我加入了美迪西,负责化学和生物部,团队有100多人。在我就职美迪西的三年时间里,我带领的团队迅速扩张到800多人的规模,美迪西也在2019年成功登陆科创板。在完成这些之后,我发觉自己还是希望能真正的做出药来,这才是我的兴趣和爱好。

作为CRO并没有对于项目的决策权,可能我们看好的分子和项目会因为种种原因停滞。我还是希望能从早期的靶点发现一直做到临床试验,最后争取做到上市,所以创新药企对我来说是更好的选择。

这个时候我关注了两个方向,一个是人工智能制药,另一个是蛋白降解剂(PROTAC)。最终选择了前者。

因为在做出这个选择之前,我认识到Alex和英矽智能。

我们聊得很愉快,我被Alex对于AI制药的愿景打动,之后利用顾问身份也对公司的平台和项目做了很长时间的调查,大概是3个月。

正是这段时间,我去验证和考察英矽智能的Pharma.AI平台,包括其中的靶点发现平台PandaOmics和分子生成平台Chemistry42,发现它们都可以真正的帮助到传统的小分子药物研发,起到降本增效、提升创新性的作用,做到多方面的赋能。

这个时候我意识到,AI制药可能是未来的趋势,所以在2021年2月选择作为首席科学官加入英矽智能。

《医健AI掘金志向》:听说Alex从50多人中选中了你,同时你也在反向考察Alex,3个月后决定正式加入。你们两个都很慎重?

任峰:其实在十几年前,我还在GSK做小分子创新药的时候,CADD(计算机辅助制药)还不是特别火热,但当时我已经开始尝试用CADD的方法来设计化合物了。

对于刚出现的新兴技术,我愿意去了解它、理解它、应用它。在沟通过程中,我和Alex发现双方都希望能用新的技术突破当前生物医药产业的瓶颈,也就是研发效率低的困境。

当时我也意识到AI制药可能是未来的趋势。

我认为,随着数据量越来越大,算法和深度学习、机器学习会迎来快速的发展,整个生物医药行业也会逐渐从以人为主的模式过渡到以数据和算法为基础的新型研发,这样才能带来效率的提升。

尽管如此,我还是花了2-3个月的时间做了尽调,并且自己去试用了英矽智能自研的AI药物研发平台(PandaOmics平台),同时观察了一些公司的自研项目,去考察AI辅助生成的新颖化合物的成药性等性质。

此外也会参与新颖药物研发项目的一些重大决策,比如应该把哪一些候选化合物推进到下一个阶段、如何去评估候选分子在单一维度或者整体的性质、一个新药研发项目如何与AI技术结合,也一起见了一些投资人。

AI制药当时有一些人不看好,但我清楚地知道自己想要什么,做出的选择就会比较谨慎。至于Alex这个人,他也是非常谨慎的,在为英矽智能寻找CSO的过程中接触了很多人。我和他年龄相仿,又都是思维比较活跃、喜欢创新性工作的人,同时对新兴技术比较有信心,所以我们交谈非常愉快。

《医健AI掘金志向》:从CSO,到CO-CEO,这两年多以来的工作有何变化?

任峰:刚加入公司的时候,公司的药物研发管线需要梳理,我当时关注的重心有两个:

第一是搭建团队,把自己的研发团队壮大起来;

第二是项目推进,梳理已有的项目,把价值不大的管线叫停,集中力量推进更有价值的项目,同时立项更多的新项目。推进到PCC(临床前候选化合物)的项目可以获得投资人的认可,这也是对英矽智能AI平台能力的证明。

招人逻辑是“马太效应”,刚开始的几个人一定够专业,有影响力,这样才能吸引后面人才的加入。

在研发团队初步搭建起来之后,我们打破常规,平行进行多个临床前实验,2021年2月底迅速提名了我们的第一个PCC,也就是抗特发性肺纤维化的ISM001-055项目。

这是第一款由AI发现新颖靶点、由AI设计的新颖分子结构的小分子化合物,引发了业内关注,也是英矽智能将AI和DD有机结合的证明。

6个月后,大概是在2021年8月,当年另一个肾纤维化的PCC也被提名。到了2022年,一共提名了 12 个PCC,可以看到研发效率有一个质的提升。

我和Alex有自己的时间表,也会针对研发进展做定期的信息交流和讨论。但我对自己也有很高的要求,一般是立项12个月之内就要做到临床前候选化合物的提名,只有这样才能在竞争激烈的AIDD行业里处在领先地位。

除了速度,在质量和合规方面,我们对自己的要求也很高。

我和团队依照GSK的临床前药研标准,设置了我们自己的化合物标准,比一些大型药企的标准还要严格。而且我们要求做的化合物个数尽量少,要充分利用我们的资源,但不要浪费资源。这样我们以后将这个项目对外授权转让,或者就去进一步往下推进的时候,我们有更大的信心。

Alex会充分发挥每个员工的主观能动性,在看到我作为CSO验证了自身能力之后,他就给了我更大的责任和舞台,让我作为联合首席执行官,除了引领药物研发之外,兼顾业务拓展等公司层面的管理。我也是在这个时候加入了公司董事会,拥有了公司决策层面的发言权和知情权。

同时,我管理的团队从上海和苏州慢慢拓展到了香港、台北、欧洲的药物研发团队也会向我汇报,这意味着研发业务进一步的聚焦。也就是说,我的角色开始向全球化的决策发展,公司药物研发也从上海拓展到全球。

《医健AI掘金志向》:英矽智能在美、欧、中,以及全球80多个CRO合作,不同区域的分工和发展重心是什么?

任峰:英矽智能在8个国家和地区有研发团队。

海外主要是AI团队,中国主要是药物研发团队。上海是我们的药物研发中心,苏州是机器人实验室,香港是靶点发现中心,台北会做一些生成式AI和量子计算的前沿项目。

CRO的选择,我们并不是按地域划分的,我们是按能力来合作的。

比如前一阵我们在做一个肾病的模型,国内没有特别合适的,我们找到了一家日本的CRO,他们可以做一个肾病模型。

另外,我们之前做新冠的项目,对实验室的要求登记比较高,对新冠毒株的要求也很高,所以我们就找到一家在法国可以做新冠实验的CRO。

而国内的化学合成非常优秀,我们和药明、美迪西、皓元都有合作,合作包括化合物的体外活性测试、酶活性细胞活性、DMPK测试、做CMC制剂做放大生产和临床前毒理等。所以每家CRO的强项业务都不一样,我们完全是业务驱动。

《医健AI掘金志向》:AI制药公司主要包括3种商业模式,出售软件的AI SaaS、提供服务的AI CRO、自研药物的AI biotech。英矽3种都有接触吗?

任峰:其实是4种模式,因为SaaS分为两种,可以是单纯的软件授权(薛定谔),也可以和公司达成战略合作,包括项目首付款和里程碑付款。

至于CRO的服务,以晶泰和腾迈为例,就是为制药公司提供AI算法等服务,是“一手交钱,一手交货”的模式。相比之下,合作关系是比较长尾的。

我们和药企是平等的合作伙伴关系,和CRO则是甲方和乙方的雇佣关系。 以赛诺菲的合作为例,英矽智能负责早期的靶点发现、分子设计生成等工作,将项目推进到PCC或者临床I期阶段。此后,赛诺菲负责后续的临床推进工作,同时会在里程碑达成之后给到里程碑付款。

至于我们和CRO的合作,我们则是将自研AI设计的化合物交给CRO去合成和测试,是甲方和乙方的关系,实验中产生的数据也是英矽智能自有的,会反哺AI平台的迭代和优化。在这个过程中,双方扬长避短,英矽智能融合前沿AI技术设计新颖的分子,同时充分利用CRO高效执行的能力、试验操作的经验和规模效应,对它们进行验证和测试。

我们在苏州的实验室,会替代一些CRO的工作,但是它更主要的一个功能是,为了我们以后收集和产生更多的数据。因为AI平台做得更精准,它需要的数据量更大,所以我们的全自动化的机器人实验室,会为我们产生更多的数据,也提早布局,希望能在以后的竞争中处于领先的地位。

另外,一些CRO的验证工作是不是可以自己做?

如果想要自己建立化学实验室,生物实验室也是可以的,但这些都是重资产投入。英矽智能目前还是轻资产运行,这样的灵活度非常大,而且在一起设备投入上也少。

CRO擅长提供一些实验的解决方案,配备专业的团队、专业的设备、甚至是实验室。如果我们要建一个实验室,需要购买仪器,仪器的折旧期是7年,7年之后就归零,这就是一大笔资产投入,还要去做安评、环评、废水、废液的处理等等,这些开支其实一个是耗费我们大量的精力,再一个这些都是贬值的投入。

目前,我们最终的走向是AI赋能的biotech。那么对于biotech来说,最大的价值就是它的专利和管线,其他的那些仪器设备都折旧到几年之后就没了,价值归零。所以说,这些领域我们更希望轻资产运行,然后充分利用CRO的特色,灵活度高的特点,更符合我们目前的需求。

《医健AI掘金志向》:有人称,烧钱搞自研药物,其实是向外界证明英矽的平台和效率,依旧是给SaaS业务打广告,你怎么看?

任峰:自研管线和外部合作是相辅相成的。自研管线的推进源于我们对AI平台的信心,也会验证AI平台的能力、获得外部合作伙伴的信任。同时,战略合作会为AI平台提供真实世界数据和反馈,进一步推进平台迭代优化。

目前,英矽智能内部的30多条管线完全是公司自主研发的,涵盖29个新颖靶点和肿瘤、纤维化、免疫等疾病领域。事实上,我们希望在PCC或者临床阶段寻求行业合作,将管线对外授权作为主流的商业模式。

总的来说,项目的议价权和临床上的数据和新颖程度有关,大型药企对新颖项目也比较感兴趣。对于一些me-better项目,可能就是在临床II期初步验证疗效之后,药企才会有授权引进的意向。

《医健AI掘金志向》:现在英矽有30多条管线,相比大药企60多条,这个数量级不算少。在管线选择上是何种逻辑?目前进展最快的肺纤维化候选药物管线,不少于8家竞争,怎么看待管线同质化的现象?

任峰:我们主要关注管线背后是否有足够大的市场规模、明显的未被满足的临床需求,以及比较充足的组学数据,这样就可以充分利用我们的AI平台。

目前,我们聚焦在癌症、纤维化、免疫和神经系统疾病这4个最主要的领域。

同时由于AI赋能,我们可以用更少的成本和资源投入,高效进行项目推进。同样的成本,可能一般的公司只能做5-10条,我们却可以做30条管线,非常高效。

现在进展最快的是肺纤维化药物管线,不少于8家有竞对竞争对手。但这个市场规模还是比较大的,预计到2030年会扩张到70亿美金。

而且现有的药物毒副作用都比较大,仍然存在未被满足的临床需求。 以及目前市场上的IPF创新药很多都聚焦在TGF-β通路,通过单一机制影响疾病进程。

但对于IPF这种复杂疾病,像英矽智能候选药物这样同时影响纤维化和炎症等多个通路,才最有可能得到更好的药效。这正是我们相对于竞品的优势之一。

另外,英矽的IPF候选化合物已经在临床I期试验中表现出了良好的安全性,这也构成了差异化优势。

《医健AI掘金志向》:如果一体两面地看待管线多的事情,也有隐忧:一是业务重心向自研管线倾斜,高度依赖于资本持续输血;二是尚无二期临床数据读出,投资者得“开盲盒”;三是受数据质、量限制,管线研发不可持续。所以当下英矽的任务是什么?有背水一战的感觉吗?

任峰:我们现在最主要的任务就是做好我们的管线的对外授权工作,这是我们今年BD的一个重点。可以在节约临床阶段投入的同时产生大量的现金流,支持后续研发工作。

我们希望能和行业伙伴合作,以相对轻资产的方式,着重关注临床前和早期临床试验阶段的工作。作为AI赋能的生物医药公司,这一阶段的降本增效能力正是英矽智能的优势。

我觉得我们需要一些真正的项目上的验证,需要大家给一些耐心。

目前为止,无论是AI制药公司的自研管线,还是合作项目,还没有在临床上获得关键的患者群体验证,现在很多是进行到II期。

希望我们在未来的2-3年或者3-5年之内,能在患者群体中得到真正的验证,如此才算实现了AI制药的闭环。

更进一步地拆解这个问题,就是提高候选药物在临床阶段的成功率。

我们知道,有超过半数的 II 期临床试验都以失败告终,其原因包括无法显示疗效、安全性问题以及疾病和数据的复杂性等,导致数千亿美元和数十年的努力付诸东流。

但准确预测临床试验II期至III期的转化成功率可以改变游戏规则。

好消息是,我们的AI临床试验预测模型--inClinico,离成功预测临床试验结果又近了一步,能够高准确度地预测多项临床试验II期至III期的转化结果。

这是我们2014年以来的工作,曾于2016年在预印本网站上发表了首篇预测临床试验结果的论文,今年8月3日正式将成果已发表在《临床药理学与治疗学》期刊上。该期刊是实验与临床医学领域权威的跨学科期刊。

目前inClinico 设置为一个 SaaS模式的在线软件系统, 已开放与行业伙伴的对外授权合作,也开放供分析师、对冲基金和银行在评估中小型生物技术公司临床试验项目中试用。

可以说,这是我们发展到管线转让的必然工作,也是给整个AI制药行业的反馈。

另外一个行业瓶颈,可能是对AI精度的提升不够。比如现在的数据喂给AI,它的准确度可以达到15-20%,你如果想把准确度提高到40-50%,你的需要的数据量就要更多,如果想进一步提高AI的精度,可能就需要更大量的数据。

《医健AI掘金志向》:能做SaaS就能做CRO,能做CRO就能做管线,大型药企也可以搭建自己的AI团队,但为什么这个领域一环扣一环,SaaS、biotech、CRO、bigpharma,四者相对稳定呢?

任峰:这些企业都有自己的侧重点。

像这种Saas的公司,他们更多是提供一些服务,提供一些公共型的平台,比如说算力平台,它可以做一些大家都能用到的底层搭建。以此赋能AI制药公司或者其他的AI公司,这是他们发挥自己技术上的特色。

对我们这种AI制药公司,我们也是在发挥自己的特长,希望通过算法,结合生物医药的数据,去做药物的早期研发。

而大的药企,他们有强大的商业化能力和临床能力,他们愿意在一些管线上与biotech或者AIDD公司合作;或者管线发展到一定阶段之后,他们希望授权引进或者买入这些管线,然后利用在后端的强项将药物做上市。

那CRO就希望能作为药物研发的服务提供商,帮助biotech或者biopharma将产生的想法实现,比如说把biotech设计出来的化合物合成出来。

所以我觉得这个是挺健康的一个生态圈,就是大家知道自己的强项在哪里,不去画蛇添足的做额外的跨界和无用的投入,这对整个生态是有好处,对自己的公司也有好处。

如果是我们要想去做一个大外企,建立销售团队,其实现在没有产品,也没有必要,甚至根本连养都养不起。

《医健AI掘金志向》:你怎么理解biotech和bigpharma,会有从前者到后者的跃升吗?

任峰:我觉得大的pharma,他们的护城河在于临床团队比较强大,商业化团队比较厉害,其实它有这两个就够了。我们也能看到,大的pharma一直在降减降低早期研发的这种比重。

而biotech这种新兴的技术公司,强项是在于早期的研发,所以说我们应该是投入在前期的强项上,而不一定每一个Biotech都想做成一个Biopharma。

所以说我觉得还是大家就专注于自己所擅长的事,那就形成互补。

当然,从很长远的未来来看,以后我们如果很多管线实现了对外授权,并且有一些药物已经上市了,有可能我们也建立销售团队,但这是很久以后的事情了,现在什么都是不确定的。目前为止,我觉得还是每个公司都聚焦在自己最擅长的领域更合适。

《医健AI掘金志向》:成立至今有哪些发展节点?接下来的3-5年间,您认为有哪些技术上的突破,会推动AI制药的跨越式发展?你们下一步有何规划?

任峰:首先是2016年,Alex带领团队首次将生成式AI应用到药物设计这个方面,结果在同行评议期刊上发表。在此之前,英矽智能主要利用生物信息学的算法,为药企提供靶点发现服务。

这篇论文标志着公司的AI技术应用从生物学拓展到了化学方面,也是我们作为生物医药公司发展的重要转折点。

接下来是2019年,英矽智能和药明康德一起在Nature Biotechnology发表了一篇文章,阐述Pharma.AI平台在46天的时间内针对DDR1这个靶点生成小分子化合物的过程,标志着英矽智能在业界获得了一定的知名度。

这款候选化合物表现出了良好的活性和DMPK性质,在合成和测试6个化合物之后就被发现了,这是创纪录的时间和效率。

到了这个时候,英矽智能的算法在大范围内得到了认可,但在药物研发领域的领先地位还没有夯实。

这一点在2021年2月份发生了转变。原因就是我们在这时发布了全球首款AI药物的临床前候选化合物。这是第一款由AI发现新颖靶点、由人工智能设计新颖分子结构的小分子化合物,引发了业内关注,也是英矽智能将AI和DD有机结合的证明。

今年对英矽智能来说也很重要,我们不断推进新药项目,在临床阶段也持续获得进展。

首先是我们的领先项目,也是业内首款AI药物率先进入到临床II期,对我们来说是里程碑式的事件。

其次,今年还有3条管线进入到临床,让我们成为一家临床阶段的AI制药公司。

第二个问题,接下来的技术突破。

从AI制药来讲,我觉得可能未来算法上可能很难有跨越式的技术突破。就算有,也是一些比较小范围的或者小步的提升。我认为不会有就像以前出现这种机器学习、深度学习、神经网络这样的重大技术上突破。

那么AI制药下一个突破点,我是指技术上而不是一些项目突破。项目突破就像我刚才说的,我们要等一些项目在临床上得到验证,尤其是临床二期。

另外,我觉得技术突破,可能是智能化自动化的实验室的普及。

现在大家都说干湿实验的结合,就像前面我也提到了,目前药物设计都是由AI制药公司完成,而实验的执行都是在CRO,但CRO这里的执行完全依靠人力,这是一个劳动力密集型的行业。

如果我们能在技术上突破这种,把这种劳动密集型的行业,做成以自动化智能化为主的方式,那就可以更大程度的降低成本,并且提高效率。

所以我觉得,有可能自动化智能化可能会更进一步加强AI制药的发展,也包括人机智能。

我们在苏州建立一个生物学的智能化机器人实验室,当然它还在进一步的完善,我们希望能在未来的1-2年里面,有机会能建立化学的机器人合成实验室,这样的话有很多事先的工作,我们可以内部就解决了,更高效率地解决。

第三个问题,下一步的规划。

首先一定是做好我们的管线的对外授权工作,此外我们也希望引入新的投资机构--算力等背景的公司。

你可以看到目前我们的投资机构,绝大多数还是AI和生物医药的居多。我们认为更宝贵的不仅是投资机构带来的资金投入,也有资金之外的对我们在行业内长期发展的帮助。比如,额外能帮我们引荐一些合作、或者技术上提供一些算力的支持等。也就是不仅是资金上的支持,更多的是从发展战略上的支持。

雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/tT4YcG6WDxy9Sq5v.html#comments Fri, 18 Aug 2023 18:32:00 +0800
索智生物许大强:AI打破小分子双靶点药物设计门槛,让一把「钥匙」开两把「锁」|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/ozsDOHtD7nt85XQb.html “在自身免疫性疾病领域,仍有大量未被满足的临床需求,AI技术有望帮助我们突破双靶点药物研发的瓶颈。”

在雷峰网《医健AI掘金志》的对话中,索智生物创始人许大强介绍,自身免疫性疾病的发病机理非常复杂,不同的病因互为因果,治疗中往往“按下葫芦起了瓢”。

目前市场上自免疾病治疗药物,不论是小分子还是大分子药物,几乎都是不同类型的炎症抑制剂,只能解决疾病的炎症这一个方面的问题。

而自免疾病的另外一个标志性问题——组织破坏,如今还没有任何治疗药物,直到AI技术的出现为相关研究带来的新的曙光。

尽管双靶点抗体药物研发已经非常成熟,但长期以来一直难以取得突破。

借助AI技术,许大强尝试通过双靶点小分子药物来同时解决自免疾病的炎症和组织破坏两个问题,以弥补自免疾病治疗的这一短板。

相比行业内众多走上创业之路的科学家,许大强的工作经历明显更为丰富。

许大强博士本科毕业于北京大学化学专业,在美国加州大学洛杉矶分校获得化学博士学位后,进入Scripps研究所内的两届诺奖得主Barry Sharpless实验室做博士后研究。

在美国诺华集团工作期间,又获得沃顿商学院EMBA学位。

自1993年起,许大强在国际药企巨头诺华集团工作二十余年,作为“领袖人才培养计划”成员,先后从事过药物开发、产品商业化、市场销售以及品牌管理等不同环节的工作,对新药研发全流程有了全面的了解。

2018年,许大强回国筹备创业项目时,结识了维亚生物董事长毛晨博士。在毛晨的邀请下,许大强加入维亚生物,帮助公司建立起了系统化的投资业务。

在维亚生物工作的2年多里,许大强领导过近五十家企业的投资,其中不乏AI制药公司。

“我在新药研发行业工作了二十多年,很少见有这样一个技术,技术的发展和迭代异常迅速,尽管底层技术并不属于生物医药行业,但却是非常契合生物医药的各种应用场景。”

许大强意识到,AI技术有着很大的发展潜力,将为新药研发带来无限的可能性。2021年,许大强正式创办AI制药公司索智生物,获得维亚生物与百图生科的投资与支持。

借助公司自主开发的新药物研发技术平台AIxMTD®,索智生物旗下炎症性肠病与系统性红斑狼疮两条研发管线已经进入临床前研究。

以下为《医健AI掘金志》与许大强的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志》:您曾在诺华制药工作过很多年,期间从事过研发、商业、销售、品牌等不同环节的工作。作为一名化学专业出身的科研工作者,当时为什么会选择离开研发岗位,去参与其他领域的工作?这些经历为您后来创业提供了哪些经验?

许大强:我博士毕业于美国加州大学洛杉矶分校化学专业,在诺华集团就职期间,最初从事的是药物开发相关工作。

后来转向其他岗位,一方面是我个人兴趣所在,另一方面,则是公司的“领袖人才培养计划”为我提供了机会。

作为公司“领袖人才培养计划”中的一员,我获得了前往沃顿商学院攻读EMBA的机会。从沃顿商学院毕业后,我开始担任诺华集团北美地区CEO的助理职位,这为我打开一个全新的视角。

在这之前,我做研发工作已经做得很顺手了,那时从没想过要离开研发岗位,但是我发现,做研发只能发现和解决眼前的技术问题,而解决的这个问题将为产品带来怎样的价值,我却几乎从未注意过。

CEO助理这个岗位让我能够从一个更高的层次和更广的视野来观察一家跨国药企的全局运作,使我对药物的开发、生产、销售等环节有了全面的深入的了解。

直到这时我才意识到,应该对市场进行更加深入的了解,要知道新药研发的价值如何实现。

在后来的几年中,我先后从事了销售、品牌管理等岗位的工作,这些经历对我如今的发展也非常有意义。举例讲,以前做研发工作时,我只关注管线产品研发的各个环节,并不会注意市场上有哪些竞争对手,药物的销售价格,如何推销产品等等。

工作经历丰富了之后,思考问题的角度也发生了变化,一个新药研发更在立项之前就要将产品的临床价值、市场价值和价值链思考清楚,而不是执着于追求First in Class 或者Best in Class。

其实,在市场部我们有一句常常提起的话,“ you can always be the‘First in Class’, but you have to find the ‘class’”(“只要找准了市场,任何产品都可以是这个市场的第一“)。

正是那些工作经历为我提供的思路和经验,让我能够以更加全局化的视角去观察新药研发这个行业。

《医健AI掘金志》:您从什么时候开始转向AI辅助药物设计研究,并决定创办索智生物?

许大强:我对药物研发的各个环节都逐渐熟悉以后,就萌生了回国创业的想法,2018年,我回到国内开始为创业做准备。

最初我的创业计划是,引进国外的一系列产品在国内进行开发,于是联系了两位我在美国工作时的同事,想要将他们公司研发的产品引进到国内,在寻找投资的过程中结识了维亚生物的毛晨博士。

毛晨博士当时正在筹备建立维亚生物的投资业务,就邀请我加入维亚生物,帮维亚把投资业务建立起来。而同时他也非常尊重我的创业意愿,表示将来如果我想创业,维亚生物都会为我提供支持。

当时我刚回国不久,对国内的行业环境不是特别熟悉,贸然创业也许会遇到很多坎坷,进入维亚生物,并能够参与中国乃至全球的创新药企的早期投资,确实是一个很好的了解创业公司和资本市场的机会。

我加入维亚生物后,帮助公司建立起了投资业务--VBI(维亚生物创新中心),包括专家库、团队建设、项目开源、投资系统流程和投后管理,使维亚有了一个系统化、专业化、规模化投资业务。

2019年到2021年,我在维亚生物的两年半里,一共领导过近五十家企业的投资,其中也不乏一些海内外的AI制药公司。

我在新药研发行业工作了二十多年,很少见有这样一个发展迭代异常快速的技术,尽管底层技术并不属于生物医药行业,但非常适配新药研发各个环节中的应用。我预感到这项技术将会有很大的发展潜力,于是借此契机创办了索智生物。

《医健AI掘金志》:索智生物为什么选择了做自身免疫性疾病的药物研发?有哪些研发方向?

许大强:现在的生物医药初创公司中,绝大多数都在研发抗癌药物,由于经过验证的靶点非常少,几乎每一个靶点都有很多公司在做了,竞争非常激烈。

相比之下,自身免疫性疾病这一领域虽然近年来关注的人也越来越多,但还算得上是一片蓝海。从全球市场来看,自身免疫性疾病治疗是仅次于癌症治疗的市场,预计2030年市场规模超1638亿美元,有非常大的发展空间。

抛开市场因素,自身免疫疾病治疗领域创新空间非常大,AI技术在这个领域也大有可为。

首先,自身免疫性疾病的患者开始就诊时,通常自身机体已经受到了明显的破坏,这时仅仅抑制炎症是不够的,而是需要帮助患者加速修复被破坏的组织。

当前市面上的各类药物,不论大分子还是小分子,都只能起到消炎的作用,没有一款药物真正能够帮助病人修复被免疫系统破坏的身体组织,我们希望研发出能够实现组织修复的新药物。

第二,自身免疫性疾病具有高度异质性,在不同的患者亚群中具有很大的变异性。

根据发病部位、发病机理的不同,自免疾病可以分为上百种不同的类型,但其中只有十几种疾病有针对性的药物治疗措施,其余的绝大部分疾病目前还没有系统的临床研究及药物研发,这个领域有太多未被满足的临床需求。

第三,由于自身免疫性疾病的特殊性,具有相同发病机制的病人,在疾病症状表现上往往不同。

例如,由TNF-α基因过度表达导致的自身免疫性疾病,部分病人体现的症状是类风湿性关节炎,部分病人则是炎症性肠病,还有一些可能是牛皮癣。

当前治疗自身免疫性疾病的药物,都是系统性的消炎,导致病人免疫下调的同时也增加了感染、癌变的风险。

这就是我们目前布局产品创新的三个重点方向:实现同时抗炎与组织修复两大效果;为没有针对性治疗的自免疾病开发新药;寻找具有组织选择性的药物,既能解决局部自身免疫问题而又不破坏系统免疫平衡。

《医健AI掘金志》:公司目前的几个产品管线分别针对哪些疾病?研发进度如何?

许大强:我们目前一共有六个研发管线,其中两个在做临床前研究,分别是炎症性肠病与系统性红斑狼疮。

目前的药物研发主要围绕系统性红斑狼疮、炎症性肠病、强直性脊柱炎、非酒精性脂肪肝几类自身免疫性疾病。

《医健AI掘金志》:公司的商业模式是怎样的?未来会自己做临床试验还是考虑license-out?

许大强:我们是一家新药研发公司,目前的阶段我们关注早期的新药研发,在能够保证最大化每个产品价值的前提下,我们可以考虑对外授权,或者与外部合作伙伴来共同开发。

《医健AI掘金志》:在针对自身免疫性疾病的药物研发中,相比传统的研发手段,AI制药有什么优势?

许大强:我们是一家新药研发公司,AI计算技术是我们研发的重要手段,所有的AI技术开发都要围绕项目研发需求去展开,从而达到提升研发效率,或是实现人工很难或不能完成的一些复杂任务。

公司目前的重点布局是,通过双靶点协同作用实现自身免疫疾病的快速、持久治疗。

药物和靶点的关系就像是钥匙和锁,一个分子作用于两个靶点,相当于使用一把钥匙开两把不同的锁。

我们熟悉的作用于单一靶点的药物发现,只需要弄清楚锁芯——靶点口袋的结构,药化学家就能调试出一把合适的钥匙。

但设计一款作用在两个靶点上的小分子药物,药化学家就很难完成。所以迄今为止,还没有针对双靶点的小分子药物是通过药化设计出来的,只有一些单靶点小分子药物在研发完成上市后,才意外发现是通过作用在不同的靶点上产生了疗效。

AI技术的发展则为小分子双靶点药物的研发提供了新的方向。

我们设计分子时,只要使其满足一系列条件,即可对相应的靶点产生活性;双靶点小分子的药物设计,对机器学习来说只是再多加一组限制条件而已。

所以,我们决定利用AI技术进行小分子双靶点药物的设计,打造了新药研发平台AIxMTD®。

AIxMTD®是具有通用价值的平台,可以赋能任何双靶点药物开发,分为靶点组合的协同性评估、双靶点小分子的筛选和生成两个环节。

《医健AI掘金志》:索智生物与高校的联系很密切,与清华大学免疫学研究所、华东理工大学唐赟教授团队都有合作,高校团队的参与为公司的AI制药工作提供了哪些助力?

许大强:作为初创公司,内部资源毕竟有限,所以,我们通过开放合作的模式,以不同形式与学界专家们进行合作。

唐赟教授为我们公司技术平台的搭建提供了指导,清华免疫学研究所则是帮助我们从立项的角度进行分析,包括靶点的选择,临床应用场景分析等等。

《医健AI掘金志》:公司的投资方维亚生物与百图生科,都是在药物研发领域有一定技术积累的企业,为公司哪些技术方面的支持?

许大强:我们和百图生科签署了战略合作协议,利用百图生科的免疫图谱进行新的靶点和生物标记物的发现,并用于进一步的新药研发。

我们和维亚生物的合作交流也很密切,在化学合成和工艺开发等方面都有深度合作。

《医健AI掘金志》:今年5月,公司宣布将与百图生科联合开展炎症性肠病(IBD)领域的协同双靶点挖掘合作研究,两家公司在研究中分别承担哪些工作?

许大强:正如前面所说,细胞内部的靶点数量非常多,寻找合适的双靶点组合如同大海捞针,我们有许多种方法来做这项工作,但其中最直接的方法一定是通过大数据分析进行初筛。

利用百图生科的 xTrimo平台,通过大数据分析自身免疫性疾病患者的用药情况及效果,找到其中可能最优的药物组合及对应靶点,我们再来验证这当中哪些是最优的靶点组合。

《医健AI掘金志》:AIGC技术在生命科学领域中的应用,将为新药研发带来哪些影响?

许大强:人工智能技术是一个工具,一个不断更新,快速迭代的工具,如果期望它全面颠覆新药研发的范式,是不现实的。

做新药研发从立项到化合物发现,再到临床一期、二期、三期,这个流程是必须的。

AI 技术能做的,就是在每个环节提供一定的助力,也许在某个环节的助力多一些,某个环节助力少一些。

ChatGPT的出现,也只能在某一些特定的领域提供更大的助力,比如在蛋白设计,特别是具有特定功能的蛋白质(如酶)的设计。

总而言之,人工智能技术在新药研发中的应用会越来越广泛、越来越成功,但这个过程不是一蹴而就,而是波浪式地发展。

我们相信AI技术会在不同的维度上呈现“涌现”式突破,因为人工智能的底层技术是由不同领域的研究者来推动的,因而其赋能生物医药研发的能力也会在相应的应用场景实现飞跃。

从长远的角度来看,人工智能在新药研发领域的应用一定会有很大的价值。但“You’ve got to play to win”(只有参与了才有赢的机会)。

关于GAIR全球人工智能与机器人大会

GAIR创立于2016年,由鹏城实验室主任高文院士、香港中文大学(深圳)校长徐扬生院士、珠海大数据研究院朱晓蕊、雷峰网创始人林军等人联合发起,原广东省省长马兴瑞等领导参与指导。历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、100多位 Fellow,同时也有500多位知名企业领袖和100多位知名投资人。与上海WAIC(世界人工智能大会)、北京智源大会,构成了中国最具国际影响力的三大智能产业论坛矩阵,更是在粤港澳大湾区有着首屈一指的政、企、学、投四界的号召力和风向推动力。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/ozsDOHtD7nt85XQb.html#comments Thu, 10 Aug 2023 17:05:00 +0800
湃隆生物谷晓辉:靶点选择与提升临床成功率,是AI制药下一阶段要攻克的难题|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/EKtVHI7RAt3vgHMq.html 近日,在同写意主办的第四届前沿技术大会上,湃隆科技联合创始人、药化高级副总裁谷晓辉在与雷峰网《医健AI掘金志》的对话中介绍,作为CADD升级阶段,AIDD在算力、算法两方面都取得了很大突破,应用于药物研发的全过程中,大幅提升了创新药物的研发效率。

同时,谷晓辉博士也指出,现阶段大家不要对AIDD期待太高,创新药物研发中的许多瓶颈它目前还解决不了。

谷晓辉博士1998年毕业于中国科学院上海有机化学所,曾在美国国家癌症中心与哈佛医学院进行博士后研究。

2001年,谷晓辉正式进入工业界,先后在X-Ceptor、Exelixis、睿智化学、大冢制药、康龙化成,先声药业等公司从事新药研发和管理工作。

作为药化学家的谷晓辉意识到,最近几十年中兴起的各种药物研发新手段,不论是高通量筛选、组合化学或其他热极一时的技术,都无法突破新药研发过程中的瓶颈。

谷晓辉将目光放在了新兴起的AI技术之上,期待利用AI技术来加快小分子药物的开发并降低成本。

也是基于这个理念,2019年谷晓辉受湃隆生物CEO李铭曦邀请,共同创办人工智能生物科技公司湃隆生物并担任药化高级副总裁,负责公司药物管线布局及项目推进等工作。

进入湃隆生物后,在与AI药物发现企业Exscientia共同推进药物研发的合作中,谷晓辉对AI制药技术的理解更加深刻。

“在药物研发过程中,有两个重要难关是AI技术下一步需要攻克的:一是靶点的选择,二是提升临床成功率。”

以下为《医健AI掘金志》与谷晓辉的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志》:您是如何进入药物研发领域的?从什么时候开始接触AI制药?

谷晓辉:1998年我从中国科学院上海有机化学所博士毕业后,在美国国立卫生研究署和哈佛医学院分别做了一年多博士后,主要从事治疗药品成瘾药物的研发。

2001年,我正式进入工业界,加入圣地亚哥的一家生物制药公司X-Ceptor做药物研发。当时研发的一款治疗原发性高血压的MR抑制剂,于2019年在日本获批上市。

2004年,这家公司被Exelixis收购,我也进入Exelixis工作。

Exelixis是一家成立于1994年的制药公司,专注于癌症小分子药物的研发,曾推出过一款治疗肾癌与甲状腺癌的蛋白质酶靶向药卡博替尼,在国内有不少公司都在仿制。

后来我先后进入睿智化学、大冢制药、康龙化成等企业,负责药化的工作。在康龙化成工作期间,我参与了公司与基因泰克合作的药化项目,其中一款药物PI3KAlpha抑制剂GDC-0077的研发最为顺利,目前已经推进到临床三期。

早年间,我更多是在美国从事First-in-class的药物研发,近年来工作重心逐渐转移到国内,希望为国内药企的创新药物研发贡献一份力量。

2019年11月,我作为药物化学负责人加入了先声药业,负责与成都先导的合作。不久后,我在先声药业的前同事李铭曦博士找到我,邀请我共同创办湃隆生物,并负责公司的药化工作。

当时铭曦向我提起,湃隆生物将会与人工智能驱动的精准医学公司Exscientia合作,利用位于上海和旧金山湾区的两大战略研发中心以及与欧洲重要的合作伙伴关系,整合跨越多个地区的顶尖人才和尖端技术,为高度未满足的医疗需求提供突破性药物。

那一时期,国内的创新药发展已经进入瓶颈期,很多公司的研发工作都是以专利破解为主,很少出现真正的创新。

我觉得利用AI技术或许能够找到新的化学起点,为创新药物研发创造更多的可能性,于是加入了湃隆生物,正式开始利用AI技术进行药物研发工作。

《医健AI掘金志》:湃隆生物目前有哪些研发管线?

谷晓辉:湃隆生物尝试利用人工智能优化药物研发的全过程—从靶点选择到临床试验。

目前,公司已针对细胞周期CDK和“合成致死”信号通路开发了多款候选药物,我们利用人工智能(AI)技术开发的首款新药CDK7抑制剂GTAEXS617不久前已在欧盟获得新药临床试验(IND)批准,并已完成首位患者招募。

GTAEXS617是一款高选择性的小分子非共价CDK7抑制剂。CDK7是细胞周期依赖性激酶(CDK)家族的成员之一,其过表达与许多肿瘤细胞的生长、增殖密切相关,CDK7抑制剂有望为一系列难治性肿瘤患者带来新的治疗选择。全球范围内尚没有CDK7抑制剂获批上市。

除了CDK7抑制剂,我们的研发管线中还有一些其他处在临床前研究阶段的高选择性CDK抑制剂。

此外,我们的“合成致死”管线中,也有项目已经进入到IND-enabling阶段。预计在未来的3~5年,每年会有1-2个项目逐渐进入到临床试验阶段。

针对这些不同的项目,我们的整体开发理念是,通过转化医学研究,去探索不同的生物标志物,从而给特定的患者群体带来精准的治疗选择。

《医健AI掘金志》:近年来,药物研发的工具和手段经过了哪些升级和演变?

谷晓辉:早期的药物化学家平均每周只能合成1-2个化合物,一年合成不到一百个化合物。那时人们在认知上存在一个误区:如果能够快速合成许多化合物,或许就能够缩短新药研发的周期。

在这个错误观念的影响下,组合化学这门技术在上世纪九十年大受制药公司的欢迎,在液相或固相上进行平行合成,一周能合成几万或几十万个化合物。

但创新药研发并不是一个简单的数量问题,构效关系的研究其实是一个螺旋式上升的过程,有时合成一万个化合物跟合成二十个化合物获得的信息基本上是一样的,一定要经过螺旋式上升的过程,才能慢慢接近临床的合成化合物。

组合化学在实际应用许多年以后,大家发现并没有从实质上提升研发效率,也没能压缩从项目立项到PCC(临床前候选化合物)的时间。

当然,组合化学也并非完全没用,直到现在,我们在做化合物优时也常会用到组合化学做一些小规模的化合物库,这样能快速获得构效关糸和找到成药性好的化合物。

新的技术出现一般都能对创新药研发的过程带来或多或少的影响,甚至加速创新药研发的过程,但迄今为止没一项技能够真正打破创新药研发遇到的瓶颈,大大提高创新药研发的临床成功率。

从上世纪八十年代兴起的计算机辅助药物(CADD)也是如此。在算法、算力都取得突破之后,CADD也进入了一个升级阶段:AIDD,也就是现在常说的AI制药。

《医健AI掘金志》:AI技术在药物研发中能够发挥哪些作用?

谷晓辉:以湃隆生物为例,我们旨在利用AI技术开发肿瘤精准治疗药物,以解决患者的未满足临床需求。AI技术在药物研发中发挥着非常重要的作用,我们目前的研发工作中很多方面都在使用AI技术,从靶点发现,分子的设计和优化,ADME及毒性的预测到临床阶段生物标志物的发现。

行业中,通常推十个化合物进入临床阶段,可能最后只有一个化合物能够获批,百分之九十的项目都死掉了,如果能够提高临床成功率,一定能节省很多研发费用,这也是创新药行业目前遇到的最大的问题。

AI制药目前能够缩短拿到临床前候选化合物的时间。如果不用AI技术,做First in Class时间稍长,可能要四五年,Fast Follow一般两年之内就能够拿到PCC。在AI技术的加成之下,Fast Follow的PCC阶段能缩短到一年之内。

如今潮水退去,行业逐渐回归理性,大家都在探索如何利用AI技术更好地赋能药物研发的各个环节。也许过程中还有许多技术难题尚未克服,但AI技术对创新药研发工作的加成毋庸置疑。

《医健AI掘金志》:相比近年来成立的AI制药公司,拥有更多数据积累的大型药企在AI辅助药物研发方面是否更具优势?

谷晓辉:大型药企在数据积累上的确更加深厚,他们通常在多个领域进行药物研发,并在多个疾病领域有广泛的研究和临床前及临床数据的积累,很多药企也在尝试搭建自己的AI制药团队,

同时,大型药企通常拥有更多的资金和资源,可以投入到AI辅助药物研发领域。

我们的合作方Exscientia是一家以人工智能驱动的精准医学公司,他们开发了首个功能性精准肿瘤学平台,在前瞻性、干预性临床研究中指导治疗选择并改善患者预后,同时将人工智能设计的小分子化合物推进到临床应用领域。

总体而言,AI在药物研发领域的应用已经成为一种趋势,大型药企和AI制药公司都在不断探索和应用这项技术,以加速药物研发过程,提高研发成功率,并为患者提供更有效的治疗方案。

《医健AI掘金志》:国内外的AI制药行业还存在哪些差距?

谷晓辉:早期AI制药行业的从业者,大都是软件工程师出身,AIDD和CADD人才储备也不够,既懂人工智能又懂创新药研发的复合型人才更是稀缺。

随着国内AI制药行业的发展,虽然正在不断培养人才,但在某些高端领域的专业人才仍相对稀缺。

尽管存在差距,中国的AI制药行业正朝着积极的方向发展,政府和企业都在积极推动AI技术在医药领域的应用,随着技术的不断进步和投入的增加,国内外人才储备方面的差距在逐渐缩小,尤其是在算法上,国内外已经没有明显差距。

《医健AI掘金志》:国内外新药研发的环境有哪些不同的地方?

谷晓辉:国内外在研发投入方面的不同,中国也在逐步增加对新药研发的投入,但与美国相比,仍有一定差距。

国外一些国家拥有世界级的研究机构和优秀的科研人才,对新药研发起到积极作用。中国在人才储备和科研能力方面也在不断提高,但在某些高端领域仍需要更多的努力。

中国和国外新药研发的环境各有优势和挑战。随着中国不断加大对新药研发的投入,相信中国的新药研发环境将继续逐步优化,并取得更大的进步。雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/EKtVHI7RAt3vgHMq.html#comments Mon, 31 Jul 2023 21:52:00 +0800
华为云乔楠:华为云只做AI制药软件SaaS服务,CRO与自研管线不是我们的目标|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/5WzW4Uw1S2jeGOAn.html

“我们不会去做CRO或自研管线,华为云的优势在云、大数据和AI这些软件领域,不可能像创业公司一样招聘很多生物医药背景的人做Biotech,我们也没有这样的基因。”

“IT领域面向医疗行业的产品和解决方案非常少,没有很好的产品或工具能够系统地解决医疗行业中存在的问题。医疗是一个非常细分且琐碎的行业,做起来又特别难,科技公司在这个领域的投入是不够的。”

近日,雷峰网《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。

华为云医疗产品总监,医疗首席科学家乔楠博士在与《医健AI掘金志》的对话中,谈到了他对医疗行业产品与服务情况的观察。

乔楠是AI制药领域中少有的具有综合背景的研究者,2013年博士毕业于中国科学院后,乔楠进入诺华制药,从事生物信息学分析工作,参与抗癌药物的研发。在诺华制药工作期间,还曾获得诺华团队合作奖和诺华优选奖。

2015年乔楠加入埃森哲并领导成立了埃森哲中国AILab,为不同行业提供的客户提供产品和解决方案。在埃森哲工作期间,乔楠发现,IT领域面向医疗行业的产品和解决方案还不够丰富,这一领域仍有待大力发掘。

2018年,华为公开发布全栈全场景AI框架,搭建起了建设AI To B业务的重要基础,乔楠决定加入华为,重新回到制药行业。

在埃森哲的工作经验,让乔楠更加了解不同行业之间的壁垒,熟练掌握如何使用数据库、AI等前沿技术解决行业难题。

加入华为云后,乔楠面临的首要任务就是打造一个面向医疗行业的AI研发平台,乔楠和团队选定基因组、药物研发和临床研究三个方向作为重点,构建起面向医疗行业的AI和大数据能力。

依托于华为云自主研发的盘古药物分子大模型,联合中科院上海药物研究所的蒋华良院士、北京大学的高毅勤教授等业内专家,医疗团队打造了制药行业的EDA软件:盘古辅助制药平台,为药物研发机构提供SaaS化软件服务。

乔楠指出,药物设计平台的基础建设不是一两家企业独自能够完成的,只有国内的科技企业与科研机构一起发力,持续打造出自己的软件生态,才能避免被国外“卡脖子”。

以下为《医健AI掘金志》与乔楠的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志》:您博士毕业于中国科学院生物信息学专业,当时的研究方向是什么?什么时候开始接触药物研发?

乔楠:我本科学的是自动化,后来转到生物技术专业,博士期间选择了生物信息学,师从分子系统生物学专家韩敬东教授。

生物信息学本身是一个交叉学科,我们需要把生物学、数学、计算机、物理、化学等等很多领域的知识整合起来,运用在生物医学领域的数据分析中,构建机器学习的模型或深度学习模型,用来验证科学家提出的生物学假设。

研究的内容上,我做的比较杂,比如通过文本挖掘,分析文献中基因的信息;通过分析蛋白质相互作用网络的数据,寻找潜在药物的靶点;还有针对基因组数据的各种分析和建模,博士期间的一个工作就是分析 家蚕被病毒侵染之后基因表达量的变化。

另一个比较有意思的工作叫做“WormFarm”。 Worm就是是线虫,是一种常用的模式生物 ,Farm是农场,代表我们实验室研发的一种微流控芯片。

我们在指甲盖大小的微流控芯片上刻 8 个小槽,将很小的线虫养在其中,每天喂食营养液,让它们在芯片里生长,通过设计各种实验观察线虫的表型,比如对线虫的基因进行敲除之后观察线虫的生存时间,通过这些观察建立起长寿与基因相关的模型,寻找长寿基因与药物靶点。

《医健AI掘金志》:博士毕业后,您曾在诺华制药工作过一段时间,您在这一阶段专注于哪些研究工作?那一时期AI制药技术的发展情况如何?

乔楠:读博期间,我做了很多科研数据分析,毕业之后希望能够进入具体的行业中,看看大家如何用机器学习、数据分析这些技术解决业务问题,于是加入了诺华制药在张江药谷建立的研究所。

进入诺华制药后,我主要从事生物信息学分析工作,分析病人样本、动物模型、细胞系等不同维度的多组学数据。通过对多组学数据的分析,找到可能的生物标记物或潜在的药物靶点。同时也对实验团队的数据进行分析和建模,指导他们做早期的药物发现。

我在诺华制药工作期间,深度学习才兴起不久,ImageNet等相关工作才刚刚发表,药物设计还处于CADD阶段(计算机辅助药物设计),药企开始使用计算机软件和算法对药物进行辅助设计和计算模拟优化,如今兴起的AIDD,也是起源于CADD,对于CADD的一些问题,AI的算法可以做到更好。

《医健AI掘金志》:您为什么选择加入华为云,担任医疗产品总监及医疗首席科学家?加入华为云后您带领医疗团队进行了哪些工作?

乔楠:在诺华制药工作习惯后,我发现日常进行的大多是重复性的工作,我想要看一看在更多的行业中大家如何借助机器学习处理相关业务,于是在2015年,我加入埃森哲,担任埃森哲中国首席数据科学家,并领导成立了埃森哲中国AILab,面向不同行业的客户提供AI产品和解决方案。

在这个过程中,我发现IT领域面向医疗行业的产品和解决方案非常少,没有很好的产品或工具能够系统地解决医疗行业中存在的问题。医疗是一个非常细分且琐碎的行业,做起来又特别难,科技公司在这个领域的投入是不够的。

另一方面,2018年,华为的轮值董事长徐直军发布了全栈全场景的AI框架,这是建设AI ToB业务的重要基础,一个企业如果想要从头构建AI 平台,就必须要有一套全栈全场景的AI平台和解决方案。

在2018年,全球只有谷歌一家公司有这样的全栈全场景能力,先后发布过Tensorflow、TPU、Google Cloud等产品和平台。

当我看到华为发布了完全国产的全栈全场景AI框架时,觉得这是一个非常有前瞻性、非常重要工作,于是决定加入华为云,重新回到医疗行业。

在埃森哲的工作经历对我回到医疗行业后的工作帮助很大,让我了解了不同行业之间的壁垒,如何使用数据库、AI等前沿技术解决行业难题,将不同的技能串联起来,这是很多生物医药背景出身的从业者缺乏的能力。

我加入华为之后,首要的任务是打造一个面向医疗行业的AI研发平台。

对于任何企业来说这都是一个难题,大部分传统行业的公司缺乏云、大数据、AI背景的人才,很难快速地构建起一个AI研发平台,没有AI研发平台公司就很难快速进行研发创新。

所以,我们希望实现的效果是,用户只要在云平台上创建一个账号,订阅相关的服务,就能够借助平台的支持进行AI 研发工作。

医疗行业的细分领域非常多,华为云究竟要构建什么样的平台?这也是一个很紧要的问题。

我们对医疗行业进行了系统的分析和洞察,最终决定选择三个方向作为工作的重点,基因组、药物研发和临床研究。

围绕着这三个方向,我们构建起基础的AI和大数据能力,同时,联合华为云的技术合作伙伴,高校和中科院研究所共同研发,开发了这些领域中核心的技术和算法,将其产品化后放到平台上,供医疗行业的研发人员使用。

在一次研讨中,中科院上海药物研究所的蒋华良院士,北京大学的来鲁华教授、高毅勤教授、李洪林教授等业内专家,提到大家在药物研发领域涉及到的物理化学、量子力学、量子化学、结构生物学等诸多基础学科中分别有各自擅长的方向,但教授们开发的算法或工具,往往几年后就不再进行维护了,缺少连续性。

我们希望和这些教授合作起来,打造出一套完全自主可控的AI 辅助药物设计平台。

《医健AI掘金志》:SaaS、AI CRO与AI Biotech,是AI制药领域的三种主要商业模式,华为云在打造AI辅助药物设计服务平台时,是如何在这三者中进行选择的?

乔楠:华为云提供的是SaaS化的软件服务,企业注册账号后,开通相关服务即可使用。我们的盘古辅助药物设计平台是依托华为云平台打造的,华为云主要为企业提供IT数字化和智能化的服务,旗下的研发人员多为算法工程师、软件工程师,软件和算法是我们的优势,平台本身的定位就是药物设计软件,通过SaaS化的方式向药物研发机构提供服务。

我们不会去做CRO或自研管线,华为云的优势在云、大数据和AI这些软件领域,不可能像创业公司一样招聘很多生物医药背景的人做Biotech,我们也没有这样的基因。

《医健AI掘金志》:盘古药物分子大模型能够赋能新药研发流程中的哪些工作?

乔楠:我们的AI辅助药物研发平台能够覆盖药物设计的全流程,为靶点发现、药物筛选、分子优化三个环节提供强力支撑。

在靶点发现环节,2019年以来,我们针对基因数据、基因多组学数据、基因调控网络数据陆续发布了三个算法:AutoGenome、AutoOmics、AutoGGN,通过从细胞系、动物模型、病人身体组织中测到的多组学数据进行AI建模,为生物标记物发现和靶点发现等相关问题提供依据。

我们联合北京大学高毅勤教授团队开发的蛋白质结构预测算法MEGA-Protein,可以根据已有的蛋白质序列出蛋白质的三维结构;

获取蛋白质三维结构以后,下一个任务就是基于元动力学进行靶点发现与构象搜索,找到靶点与配体的可能的结合位置;

我们从软件和硬件层次对分子动力学模拟工具进行了大幅提升,使计算时间得以缩短。

在药物筛选环节,我们打造了一个独有的小分子库生成功能,基于盘古药物分子大模型,从模型学习到的类药化学空间中均衡采样,生成新颖且类药性质更优的化合物分子库,帮助加速药物筛选过程。

获得新颖的小分子库后,可以进行小分子药物虚拟筛选,这也是CADD中最典型的一个功能,除小分子外,平台同样支持多肽分子的虚拟筛选。

在分子优化环节,分子搜索功能基于华为云盘古药物分子大模型的小分子化合物表征,以使用者输入的参考化合物结构为起点,从海量的小分子库中搜索到相似结构和排序,可以实现百亿级小分子的秒级搜索。

分子属性预测也是药物研发中的重要一环,药物分子设计完成后,不经过实验验证就无法了解化合物的性质。盘古药物分子大模型能够预测化合物的ADMET/PKPD相关的80多种成药性质,给出预测值与置信度。

分子优化功能是AI辅助药物设计中最核心的功能,不论是创新药还是Me-too、Me-better,都要基于前期的分子进行改造。使用者在平台中输入一个分子,指定其结合口袋、分子属性、分子结构等,即可对分子进行定向优化,我们支持针对70余种分子属性的多目标优化。

《医健AI掘金志》:数据问题一直是AI制药领域的痛点,已经成为目前制约AI药物研发的重要因素之一。华为云为获取和积累药物数据做了哪些工作?AI制药应如何打破数据孤岛?

乔楠:华为云盘古药物分子大模型共学习了17亿个小分子的化学结构。

在药物设计领域,尤其是小分子领域,学术界有很多开源的数据库可以使用,我们收集的17亿个小分子化合物全部源于开源信息,我们联合中科院上海药物研究所蒋华良院士团队共同完成了盘古药物分子大模型的训练。

在训练盘古药物分子大模型时,我们采用了无监督学习的方法,只需要化合物的信息,不需要实验数据。在学习了这17亿个小分子化合物后,已经能够让大模型比较好地学习到小分子化合物隐含的表征空间。

另一方面,药物设计是一个非常微观的过程,小分子化合物、蛋白等都是微观层次下的结构和状态。我们可以借助分子动力学模拟等软件和工具,通过计算和模拟的方法去产生大量的数据,这些数据也可以应用到大模型的训练之中。

实验数据是药企的重要资产,一般无法轻易获取,数据共享是一个很难的问题,近年来业内在药物数据共享上做了很多工作,但收效甚微,短期内这一问题都难以解决。

我们能做的就是将盘古药物分子大模型开放给药企,让药企可以基于自己的数据再加上盘古药物分子大模型调优自己的模型,用于药物管线的分子设计与优化。

当药企的研发工作结束,不再使用这个平台,就可以将自己的数据和模型完全删除,避免泄露。

《医健AI掘金志》:随着AI制药技术的不断成熟,近年来业内涌现了一批AI制药初创企业,互联网、科技巨头在该领域也多有布局。在众多竞争者之中,盘古药物分子大模型有哪些差异化优势?

乔楠:我们希望国内的科技公司、初创企业不断在AI制药这一领域加大投入,虽然中国的AI制药行业发展得很好,但目前行业内处于最尖端的仍是欧美国家。这个领域本身就具有很高的难度,只有大家都投入进来,才能让中国吃到这一波红利。

华为在云、大数据和AI领域有很深的基础,我们具备建设基础平台的能力,同时也具备一些核心的技术优势,比如华为云自主提出了一套全新的深度学习架构,这是我们专门针对小分子化合物的性质设计的一套架构,能够更好地学习小分子化合物的深度表征,是盘古药物分子大模型的核心,决定了大模型的性能和效果。

此外,在AI辅助药物设计平台的产品设计上,我们每年会进行数十次的迭代升级,不断引入新的技术和方法,并且会吸收用户提出的建议对产品进行改进和迭代。

《医健AI掘金志》:针对国内创新药研发现状,目前还是Fast Follow居多,或者是Me-too、Me-better,这种情况下最需要AI去解决什么问题?

以华为为代表的大型科技公司的入局,将如何推动国内创新药的发展,优化行业生态?下一步,华为云将在药物研发领域进行哪些新的布局?

乔楠:当前国内情况肯定是Me-too、Me-better更多,但是这不是个大问题,比如我们的分子优化工具可以基于Fast Follow分子直接进行改造优化,如果优化的结果更好,就是Me better药物了。所以目前的重点是如何让药企的研发人员更快、更好地掌握AI工具的使用。

在药物设计这个领域,国内外的药企如今应用最多的还是国外的CADD软件,如薛定谔、MOE等,我们希望中国的科技公司在领域内不断投入,构建起国产的药物设计平台与生态。

这个过程中,必然会涉及到很多基础能力建设,绝非是一两家公司独自就能够解决的,只有国内的科技公司、科研机构等一起发力,打造出自己的软件生态,才能够不断地升级迭代,优化药物设计各类工具,提升能力,避免被国外“卡脖子”。

创新药研发的核心在于生物技术实验的验证,而AI和BT的融合将会起到1+1大于2的效果,下一阶段,我们将会进一步推进对AI+BT的融合的制药平台研究。同时,围绕药物设计软件的更多领域进行布局,希望能够支持更多类型的药物研发。

作为一个开放的平台,我们也支持第三方工具通过华为云向药企提供服务,做好产业链的协同发展,与下游伙伴更好地合作,共同推动制药产业的创新与变革。

《医健AI掘金志》:盘古药物分子大模型目前已经支撑了多家药企和科研院的商业服务或药物管线开发合作,其中有哪些典型案例?

乔楠:我们联合西安交通大学第一附属医院的刘冰教授团队发现了一款超级抗菌药Drug X。

抗生素类药物如今正面临的一个很大的危机——抗生素耐药性(AMR)。根据世界卫生组织(WHO)的预测,到2050年,抗生素耐药性将可能导致超过1000万人死亡,超过癌症导致的死亡人数。

有些药物甚至在刚刚进入临床阶段时,细菌就已对其产生了耐受。因此,找到能够对抗耐药菌的抗生素是非常紧要的任务。

刘冰教授借助华为云盘古药物分子大模型的分子优化能力,有效地提升了小分子化合物与目标抗菌靶点蛋白的结合、降低与人体蛋白的结合,从而减弱了Drug X对人体正常细胞可能产生的毒副作用。

同时,Drug X的靶点特质决定了细菌将难以对其产生耐药性,这一发现对抗疟(即疟原虫)药物研发等多个领域有着重要的影响。Drug X可能会成为全球近40年来首个新靶点、新类别的抗生素。

目前,这款药物正处于临床前阶段,已经进行动物实验验证,在推进IND申报中,并且已在国际范围申请专利。

在人体器官芯片领域,我们与江苏运动健康研究院院长、东南大学生物科学与医学工程学院院长顾忠泽教授达成了合作。

顾忠泽教授团队是国内最早一批开展人体器官芯片研究的团队,成功构建了肿瘤、皮肤、心脏、血管等多种器官芯片,在部分研究领域中领先于国际水平。

2022年12月底,FDA不再要求人体临床试验前必须进行动物实验,人体器官芯片将成为变革性的动物和临床替代实验技术。

顾忠泽教授将盘古药物分子大模型与器官芯片进行了融合,利用盘古药物分子大模型打通干湿实验循环,通过器官芯片获取更加精准的实验数据,从而提升临床试验的成功率。

在中枢神经系统创新药物的研发上,苏州旺山旺水生物医药股份有限公司利用盘古辅助制药平台取得了很好的进展。

中枢神经系统的不可再生性是药物研发中面临的一大难题,此外,中枢神经系统相关疾病的病例机制复杂、病程过长等特点,导致药物实验的周期过长。

为提升研发效率,旺山旺水公司借助我们的盘古辅助制药平台,覆盖药物研发干实验的三大核心环节,“靶点发现和药效验证、化合物属性预测、化合物分子优化设计”,使药物设计效率提升了3倍,为分子设计实验节省了60%以上的时间、资金成本。

在这些的合作过程中,我们对BT与AI深度融合的理解逐渐加深,同时客户也为我们提出了产品改进的建议,我们进行评估后,及时更新到产品的迭代中,进一步完善AI辅助药物设计平台。

《医健AI掘金志》:AI制药技术可将先导药物研发周期大幅缩短,虽然已经有少数药物进入临床阶段,但到目前为止,AI驱动研发的药物仍然没有一款成功获批上市,AI技术研发的药物距离上市还有多远?

乔楠:AIDD为药物设计的效率和准确性带来了极大的提升,更重要的是使用起来非常方便,降低了药物设计的门槛,即便是没有化学背景的研发人员,经过简单的培训后,都可以借助AI辅助药物设计平台来做药物设计。

很多创业公司也已经开发了AI辅助药物设计的工具和算法,这些工具的效果和价值已经经过了验证。

药物研发本身就有一定的周期,并且成功率一直都不算高,正常来说研发一款药物的成功率只有10%,Al工具一定程度上能够加速研发流程,提高成功率,但是距离AI辅助设计的药物真正上市,还要再等一段时间。

如今这个行业需要解决的问题,一是对药企的研发人员进行培训,让他们都能掌握借助AI工具进行药物设计的方法,提升药物研发的效率。

关于GAIR全球人工智能与机器人大会

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,由鹏城实验室主任高文院士、香港中文大学(深圳)校长徐扬生院士、GAIR研究院创始人朱晓蕊、雷峰网创始人林军等人联合发起,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。历届大会邀请了多位图灵奖、诺贝尔奖得主、40位院士、30位人工智能国际顶会主席、 100多位 Fellow,同时也有500多位知名企业领袖,是亚洲最具国际影响力的AI论坛之一。


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/5WzW4Uw1S2jeGOAn.html#comments Tue, 27 Jun 2023 14:22:00 +0800
GAIR Live|AI药物发现平台,如何与传统医药企业打出「组合拳」?(下) //m.drvow.com/category/shengwuyiyao/HrfCGE2xzTOYW4aL.html 作为药物发现阶段的研究核心,先导结构的发现和优化往往需要花费数年时间,投入数亿美元,长期被视为药物研发的关键技术瓶颈。

从20世纪70年代以来,计算机辅助药物设计(CADD)作为一个日趋完善的药物发现手段,主要包括虚拟筛选和药物从头设计两种策略,曾极大提升新药设计和开发的效率。

“我们即将迎来生物医学大爆发的时刻,但这一成果的取得,不仅取决于生物学家与医学家的努力,甚至更大程度上取决于数学、物理学、化学、计算机技术等的发展以及与生物医学的结合。”

“随着AI技术的成熟,蛋白质、基因组学数据的积累,AI制药平台化势必成为医药行业的一股革命性力量,从根本上改变传统药物设计试错流程,未来AI大模型技术又将引发新的期待。”

近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《「人机协同」模式下的新药研发》线上圆桌论坛落幕,五位具有投资、企业、药物实验、AI制药背景的专家表达出这样的愿景。

本次论坛,由浙江大学药学院教授谢昌谕主持,北京大学药学院研究员刘振明、腾讯医疗健康AIDD技术负责人刘伟、浙江工业大学智能制药研究院院长段宏亮、清华大学智能产业研究院战略发展与合作部主任张煜参与讨论。

在上篇中,他们共同辨析了人机协同模式下的药物研发历程、近几年AI制药领域的算法和模型突破、以及与传统药物研发手段相比AIDD的优劣性。

在下篇中,则探讨了我国创新药研发的痛点、AI制药的数据之困,以及新一轮AI浪潮下药物研发的可能性。近期AI大模型爆火,欢迎添加作者微信(微信号:qiaoyw186),互通有无。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理。

中国的新药研发存在哪些痛点?

国内外AI制药技术是否存在代际差异?

张煜:从历史来看,我们国家的西药研发确实跟随着欧美的步伐在前进,欧美国家很早就有了相关的行业标准和规定,使新药研发有规律可循,并且在发展的过程中培养了大量的行业人才。在行业标准性、规范性以及人才培养上,我们都还有很长的路要走。

过去那套新药研发的机制,包括前期的研发、IND(Investigational New Drug,新药临床研究审批)、临床实验等环节在内,都需要很长的时间和资金的积累。在国外,已经有了很成熟的新药研发体系,不论资本、人才还是机制都非常成熟。

而国内还处于起步阶段,虽然国家正在大力推动国产药物创新,但是在新药研发机制上,我们还有很多的课要补。

在技术积累、人才培养、实验机制等方面,我们前段时间去了几家国际知名的大药厂进行学习,发现他们的流程化做得非常好,国内的企业目前也在学习中,但整体上看还是跟随着欧美的脚步,其中存在很多痛点。

与国外的AI制药技术相比,我国的相关技术仍旧存在着代际差异,并且是系统性的差异,而非某一两个因素。在追赶的过程中,国家要发挥更大的作用。

新药研发的投入是巨大的,虽然如今行业内已经划分出CDMO( Contract Development Manufacture Organization,合同研发生产组织)、CRO(Clinical Research Organization,临床试验业务)等不同的研发阶段,但仍旧是一件费时、费力、费钱的事情。

对国外已经发展成熟的大药厂来说,他们有成型的平台和多年的资源积累,探索AI辅助新药研发的成本会更低一些,而国内目前还处于摸索阶段,试错的时间和金钱成本要更高,标准成本也更高,还需要国家的支持。

AI制药是否能成为国产药的创新弯道超车的机会,我认为这是一定的。新的技术要素造就新的格局,每一次产业革命都是由新技术的变革所带来的,AI制药正是我们国家赶超欧美的一个新机会。

几位老师在前面的讨论中也讲到,AI制药不能仅仅停留在计算的阶段,最终还是要落实到实际的药物疗效上,所以必须要和干湿实验结合起来,从过往的经验来看,湿实验更多的是正向实验。

如今很多企业,特别是新的AI制药企业都引入了干湿实验实验,从正反两方面进行验证,使算法收敛的速度和优化的效率都得以大幅提高。

所以,我们的AI制药技术和国际上差距在不断缩短,但是从创新程度上来看,欧美如今还是创新的源头,我们仍处于跟随和学习的阶段。

段宏亮:创新药的研究国内起步比较晚,距今还不过十余年时间,在此之前一直以仿制药为主。当然,这也和我们国家所处的发展阶段相关,很多研究都要从零开始发展,创新药也是如此。

在人才培养、新药研发流程方面的欠缺,导致我们和美国、欧洲、日本等国家之间,存在着非常大的差距。

但是从最近十年国内从零开始做创新药开始,能够看到国内以恒瑞、百济神州等为代表的公司,已经有一些产品在国际上具备了一定的竞争力和影响力,比如百济神州开发的BTK抑制剂,这表明我们国家的药物行业有很强的学习能力,尤其是在一些相对较新的药物研发细分领域。

比如ADC抗体偶联药物,最近一两年间,国内的制药公司向国外制药巨头转让了数个金额达几十亿美金的ADC药物。

在类似的新兴细分领域中,欧美国家也没有太多的积累。AI制药也是类似于ADC领域的新兴赛道,相比我们国家,欧美国家的技术积累也不太多。

虽然国内的制药行业相比国际上还落后一些,但我们的AI技术在全世界是非常一流的,我们国内凭借先进的AI技术水平,和相对落后的创新药研发进行结合,形成AI制药这样的新行业形态虽然只发展了短短几年的时间,但整个资本市场这个行业的反响都非常热烈,甚至比欧美国家的投入还要大得多。在大量资源的扶持之下,我们或许能在短时间内取得一定的成果。

在新药研发领域,我们和欧美依然存在着代际差异,尤其是小分子这一板块,我们几乎没有做First In Class的新药开发能力,国内的First In Class屈指可数,更多的是Fast Follow或者Me-too、Me-better的项目。

但是在AI 制药领域差距却没有那么大,国外这方面发展得也并不顺利,以薛定谔、Recursion等为代表的各大AI制药公司,在资本市场的表现并不算好,一些研发项目进展缓慢。

这就为我们赢得了很多时间和机会,如果国内能够继续保持研发的劲头,在这样一个全新的赛道中,完全可以弯道超车。

刘振明:这个问题很值得讨论,在许多公开的报告、讨论中,我曾经反复提过一件事情:中国的创新药被迫起航。从这句话当中,我们可以感受到切肤之痛。

就在去年和前年,国内的一家知名药企裁员一千人,因为这些员工做的是仿制药业务,而非创新药;另一家药企自断臂膀,将自己所谓的创新药项目砍掉了八十多个。

这就是他们的切肤之痛,他们做的药物,放在五年前可能都是宝贝,但是在创新药时代就变成了累赘。

为什么会出现这种局面?我从一个从事药学研究的工作人员的角度来分析,首先,2021年国家药监局药审中心发布了第46号文《以临床价值为导向的抗肿瘤药物临床研发指导原则》,做肿瘤药物的热潮一下子就熄火了。

标准是人家制定的,要和他们竞争你的能耐在哪里?监管部门要考虑这些问题,这些都是长痛,而非短痛。

其次,大家都在讲AI,我们在研究中关注适应症更多一些,比如PD和AD对市场来说是很好的适应症,为什么大家不做?

以往基于Aβ蛋白,基于乙酰胆碱酯酶抑制剂研究积累的数据,对我们建模、做PD和AD的药物研究,究竟是助力还是阻碍?这些问题都需要思考。

2021年,国家正式启动科技创新2030“脑科学与类脑研究”项目,在目前的研究水平之下,我们对一些脑部疾病的认知还太肤浅,甚至于前期研发的相关药物使用的都是“假”数据。

虽然现在大模型的概念玩的很嗨,但是到了真正练兵的时候估计作用有限。我个人感受,AI目前炒的太热了,我们科技组的很多学生,水平都还未达到培养要求的标准,就已经被企业争抢得一塌糊涂,人才更是这个行业的痛点。我担心繁华过后留下的是一地鸡毛。

当然,我们希望大模型的发展不会像当年的互联网泡沫破裂一样经历漫长的寒冬,但前提是从业者能够脚踏实地地为人才储备做一些扎实的工作,才能让这个行业经历过现在的短痛以后,不再经历未来的长痛。

关于国内的AI 技术与国外相比是否存在代际,我的观点与其他几位老师相同,是不存在的。但中国目前的创新药研发能力和国外存在代际差异。

为什么我们一直在强调基础原创研究?很多研究药学领域的老师都明确讲过,我们的很多药效模型和国外相差至少二十年,比如几年前的IDO抑制剂药物,国外的研究项目下线后,国内的相关项目也全部下马,因为核心的原创研究不在我们手里。此外,在药剂和递送技术、药物研发环境等方面,我们和国外都存在代际差距。

至于AI制药能否成为国产药创新、弯道超车的机会,AI一定能让创新药的研发起步姿态非常美,但是能不能跑到终点,目前还不知道。弯道超车要有一个前提条件,它得有道。

我们做药的人常常讲,当一款药物成功以后,我们讲出来的故事往往都是完美的。但如果回过头重新走一遍这条路,也许最终得到的结果却很不一样。

简而言之,做药这件事情除了实力以外,还需要一点点的运气。因此,我只认可AI技术能够让药物研发的起跑姿态更美,能否超车仍是未知数。

谢昌谕:整体而言,这一阶段新药研发存在的痛点比较多,不论是整体的大生态还是人才、数据或其他方面,各位老师刚刚已经讲过很多,我就不再重复了。但如果就聚焦在AI制药的领域,尤其是聚焦在算法模型的层面,我认为不存在代际差异。

当前的AI技术以及整个社区,相对来说比较开源、透明,世界各国的研究者们不入欧有新的研究成果或进展,大家都可以快速地通过发表的论文,开源的代码以及各种线上讲座等方式来相互了解和学习。

但由于基础设施的差距,在新药研发过程中药企之间反而很难像AI技术一样迅速实现技术的学习和共享。弯道超车少不了AI技术的支持,但仅仅依靠AI技术可能还是无法实现。

AI大模型RLHF等技术红利如何影响AI制药?

能否一定程度上降低对庞大数据量的依赖?

谢昌谕:ChatGPT做的RLHF依赖专家标注的数据量还是比较大的。RLHF应用在药学领域的挑战在于,人类专家很多时候没法“一拍脑袋”就轻易地对大模型输出的不同答案进行评价和排序,判断好坏。

在药学领域,研究者还要对大模型输出的结果进行更多的计算或实验,才能确认哪个选择是更好的。

如果说大模型输出的结果非常容易分辨,比如设计出的新分子与口袋靶点是否能形成关键的相互作用,或者较为简单的物理化性质的评估等等,专家一看就能分辨,那么这个大模型学习到的相关知识可能还还是十分有限。

这也是ChatGPT与新药研发在使用上的底层逻辑不同的需求。ChatGPT 更多的时候只要做到人类专家的水平即可,然而AI制药往往期望 AI 可以做的比专家和之前的CADD 都更为准确的判断。

当然,正如刚刚刘伟老师讲到的,目前已有不少优秀的分子生成模型是通过强化学习来进行调试的,所以这项技术肯定还是有用的。

但是具体在什么样的场景下才能将这项技术用得更好,真正在一定程度上可以降低对庞大数据量的依赖,还有待我们去挖掘。

刘振明:我们特别看好大模型未来对AI制药行业的赋能。目前,大模型更多的应用场景是在社交领域,而在AI制药领域,大模型的商业价值的实现会更加缓慢,未来五到十年内大模型应用场景会发生切换,对AI制药产生一定的影响。

以我们关注的化学制药为例,化学制药的合成实际上就是速控步,需要基于经验来完成,否则就要依靠外包。SCIFinder这类知识库也许很快就会被大模型取代。

在未来,即便一个经验怎么不丰富的合成学家,借助大模型这个“军师”也能完成合成工作,只要向大模型提问合成反应的结构式、不同反应条件的选择等等,大模型都能够给出指导。

在优化环节,使用者哪怕只是给出“这个结果不太对”的回应,大模型都能够据此对结果进行优化。

最近几年,我和国内做创新药的投资人接触比较多,感觉他们特别不容易,一方面带着兴奋,坚信生物医药绝对是一个创新的朝阳行业;另一方面带着迷茫,没有深厚医药背景的他们很难看懂这个行业。

未来大模型的发展,也许能够让这批投资人更好地理解创新药的研发,对行业的影响反而更大。

投资人虽然不做药,但是他们在大模型的支持下,他们能够与做创新药的人更好地对话,省去了进行底层教育的时间。

我遇到的很多投资人都不敢投创新药行业,大模型更像一个军师,我们也特别希望它未来能成为投资界的一个强有力的助手,使创新药的投资门槛更低一些。

刘伟:预训练AI大模型出来之后,我们这些做AI的人归纳起来,认为它带给了我们两个比较震撼的改变过去认知的东西,一是改变了AI的范式,二是改变我们对效果的认知。

过去我们做AI通常是基于监督学习,或是规模不大的预训练的模型加微调,比如BERT+finetune。现在的大模型在应用场景中不依赖微调,只需要用海量的无标签数据进行预训练,再用提示学习等方法小规模数据进行优化,这跟以前的预训练的大模型加微调是非常不一样的。

这是一种新的范式,反映到AI制药行业也是存在的。比如基因,蛋白质序列,各种大规模化合物分子的数据库等等,数据量可能达到几十亿到几百万亿的量级,并且其中绝大多数都没有标签,这与自然语言的情况是比较类似的。

这种情况下,如果我们能够将这些数据拿过来对模型进行训练,这些数据库中所涵盖专家知识的量是人类专家很难企及的。 这些数据全都拿来,并且能够进行有效的表示和学习,能够带来的想象空间是非常大的。

当大模型学习了大量的基因数据、蛋白质数据或者分子数据后,也许就能够发现新的分子生物学的机理,甚至是发现一种新的治疗方法,这在不久的将来都是能够想象得到的。

另一点对效果认知的改变也十分显著,过去我们认为多轮对话并且具有一定的逻辑推理能力的AI非常难以实现,也许需要三五十年才能打造这样一个通用的人工智能,当下的大模型所展现的智能涌现的现象,是以前从未出现过的。

智能涌现叫做emergence,来源于凝聚态物理和复杂系统的研究中,即复杂系统中的较低层次的子系统通过相互聚集、相互作用构筑较高层次的系统,会在较高层次的系统层面诞生一些子系统所不具备的新属性或新规律。

比如凝聚态物理中的超导、超流等相变现象,就是物理学中的典型涌现现象。

在以前的AI模型训练中,从未出现过涌现的现象,即模型参数量以及训练的数据量跨过一个坎后,出现大幅度的性能提升,也就是出现相变。在以往的普遍认知中,增加数据量后,模型的效果会出现一定的提升,但只是线性或亚线性的增长,而非涌现的那种突变。

以前的很多研究工作由于性能提升缓慢没能再继续下去,在大模型的背景下,这些工作可能又值得继续研究下去。

大模型也为AI制药的研究提供了源头活水,如果我们有一个以分子化合物为基座的大模型,利用数十亿量级的数据库对大模型进行预训练,其中少量带有标签的数据可以来自湿实验,或是来自专业领域的知识、人类专家的反馈,然后对基座的大模型进行微调与强化。

行业内已经有很多公司在进行相关的研究工作,训练蛋白质、基因或分子的大模型,将这套范式搬到药物AI的场景下,这是一个非常值得投入的研发方向。

至于大模型在药物AI领域能否像自然语言处理领域一样,出现智能涌现的现象,达到一定的训练量和参数量后,效果实现显著提升,目前还是一个开放性的问题,有待我们进行进一步的研究。

段宏亮:专业领域的大模型与ChatGPT等常识性大模型相比不同的地方在于,对于ChatGPT来说,来自全球的几十亿人都可以作为数据的生成人员与ChatGPT进行人机互动,但如果我们研发一个药学大模型,能够生成数据的人相对而言比较有限,可能只有几十万或是几百万的量级。

从大模型要处理的工作来看,药物研发的难度比ChatGPT中自然语言处理的问题难得多,所以,药学的大模型的研发和训练显得更加困难。

药学领域的很多数据都依赖于实验,或许几周、几个月的时间才能产生几个数据反馈给计算机模型,无法像ChatGPT一样从互动聊天中即时获得大量的信息,迅速迭代。

当数据量或是产生数据的人较少时,药学大模型是否还能像ChatGPT一样,迅速地根据人类反馈优化,使模型的智商在训练中增长,还是一个未知数。

但是从数据的角度来说,药学大模型,或许可以成为收集药学数据的方式。正如刘老师刚才所讲,用联邦学习平台收集数据是不可行的,药企的戒备心很重,无法放心地将数据放到联邦学习平台之中,担心数据会泄露。

但药物研发人员在与大模型的交流互动过程中,会以一种隐蔽的方式将数据传输给大模型。大模型可以将这些零散的数据收集起来,将时间线拉长,在几年、几十年后,数据积累到一定程度,也许某一天药学大模型就会豁然开朗。

AI制药下一轮技术应用爆发的突破口是什么?

张煜:蛋白质结构预测技术的突破,让大家看到了更多的可能性,也让人们开始畅想这个行业未来的模样。

不仅仅是AI制药领域,整个社会,包括专业的学术领域、技术领域、企业界和资本界,都对制药产生了更多的关注和期望,所以即使没有技术的突破,相关应用的发展也会进入快车道。

至于相关应用突破和爆发的可能性,从技术角度来看可能的发展方向有以下几个。

首先是药物设计,肯定会更快、更精准、成本更低,这本来也是AIDD要实现的目标,在技术驱动下会向着这样的方向发展。

在具体应用的层面,病症的治疗会更加个性化和精准化。过去在治疗普通病症时,需要服用的药物剂量都是一片、两片,儿童减半,但治疗一些特殊病症时药物的剂量需要非常精准,没办法用传统的方法来定量,但AI可以解决这一问题,通过计算给出精准的药物配比和剂量。

其次是在一些特殊方向上的应用,比如抗衰老药物的研发。干细胞的研究与个体相关,要进行很多的实验,成本非常高,如果用AI技术来辅助进行研究,或许能够大幅降低成本。

罕见病的相关研究。药物研发以数据为基础,通常需要大量数据。但罕见病的稀有性则注定无法取得大规模的病例数据。如果使用AI技术,或许能够使这些小样本或小数据量的药物设计成为可能,这也是未来可能的突破方向。

迅速反应和预测。当年SARS病毒出现时,研究机构花了很长时间才确认毒株,而四年前的新型冠状病毒出现后,仅仅花了一周时间就确认了毒株的整体结构,从而快速找到应对措施。在AI的辅助下,我们对大规模传染性疾病的防治或许会取得更好的效果,甚至在AI的支持下,可以预测病毒的变异和进化,从而提前研发面向未来的疫苗和抗体。不借助AI手段这些是无法实现的。

复合疗法。目前的单抗、双抗或是其他疗法,通常相关性很强。在未来,某些疾病可能需要相关性不太强的疗法,比数字疗法加药物疗法,或是其他不同的疗法综合进行疾病治疗,其理论基础和实验都非常难,以我们目前的手段几乎无法实现,AI技术或许能够使综合性的疗法成为可能。

药物递送。药物递送与药物设计、靶点发现同为药物研发中的三大难题,就目前的技术手段来看,药物递送还存在很多问题,也许只有AI技术能够解决。

中药。中药研发过程中涉及到的机理和各种要素比较复杂,规律性比较差,用传统的研究方法很难实现,用AI技术进行研究或许能取得比较好的效果。

段宏亮:随着蛋白质结构预测技术和大模型这两个跨时代的新技术的应用,对新药研发工作的改变会非常大。

在小分子药物的研发上,如果要做小分子药物和蛋白药物的相互作用,本身就需要蛋白质结构,蛋白质结构预测技术刚好可以解决这个问题,

当然,更大的影响或许在蛋白药物的开发以及多肽药物的开发这些领域。

AlphaFold2做的主要是单体的蛋白结构预测,而蛋白质复合物、以及蛋白和多肽复合物的预测,和蛋白质药物、多肽药物等的研发相关性会更高,DeepMind后来开发的AlphaFold Multimer就做了很多这方面的工作,本质上与AlphaFold2一样,都是氨基酸的相互作用。

如果能够沿着这条路走下去,在蛋白质复合物的研究上投入更多精力,把精度做得更加准确,那么在抗体药物、蛋白质药物、合成生物学等方向,或许会出现一些颠覆性的应用,这会是未来几年中我们可能看到的重大突破。

刘伟:从AlphaFold2出现以后,蛋白质结构预测做得越来越多了,但是目前仍然没有将这项技术非常好地应用落地在药物临床前的各个研究阶段,并且取得比较大的提升,我觉得这一块在未来是一个很重要的突破口。

刚才段老师提到,可以用蛋白质结构预测用在抗体的研究上,可以实现很多以前没有做过的工作。

我们曾参加过CASP14竞赛,自研了tFold,近年也在tFold的基础之上扩展出tFold-Ab,用于抗体结构的研究,同时我们也测试了蛋白质结构预测在不同场景下的性能表现,比如单体、二聚体、三聚体、抗体抗原等体系下的性能,在有些情况下还存在比较大的误差。

业界也有不少论文中提到了类似的测试结果,因此有人质疑AlphaFold2是否真的能够应用于实际的药物研发。

针对这一情况,我们团队专注于tFold在抗体抗原体系中的研究,在tFold模型的基础上,设计了基于大规模预训练的单序列结构预测方法,能够快速预测出抗体重轻链复合体的三维结构,这项研究成果已经发表在 NeurIPS2022的机器学习与结构生物学研讨会(《Fast and Accurate Antibody Structure Prediction without Sequence Homologs》),目前该成果也已经和多家药企进行了相关合作。

刘振明:AlphaFold2在生物医药领域中的应用会带来很多影响,解决了靶标的问题,激活了以抗体设计为代表的大分子药物设计领域。

有很多投资人问过我们为什么不做大分子,只做小分子。他们认为大分子更复杂,但实际上抗体抗原设计中80%以上的东西是一致的,而小分子相对来说要复杂得多。

AlphaFold2的应用也不会让结构生物学家们失业,我有一个学生在做卤化酶的研究,他明确地讲过AlphaFold2对他所研究的卤化酶的预测是错的。卤化酶并不是很复杂的一类蛋白,但AlphaFold2预测出的结果与实际情况的确存在出入。

这意味着AlphaFold2或许在统计学上做得很好,整体来看在蛋白质预测领域表现很出色,但它并不是万能的,在某些细分领域的预测不一定准确,依然需要结合试验结果,由人类专家帮助优化。

其次,AlphaFold2用来做训练的数据是静态数据,而蛋白质在人体内发挥作用时是动态的,通过结构的变化来产生功效,这是AlphaFold2目前的数据集中所缺少的数据,但是在药物研发的过程中,必须要考虑这种动态变化。

AlphaFold2走出了一个很好的开端,但是未来要走的路还有很长。

如果未来的药物领域出现了AlphaDrug,它要回答的一个最重要的问题,某个疾病用什么“新”药来治疗?(不是简单的用药推荐)。

只有大数据能够回答这个问题的时候,才真正实现了AlphaDrug。大夫可以和大模型进行对话,将疾病的症状用定量的方式进行描述,然后大模型在无穷大的仓库中找出疾病的诊断结果与治疗方案。

就像AIDD这个行业,不论算得再准,最终要交付的还是品种。在我前几天参加的一场答辩中,一位药物化学领域的前辈提出,所有能被药化学家看出来的东西都不是AIDD。品种交付能力一定是未来技术突破中要关注的问题。

我是传统的药物化学家,目前还在负责一本欧洲药物化学杂志《EJMC》。我们在和主编讨论时,经常说起两靶点、三靶点、四靶点,我们知道每一个疾病的发生和治疗绝对不是单靶点,这就反向给我们提出了一个问题:在一个疾病的治疗中,究竟什么样的靶点群是有效的?

如果未来AI技术能够解决这个问题,AI制药也将取得很大的突破。现在最大的问题在于,第一临床数据太少,第二噪音背景太大,或许大模型技术已经出现了很多好的文章,但是距离真正解决问题还需要一定的时间。

谢昌谕:各位老师刚刚也提到,在如今的AI+Science浪潮之下,很多不同的领域都有可能成为下个产生重大突破的焦点。

从我个人感兴趣和能够参与的领域来讲,我很期看到AI能够和基于理论的计算科学的传统算法产生新的融合,从而加速在量子化学、蛋白质结构预测、分子动力学等等领域内的计算范式的突破。

AI的深远影响,甚至超过了制药的范畴。我们对大语言模型的挖掘也远远没有结束,它在生物医药领域还有其他的可能性。

比如刚刚曾提到过的,在高纬度空间中的数据分析,多模态的多组学等等,我们如何更好地从中了解复杂的生物网络,从而挖掘新靶点的新生物标志物,这应该是未来几年中将会看到越来越多成果的方向。

除ChatGPT以外,目前已经有AutoGPT能够更好地规划如何使用各种工具去完成更复杂的任务。由AutoGPT主导的干湿实验结合,加上可解释性AI等技术,能够实现更好的人机互动,使干湿实验结合达到一个新的高度。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/HrfCGE2xzTOYW4aL.html#comments Wed, 21 Jun 2023 15:30:00 +0800
广州实验室陈红明:药企不开放化合物结构,数据共享只是「隔靴搔痒」|AI制药十人谈 //m.drvow.com/category/shengwuyiyao/bDXfT8m0QJGP6LdN.html “大型药企在行业内耕耘多年,内部积累了非常多的数据,在AI制药这条赛道上,这些数据就是一条足够宽的‘护城河’,相比之下,AI制药公司获取数据的难度却高得多。”

陈红明博士是广州实验室研究员,曾在药企巨头阿斯利康工作十余年,在AIDD领域有着丰富的研究经历。近日,在与雷峰网《医健AI掘金志》的对话中,陈红明谈及了他的研究经历以及对AI制药行业的观点。

陈红明毕业于中科院化工冶金研究所计算化学专业,后赴德国拜耳制药公司乌帕塔尔研究中心从事博士后研究。

2001年,陈红明加入药企巨头阿斯利康(AstraZeneca)哥德堡研发中心,从事计算化学和新药开发方面的研究十余年,担任主任研究员(Principal Scientist),主持了多个欧盟地平线2020科研项目。

2019年,陈红明回国后,全职加入生物岛实验室担任研究员。2021年5月,加入由钟南山院士领衔广州国家实验室,担任研究员。

陈红明在阿斯利康的最后几年,AI技术在制药领域开始大放异彩,他的研究兴趣也从CADD转向AIDD相关研究,并于2017年带领团队开发了业内著名的REINVENT算法。

他指出,相比近年来大批涌现的AI制药公司,以阿斯利康为代表的药企巨头,在AI制药这条赛道上有着天然的优势,他们有着多年来积累的药物数据,这是一条足够宽的“护城河”,将许多竞争者拦在门槛之外。

近日,雷峰网《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。以下为我们与陈红明的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志》:自1998年博士毕业投身药物研发领域以来,您经历了药物研发二十余年的变迁史。您此前工作的药企阿斯利康是最早使用AI方法进行药物开发的跨国公司之一。在您的研究历程中,是如何完成从CADD到AIDD方法的转变的?

陈红明:我最初在阿斯利康的药物发现部门的计算化学组,做一些与CADD相关的药物开发项目支持工作,在研究方向上,主要从事高通量药物筛选的数据分析,虚拟筛选以及药物性质预测等工作。

2016年,我们申请了一个欧盟的项目ExCAPE,用大规模深度学习的方法搭建预测模型,以此为契机,我开始接触深度学习中的神经网络等算法。

通过这个项目,我开始和当时在欧洲高校中做相关研究的教授和学者们,如奥地利林茨大学的Sepp Hochreiter教授,Günter Klambauer博士等进行合作,逐步转向AIDD的研究。

事实上,早在上世纪九十年代,基于定量构效关系的神经网络就曾在药物研发领域中被尝试用于分子的活性预测,但当时的神经网络技术在这项工作上表现并不太出色。

深度学习的兴起,一度让我认为AI技术将在药物性质预测,尤其是分子的生物活性预测和ADMET的性质预测等方面取得很好的效果。

抱着试试看的想法,我们开始使用深度学习的方法构建预测模型。然而,受数据问题所限,AI在药物性质预测领域虽有不错的表现,但并未取得革命性的突破。

这可能有两方面原因,一方面是制药研发领域数据获取成本非常高,导致整体数据量还不够多;

另一方面,生物实验数据本身存在实验误差,至今仍然没有一个有效的整合标准,加之开源的数据通常来自于许多不同的实验室,更是增加了数据整合的难度。

相比药物性质预测,AI在分子生成模型上的应用效果反而更好。我的研究方向开始从以往的药物性质预测转向分子生成模型和化学反应预测研究,2017年,我们团队研发了生成模型REINVENT算法(相关论文:M. Olivecrona, T. Blaschke, O. Engkvist, H. Chen, Molecular de-novo design through deep reinforcement learning, J. Cheminform., 2017, 9:48.)。

REINVENT模型使用SMILES 字符串作为分子结构的表示方法,首次使用RNN作为生成模型架构并结合了强化学习(RL)算法。

通过对这一算法的开发和实践应用,我们发现,在分子生成这一领域,深度学习和传统方法相比,已经取得了比较大的飞跃。

《医健AI掘金志》:2019年,您离开阿斯利康,加入广州国家实验室,当时有什么契机促使您做出这一决定?

陈红明:我在阿斯利康工作时,我所在的部门主要是做算法开发等工作,同时也为一些早期项目提供支持,但整体还是更偏重AI算法开发。

回国之后,我希望能够继续从事AI算法的开发工作,但考虑到在药企中工作,可能需要花费很多精力在项目上,最终还是选择了这样一个更适合做研究的机构。

我加入的是广州实验室的前身--生物岛实验室,是广东省省属的实验室。疫情爆发后,钟南山院士在广州建立了广州国家实验室,我所在的生物岛实验室大部分研究人员也转入其下管理。

《医健AI掘金志》:跨国药企与AI制药公司之间的合作情况怎么样?国内的AI制药企业一般有三种主要的商业模式,自研管线、CRO以及专门做技术平台,跨国药企对AI制药公司的CRO与AI制药软件态度如何?

陈红明:跨国药企对AI技术的态度是非常开放的,阿斯利康和其他药企近年来与AI制药公司之间常有合作,比如阿斯利康与AI技术公司BenevolentAI合作,基于AI算法寻找肾脏疾病的新药物靶点。

在服务模式上,大型药企可能更倾向于选择CRO企业,在这种合作模式之下,项目最终的评估指标非常明确。

而AI制药软件在使用的过程中,常常需要根据实际研发情况进行调整,很难以固定的模式进行工作。

因此,相比使用AI制药软件,CRO的效果更直观,也更便于评估,对大型药企来说,这种方式明显更方便。

《医健AI掘金志》:传统药企起家的公司与“跨界创业”的AI制药公司二者相比,在AI制药技术的开发上谁更具优势?

陈红明:传统药企是基于自身多年的专业积累和研发能力,在企业内部建立AI平台;AI制药公司则是以AI技术为基础搭建算法平台来做药。

我认为这两种方向各有特点,但在我个人看来,二者相比之下,大型药企开发AI平台或许会更具优势

最根本的影响因素在于,AI药物设计是一个比较注重实验与数据的学科,企业在研发过程中每获取一个数据点,都要付出非常高昂的费用。

在医疗行业,数据属于稀缺资源,这也是医药行业区别于其他行业的地方,比如自动驾驶等行业,获取一个数据点的成本并不算高。

大型药企在行业内耕耘多年,内部积累了非常多的数据,在AI制药这条赛道上,这些数据就是一条足够宽的“护城河”。

相比之下,AI start up(指以人工智能技术为基础启动的公司)获取数据的难度却高得多。而AI start up的优势——AI技术人才,大型药企则可以通过雇佣AI人才或寻求外部合作来弥补。

《医健AI掘金志》:如您在上个问题中所讲,在AI制药领域,数据是稀缺资源,也是行业的“护城河”,药企之间能否通过数据共享的方式,打破数据对行业发展的制约?

欧洲的数据共享项目MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery,机器学习分类帐编排的药物发现),能否为国内药企提供参照?

(注:MELLODDY项目汇集杨森制药、安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、默克、诺华和施维雅等10家顶尖制药企业,两所高校,四家初创公司,以及IT企业英伟达,旨在创建一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。)

陈红明:在这个项目开启之初,大家都期待这样大规模的数据共享能够为企业的模型带来一定的提升,但我和以前阿斯利康的同事交流时,他表示相比阿斯利康自己原本的模型,提升并不算很大,这让我有一些失望。

我认为可能是由于不同公司的生化测试方法有所区别,导致数据之间存在一些系统性的误差。

此外,对药企来说,数据中最核心的化合物结构往往并不会公开,因此在数据融合的过程中也可能会存在问题。

另一个可能的原因则是,制药公司在药物靶点的选择上存在一定的共性,因此大家集中在某些所谓热门靶点上进行分子设计,因此导致合成的分子骨架结构差别不大,那么在化学空间上的提升自然就不会很大,这也可能会导致模型的提升有限。

这是我作为局外人观察和猜测可能导致药企模型提升有限的几个原因,具体事实如何,还需进行大量的研究才能调查清楚。

MELLODDY项目这种数据共享模式暂时也不适合移植到国内,最重要的一个原因在于,国内的制药公司相比MELLODDY项目中的大型跨国药企,在数据积累上仍存在着非常大的差距。

目前比较常见的数据共享或交换的形式,往往是通过联邦学习等技术,将数据转换为描述符等形式,交由一个可信的中间机构来把关,化合物结构依然保密。

真正直接披露化合物结构的数据交换,在药物研发领域还是比较难以达成,比如此前阿斯利康和拜耳两家公司,曾商定交换相同数量的化合物,这是建立在两家公司体量相当、数据库规模也相当的情况下,进行平等的一对一交换,参与数据交换的人员数量也很少。

《医健AI掘金志》:加入广州实验室后工作后,在药企巨头的工作经验中对您来说有哪些可以借鉴?

陈红明:在阿斯利康的工作经历让我对于计算化学科学家在日常工作中面临的挑战有足够的了解。

虽然在阿斯利康工作时我主要从事算法开发,但也参加过一些药物开发的项目,对药物开发的流程比较熟悉,与项目中的核心人员有很多交流互动,更加了解在药物开发过程中,计算化学的方法和工具还存在哪些欠缺,从而更好地开发AI算法。

这些经验都可以应用在我现在的工作之中。

《医健AI掘金志》:相比传统的CADD方法,AI制药具有哪些优势?AIDD最终是将与CADD相互融合还是取代CADD?

陈红明:相比传统的CADD,AI药物设计有其独特之处,比如近年来才兴起的生成式AI,这在以往的药物设计中是没有的。

传统的药物设计方法往往是基于规则进行,而AI生成模型则是数据驱动的算法,完全不需要预定规则,即可通过从数据中学习到的规律进行分析。

但我认为,AIDD仍属于CADD这一大的范畴之中,属于是CADD的一个全新的扩展。

CADD常用的分子对接、利用分子描述符建模的算法,在AIDD之中仍有沿用,所以,AIDD并不会取代CADD,二者将会相互融合,AIDD成为CADD的一个新的发展阶段。

《医健AI掘金志》:在分子结构生成环节,相比陷入瓶颈的CADD,AI可以通过学习大量的化合物结构数据发现隐含的结构构成规则,更具创造力,因此越来越多的AI制药初创企业加入赛道,开发出许多不同的分子生成算法。

2021年5月,您的团队针对现有分子生成模型评估方法的局限进行研究,提出了一种基于化学空间覆盖度的生成模型效果评估方法,在这套评估方法之下,目前比较具有优势的算法有哪些?

陈红明:我们当时提出的评估算法,主要目的是选择合适的数据集来对分子生成模型进行评估。

在我们之前,也有其他的研究者提出过一些生成模型的评估方法,但他们当时所选择的数据集并不是平均的分布。

他们选择的数据集中,涵盖了针对不同靶点的分子,因此有些靶点的相关的特定结构类型会比较多,有些的结构类型则比较少,数据集的分布并不均匀。

但是评价生成模型,最好还是需要一个平均分布的数据集。

所以,我们当时选择了GDB13分子集合,这个小分子库包含将近10亿个重原子数小于13的分子结构,而且这些分子都是从理论上穷举出来的,分布更加均匀。

在GDB13分子集合的基础上,我们基于完整的分子结构、官能团和环系这三个维度,对“化学空间覆盖度”进行评估。

在当时的评估标准下,REINVENT算法的结果相对而言是比较好的,在这之后,国内也涌现出了许多很好的算法模型。

《医健AI掘金志》:以ChatGPT为代表的生成式AI技术,将会为药物研发带来哪些新的可能性?

陈红明:ChatGPT模型虽然很火爆,但我认为它目前仍处于比较早期的阶段,大语言模型依然在快速迭代的过程之中。

我们团队前不久也做了相关的评测,GPT3.5版本在生物医药的NLP数据集上表现是不错的,但是与SOTA模型相比,GPT3.5在项目中的表现还是有很大差距的,在未来的不断迭代升级之后,GPT也许会有更好的表现。

GPT模型在药物研发的流程中也能够起到很大的作用,一方面对知识图谱的构建会有很大的帮助,比如从海量的文章中提取关键信息,作为素材生成知识图谱,从而助力靶点发现等工作;

另一方面,也有人尝试用ChatGPT直接进行药物分子设计,目前来看这项工作还有些困难,但ChatGPT已经展现出知识综合的能力,只要给它一个靶点,即可据此描述出分子应该具有的特征。虽然还处于比较初级的定性阶段,但也为药物设计工作提供了一种新的可能性。

另外,也许还可以通过ChatGPT进行化学反应推理等各项工作,总而言之,以ChatGPT为代表的的大语言模型,在药物研发流程中或许会给人带来意想不到的惊喜。

讲座预约

为更加深入、系统地探讨国内医药企业在新药研发中面临的诸多问题,雷峰网将于6月8日晚8点至10点,举办主题为《「人机协同」模式下的新药研发》的线上圆桌论坛。

本次论坛,将由浙江大学药学院教授谢昌谕主持,北京大学药学院研究员刘振明、腾讯医疗健康AIDD技术负责人刘伟、浙江工业大学智能制药研究院院长段宏亮、清华大学智能产业研究院战略发展与合作部主任张煜参与讨论。

读者可扫描文章底部海报的二维码,进入专家社群,我们会将您的问题收集、汇总,反馈给参会嘉宾,并在讨论环节进行解答。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/bDXfT8m0QJGP6LdN.html#comments Thu, 08 Jun 2023 16:21:00 +0800
创新药遭遇资本寒冬,CXO行业应该卷「服务」而非卷「价格」 //m.drvow.com/category/shengwuyiyao/bvB5NHcWuwEA5MEt.html 近日,红杉中国在上海召开了第三届全球医疗健康产业峰会,本次大会以“以终为始,致远尽微”为主题,探究全球背景下医疗健康产业的挑战。

会上,红杉中国董事总经理顾翠萍与CXO(医药研发生产外包)企业代表昭衍新药副总裁、临床事业部总经理顾静良,Novotech中国区总经理刘寒松,晶泰科技董事长温书豪,凯莱英医药集团联席执行官杨蕊,集萃药康CEO赵静等业内人士,围绕CXO行业在推动创新药研发与出海中的影响进行了探讨,解读这一领域所面临的挑战与机会。

晶泰科技董事长温书豪从技术角度分析,AlphaFold等工具的出现使解析蛋白靶点结构的速度大大提升,AI技术的发展让药物创新的门槛与成本不断降低,从而催生出更多创新成果转化与新型的生物科技公司。

昭衍新药副总裁、临床事业部总经理顾静良指出,中国的CXO行业还不够“卷”,这一赛道的市场足够大,无法轻易触碰到天花板,企业应建立自己的核心竞争力,着眼世界,追求更大的舞台。

Novotech中国区总经理刘寒松认为,创新出海是中国生物技术公司当下的一道必答题。在陌生的国际环境之中,医药公司出海面临着很大的挑战,这正是CRO企业能够发挥价值的环节,推动方案落地、执行,与监管部门有效沟通,降低创新药开发的风险与成本。

凯莱英医药集团联席执行官杨蕊介绍,从全球药品研发的需求以及药品市场规模整个的增长来看,中国CDMO行业的产能并没有出现过剩,也不会出现过剩。中国CDMO(医药领域定制研发生产)在全球占的份额,从2017年的5%,预计2025年将增长到20%,占全球五分之一的比例。

集萃药康CEO赵静分析了临床前成功率极高的实验在临床试验中通过率却极低的原因,即前期筛选动物模型时与人的差距过大。赵静指出,只有将动物的多样性和人的发病机制的多样性引入模型当中,才能更好地模拟人,构建更真实的平台。

以下是「CXO机构如何让研发更快一步」圆桌访谈的主要内容,雷峰网&《医健AI掘金志》做了不改变原意的编辑和整理:

顾翠萍(主持人):CXO就是医药外包,在医药行业的研发和生产、销售进程中起着非常重要的作用,在过去的一段时间,国内的医药市场发生了较大的变化。

CXO经常被寓于医药行业的“晴雨表”、“体温计”,他们的体感温度能够反映行业的热度或者趋势。国内的医药企业尤其是创新药的研发,从几年前开始就非常火热,直到遇到去年的资本寒冬。

从CXO的角度来看行业的温度如何?你们如何判断未来的趋势?

顾静良:一个行业有热度是好事。昭衍新药在CRO领域将近三十年了,我们从来没有赶上这种情况,如今确实是一个好时候。

从行业来讲,如今是资本寒冬还是热火朝天,我倒觉得发展得很好,目前是很健康的态势。

过去几年,由于社会环境的问题,比如疫情或某些突发事件,让大家感觉资本突然涌入这个行业,业内也产生了许多阶段性的需求。

但是整体来看,回顾到疫情之前以及去年的数据,其实是良性、正常的增长,这是没有问题的。

首先,现在谈过热并不准确,因为中国的CRO市场与国际相比,体量差距依然很大,我们还需要更进一步地成长,将产业和行业做大做强,在国际上掌握绝对的话语权和影响力。

现在我们已经加入了国际人用药品注册技术协调会(ICH),无论是GMP(Good Manufacturing Practice,质量管理系统),还是GLP(Good Laboratory Practice,临床试验管理系统),又或者是其他评价体系,都已经跟国际在同一水平线。

其次,我们用实际经验证明,我们支持全球化的解决方案是非常好的,但是中国有自己独特的属性与核心竞争力,人工成本、资源获取能力等,在国际上都有独一无二的优势。

但是我们的市场体量还没有做得那么大,未来还会有一个很好的发展期。

刘寒松:热点的出现是有原因的,我回到亚洲工作的十几年也看到了一些变化,比如Novotech前身主要做仿制药BE study(生物等效性研究),由于当时的市场需要、客户需求,CRO只能提供这样的服务,为客户提供这些方案。

2015年随着创新药的发展,Novotech开始转型做创新药。创新药能做什么?围绕新的治疗领域,我们在医学、监管等层面花了大量精力,配合生物制药公司或者BioTech的工作。

事实上,热点是在不断变化的,在市场需求和竞争等原因的影响下,国内目前的热度可能还会降温。但在另一方面,从创新、出海的角度来说,依然是有热度的,作为CRO,如何快速地调整资源,利用我们的能力去支持创新和出海才是重点。

Novotech三年前尝试出海时还没有现在这样的热度,我们当时结合着欧美客户的需求,提前进行了布局,为现在的工作提供了先机,让我们可以帮助中国的生物技术更好地出海。

随着热点的变化,CRO如何调整战略才能更好地帮助客户,也要与时俱进。

温书豪:我从技术角度谈谈我看到的趋势,AlphaFold出现后,解析蛋白靶点结构的速度大大增强,AI技术发展也很快,不管是AI还是机器人等技术,使得药物创新的门槛、成本都在不断地降低,催生更多的创新成果转化和新型的生物科技公司。

我们看到,这样的技术升级让可做的靶点越来越多,带来越来越多的新药业务。从一些CXO年报数据看,包括欧美巨头在内的很多公司,在研发方面的投入也在逐步增长,从技术维度也好,我们看到的数据也好,都体现着CXO这个行业依然有蓬勃向上的发展趋势。

而且,生命科学是研究人类自身的终极命题,这是最不随周期变化的一个产业。也许会有一些短期的小的市场波动,但是追求生命健康是一个长期的刚需,特别是在寿命越来越长、人口老龄化加剧的大背景之下。

而从技术迭代升级的角度,CXO也是继续蓬勃增长的非常好的产业方向,有很多新技术带来的全新蓝海机会。

杨蕊:我从对行业的理解来看,全球研发费用支出、新药研发管线均是持续增长的,我们也能看到新的创新药研发形式对于专业的行业分工和CXO公司专业性需求也非常旺盛,整个行业的渗透率也一直在持续提升。

从我们自己的感知来说,这个行业的发展规律以及市场的需求,其实是持续增长的,市场需求的持续增长会推动CXO公司整体能力的提升,继而反哺到行业快速发展,相辅相成。

第二,从中国CXO行业的竞争力来看,多年来,业内积累了非常强的人才团队以及技术竞争力、成本竞争力,目前我们已经具备了国际化市场竞争力,奠定了中国CXO公司的行业发展基础,将推动整个行业快速发展和前进。

第三,中国制药业正在经历所谓的资本寒冬,我们也能够看到国内外的资本市场确实在做调整,包括疫情结束等原因,对这个行业都会产生一定程度的干扰。

但是从我们自身的感知,无论是从Global,还是从in China for Global或者in China for China去看这个行业,我们认为行业调整之后将会出现分化,但是真正有技术或是有核心竞争力的企业,一定会有更强劲的发展势头。

赵静:我非常赞同杨总对于大行业趋势的预测,我谈一下从临床前这个与早期研发非常接近的环节,我感受到的一些变化。

在过去一年左右的时间里,对于CRO公司来说是一个比较好的调整期。在此之前,行业存在一些过热的情况,这种过热并不是说资源的投入,资源的投入实际上是一件好事,但是大家对于靶点的关注过度集中,对整个行业来说或许是存在一些弊端的。

这也让我们得以冷静地思考,我看到很多企业做了大量的调整。一方面是管线领域的调整,大家更加关注未被满足的临床需求 ,除了肿瘤、免疫以外,在代谢、心血管、CNS(中枢神经系统)等方面或许将会有更多的投入。

另一方面,从技术层面来看,大家都在考虑差异化竞争,各个企业有没有自己的核心竞争力?有没有新的技术平台,对底层技术的新研发和投入,以及最终能否建立起各自的技术实力?未来也会存在多样化的情况。即使在同一个行业当中,针对同一个靶点,我们也能看到很多企业有各自的创新点。

总体来看,国内的确出现了“遇冷”的情况,但是企业已经对此做出了相应的调整。从今年整体的趋势上看,我们已经看到了回暖,以及逐渐上升、更加健康的趋势。

顾翠萍(主持人):之前的一段时间,生物医药行业听到比较多的一个词是“卷”,从靶点开始,到新的治疗手段出现,一旦被验证,就会让企业群拥而上。目前已经“卷”到CXO这个行业了,从大分子、小分子的CDMO,以及临床评价体系。你们怎么看待这种现象?

杨蕊:大家可能有一个疑问,CDMO这个行业产能是否过剩?我们做过很多数据分析,从全球药品研发的需求以及药品市场规模整个的增长来看,中国CDMO行业的产能并没有出现过剩,也不会出现过剩。

有数据显示,中国CDMO在全球占的份额,从2017年的5%,预计2025年将增长到20%,占全球五分之一的比例。所以,这个行业并不是有设备就叫产能,CDMO要有交付能力的产能才叫“有效的产能”。

第二,从这个行业真正的业务发展逻辑来说,浅层次的CDMO或者CXO的交付就是项目交付能力,但是随着行业越来越复杂,业务分工越来越专业,需求也越来越多元化的情况下,对于CXO公司来说,项目交付能力不再只是一个简单的项目交付,而是综合性的有价值的附加价值,来自于我们的业务竞争力、技术的沉淀、团队整体技术水平。

说到“卷”,我觉得至少从CDMO的领域来说,没办法“卷”,“卷”这个词也不太适用。CDMO公司或者CXO公司最深层次实力是有没有价值的附加,能不能真正的帮客户解决项目交付的问题、技术难题或者攻坚克难,不是简单地靠低价格“卷一下”就能拿到生意的,至少在我从业20多年的时间里没有看到过。

“卷”可能会出现在其他行业里面,比如,我比较喜欢喝咖啡,我看到的是中国咖啡的产业,有新的咖啡馆不断涌现,资本也很追捧。咖啡不一样的地方在于,你越“卷”,大家就能够喝到更好的咖啡,也就是说在中国可能会出现更多具有“匠人精神”的咖啡馆。

我更希望看到的是,CDMO公司不是简单的价格“卷”,而是我们真的是有匠人精神和精品制造精神的那种“卷”,共同提升我们的核心竞争力,推进行业的快速发展。

顾静良:杨总讲了CDMO,我就讲讲CRO。先说“卷”的本质是什么?我理解“卷”应该是后来者对这个领域的认识,如果说行业形成了“卷”的态势,说明后来者对这个兴趣很高,并且认识不足。这可能导致“卷”的本质。

CRO这个赛道目前谈“卷”,还是为时尚早。说“卷”这个现象,对行业来说其实也不是一件坏的事情。

如果行业中存在竞争的话,它会督促这个行业向上发展,提升你服务的水平、服务的能力,甚至提升你的性价比,这是一件好事情。对Biotech、对研发,对整个生物医药的产业来说也不是一件坏的事情。

说到CRO行业,现在还不够“卷”。

首先,我们国内的CRO行业格局基本还是清晰的,真正的CRO头部没有那么头部,规模没有那么大,市场占有率也没有那么高。

这个市场足够大,行业天花板有很高,每个企业都可以尝试去触碰。在这样的环境下,你应该想的是如何获取更多的市场。

第二,做CRO不要只局限于国内的小市场。中国的市场和美国相比,在非临床领域就有10倍的差异,我们有得天独厚的优势,有自己的核心竞争力,应该着眼更大的舞台。

第三,这个行业其实比较难“卷”,它的“护城河”很高、很宽,无论是做CDMO的GMP、GCP、GLP还是其他,都很多资质上的硬性要求。而且,这是一个重资产的领域以及一个人才聚集型的领域,对人才的要求、对资本的要求、对仪器设备的要求、对整个网络整合资源能力的要求、对法规的要求都很高。

所以,和卖咖啡绝对不一样,要突破重重门槛才能进入这个赛道,这个赛道不会轻易“卷”起来的。

在这样一个大家认为的“卷”的生态中,对行业的领先者来说其实是件好事,可以促使他们创新、改变、接受新的事物,不断提升自己的能力。至少我从企业的角度来看,感觉目前的市场局势还是很好的。

顾翠萍(主持人):如今,国内的药物研发企业已经不再是简单的follow国外的协议,而是越来越多地转向自己做创新靶点或者创新分子的趋势。

如何帮助国内的客户在国外做临床,或是实现真正的出海?从你们的角度,如何更好地帮助客户既做到创新,又能够derisk(去风险)?

刘寒松:刚才讲到热点在转移,创新出海是一个中国生物技术公司当下需要回答的问题,在过去这是一道选择题,如今已经变成了必答题。

出海后,将面临一个全新监管环境、复杂的临床体系,以及人才的空缺,如果想要自己来做研发,首先要找到合适的人才。

Novotech过去几十年服务的对象一直都是生物技术公司,在创新这方面有自己的看家本领。Novotech有五十余人的全球专家团队,帮助创新药公司制定全球医药研发的策略和计划。

尤其是规模相对较小的生物技术公司,他们的资源部署更多集中在科研方面,那么在推动全球临床试验的时候,更需要全球化的专家。

从CRO角度来讲,如何切实地反映我们的价值,如何帮助生物技术公司进行全球临床实验,帮他们制定一个满意、可靠、低风险的全球临床试验的方案,是非常重要的问题。

我个人觉得,对中国生物医药公司来说,出海是一个很大的挑战,在全新的环境里,他们需要一个可靠的合作伙伴,根据他们的实际需求提供帮助。Novotech本身在这个领域是一个很好的公司,有着丰富的经验。

刚才很多话题都谈到“交付”,特别是全球的交付,不仅仅需要做一个计划,更重要的是如何把方案执行下去。

临床CRO面临的挑战是,不仅仅需要一个location,特别是在做全球实验的过程中,在目标国家、地区都要进行布局。

除了人才之外,还要对监管部门有深刻了解和和丰富的沟通经验,你的方案进入这些国家、地区推进的时候,才能有效执行,才能够根据新的临床数据与监管部门进行沟通,调整方案,使其推进得更快、更有效。

最后一个重点是新技术。虽然目前的很多新技术,还没有充分体现出作为临床CRO的价值,但是我认为这是大势所趋。未来,这些新技术会帮助药物研发创新、出海提升效率,降低风险,推动行业的发展。

Novotech不仅仅是自己参与、投入,也会有相关的合作伙伴,全球临床资源和创新药的开发上一起帮助生物技术公司走得更远、效率更高。

赵静:我感受到的客户对于临床前动物CRO的需求,其中一项就是“多快好省”,我们基于这一点做了很多服务和能力的建设。

顺着大家讨论的“如何让公司的产品顺利出海”这个问题,向上游去推,早期研发和靶点选择的阶段有更多内容要思考。

比如领域、靶点,在早期阶段其实是最重要的选择,这关系到后期最贵、时间最长、风险最大的临床实验是否能够成功,是否能够产生巨大的价值。

早期的筛选到底是否有效,是如今很多新药研发公司应该去深入思考的问题。

在这样的环境下,我们作为专注于做模型研发的公司,也需要以终为始进行思考,现在的动物模型最终给新药研发带来的价值应该是什么?

既然生物医药大健康最终是为人服务的,那么动物模型是否真正能够更好地模拟人?如果不能,就会造成在临床前的实验中成功率非常高,但是在临床试验中成功率、通过率仅为个位数。

我认为导致这种现象的原因是前期筛选模型时与人的差距过大。既然找到了这一痛点,作为一家做模型模拟的公司,我们仔细分析人和动物之间的差别。

正如此前王院士提到的基因多样性,寿命与基因直接相关,人的基因多样性、生存环境、代谢环境、微生物环境等等,都跟在严格条件中饲养的动物有巨大的差别。

这样的差别能否被弥补?能否重新将动物的多样性和人的发病机制的多样性模拟回模型当中?能否将病毒、微生物等对人类疾病发生发展的影响重新引入?这是我们目前正在关注的事情。

我们只有更了解生物学,了解发病的机理机制,才能了解怎样更好地模拟人,怎样构建更真实的平台,最终为CRO价值创造去服务。

行业的另一个趋势是整个大链条的连接。比如,以前做临床前CRO时,与临床的结合较少,但是现在我们会和临床CRO共同进行很多探讨,我们希望通过动物的临床实验来探索人的临床试验设计,寻找这一过程中遇到的痛点,尝试在临床前进行模拟。

顾翠萍(主持人):最近比较火热的ChatGPT语言大模型应用在生物医药行业能够发挥怎样的作用?

温书豪:我觉得ChatGPT以及大语言模型是每个行业企业都应该关注的问题,我们也看到了其中巨大的机会。就像四年前,很多结构生物学家不相信AlphaFold的蛋白预测,但是四年之后大家看到AlphaFold、AlphaFold2的蛋白预测已经进入了新的阶段,曾经困扰科学家很多年的研究难题,现在只需要几个月就能解决。

GPT这个新事物,现在很多大厂现在都在推,但实际上在细分领域中,比如生物医药领域,反而会有独特的机会。

接下来我从技术以及业务的角度谈一谈我们看到的东西以及做的事情。

首先从技术的维度来说,数据和算法,两种因素都很重要。

为什么说这个方向非常跨界,有难度,未必大厂能在这个方向有机会?算法需要底层逻辑,因此大分子的大语言模型会有很大的机会,比如蛋白质氨基酸序列,它天然近似语义的文本就非常适合GPT的模型。

此外,对分子相关作用的理解其实有一套独特的算法。大语言模型并非仅仅仅依靠语言数据来工作,如果是将代码输入进去,它的理解、逻辑推理就完全不一样了。

生物医药分子的发现、分子的生成、蛋白分子生成、计算机模型,这些是我们很擅长的领域,如果把这些内容和数据一起放在大语言模型中,取得的效果与盲目的大模型训练也许是完全不一样的,我们对专业领域的理解,是算法维度的门槛。

第二是数据的维度。为什么AlphaFold能成功,它底层有一套基于自建数据的理解,蛋白质结构预测,归根结底是一个物理和能量范畴的科研问题,可以通过大量算力的调集、大几百个GPU,自主获得巨大的数据来实现。

这就是为什么我们也进行了自主产生数据能力的布局,通过高精度、高准确率的预测算法与硬件的优化,我们能规模化地积累自建数据,基于对药物分子,包括最核心的有效性、安全性等问题的累积,让AI获得远超人类经验的理解。

此外,我们还自主打造了规模化的实验机器人。为什么做这个?机器人做实验非常标准化,会产生很多有意义的正向数据,而且非常容易规模化。

传统的试验机构要招成千上万的员工难度很大,但机器人从五百台发展到五千台的速度会很快,这些标准化的实验机器人夜以继日地做实验,会产生非常多的数据,这对于AI、GPT模型都非常重要。

从技术的维度来看,算法侧必须要有跨不同行业的算法的理解,同时药物这件事情不只是算法,还要把药做出来,所以需要很多真实世界的数据,我们认为这种标准化、规模化的实验机器人与AI结合是非常重要的。

第三是业务的角度。举个例子,我们有FTE(全职人力工时)的研发服务, 一个研发博士+GPT的工作产出和人效,相当于传统方法下的五个博士,在项目过程中会产生完全不一样的效果。

从工具上考虑,过去使用过很多非常复杂的算法和模型工具,现在通过ChatGPT这种工具,只要简单地做出一个指示,针对是什么靶点、要产生什么样的分子,它都可以直接调用这些复杂工具,达到很好的效果。

所以,在业务角度也有很多很好的机会。

在最终的落地阶段,有一些欧美大厂都搞不定的非常复杂的靶点,为解决这些问题,我们通过与沈向洋院士所在的IDEA研究院建立合作,开发了新的抗体结构预测算法。

在AlphaFold无法胜任的难点领域,我们的算法比现有的最优算法还要准90多倍,能帮大药企把靶点结构解析得非常清楚,找到了正确的结合口袋,能够为药物研发打开了前所未有的新可能。

此外,我们的一家孵化合作企业,莱芒生物,正在利用AI技术优化细胞因子。在CAR-T疗法方面,可以做到只需要过去5%的药量就能够实现临床治愈。

我们现在有两个IIT临床的病人已经被治愈,仅使用了5%的药量就能完全清除复发的淋巴癌。5%的药量意味着也许未来可以将昂贵的CAR-T治疗的价格减到30万以下,甚至纳入医保。

莱芒生物还在利用AI对于细胞因子继续进行深入的定向优化和改造,甚至可以实现将细胞因子亲和力提高数百倍。

当AI理解如何设计一个长效、高效的细胞因子后,将在药物设计中发挥巨大的作用和潜力。

顾翠萍(主持人):请各位简单地用一句话总结一下你们对CXO所处的行业的展望或期待,我们如何把这个行业做得更好?

赵静:我的期待是,大家更关注生物学,关注什么是大家最终要做的事(促进人类健康),投入更多的资源,做这件事,做难而正确的事情。

杨蕊:真正的创新药发展是一定需要专业的CXO作为合作伙伴的。我们自身作为CXO行业,也需要努力做好自己的基本功,沉淀更好的技术,做好整体的业务能力建设。这样的话,才能够在目前很好的形势之下,以终为始,水到渠成。

温书豪:AI在生物医药行业会成为未来的基础设施,晶泰科技能够赋能生物医药企业,包括CXO,特别是能帮助CXO把毛利率和人效比做高,让整个行业更加繁荣。

刘寒松:CRO是一个服务行业,所谓的服务行业,就是要根据客户、市场的需求,不断调整策略,从而更好地服务客户。

由于市场存在不同的细分领域,所以企业要打造自己的核心竞争力。对于Novotech来说,就是如何在全球布局的前提下,保持我们服务生物技术公司的灵活、快速、专注的基因。

正如温总所说,如何利用新的新科技、新技术,更好地服务好我们的客户。

顾静良:一个好的企业发展离不开生态,昭衍新药积极地帮助整合、支持我们的同行,真正地做到发挥CXO的核心价值,完成整合之后助力新药研发,这正是我们想要营造的行业生态。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/bvB5NHcWuwEA5MEt.html#comments Fri, 26 May 2023 14:28:00 +0800
北大药学院刘振明:创新药时代,「恳请」企业与科研院所一起成长| AI制药十人谈 //m.drvow.com/category/shengwuyiyao/tvnwat5G6ud6cEx3.html

“AI的应用场景很多,但是AIDD最佳的应用场景是品种交付。现在很多AIDD公司的理念、研发路径、战略都不一样;如果拿中国历史比,现在更像春秋时代,连战国都还没到。”

刘振明博士是北京大学药学院研究员,国家化合物资源库北京大学负责人,是我国抗肿瘤创新药物研发和AIDD领域的科学家。前不久,刘振明研究员在与雷峰网&《医健AI掘金志》的对话中,表达了他对AIDD制药的一些个人看法。

作为一名北大培养出的科研工作者,从在北大药学院学习药物合成,到北大化学院学习药物设计,再到法国实践药理学,刘振明研究员认为,多学科的融汇学习,促使他走上药物设计方法和候选药物发现这条路。

2005年8月至今,刘振明研究员在北大药学院药物化学系任教,相继参与北京大学药学院分子设计平台和化合物库的建设。目前,北京大学正在打造“智慧药物研发平台”,对接创新药物发现重大国家战略需求。

随着医药体制改革的不断推进和创新环境的不断改善,中国已经进入创新药时代,顶层制度设计为迎接创新药研发铺平了道路,积极开展和建立人工智能驱动的创新药物研发(AIDD),成为新一轮产业变革的核心驱动力。

然而现实情况却是,自从2012年Exscientia注册成立,AI制药开始在全球萌芽,至今已经十多个年头,依然没有一款AIDD“独立”研发的药物成功获批上市,甚至进入临床试验的药物都凤毛麟角。此外,部分进入临床阶段的药物是否全流程基于AI设计还存在争议。

在刘振明研究员看来,“AIDD不是谎言,按照AI研发的药物规律,乐观来讲,给这个行业5-8年时间,能看到一波AIDD设计出来的药物,至少做到让传统药企眼前一亮。完成这历史性第一步的,未必是现在公认为最好的AIDD公司。”

近日,雷峰网&《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。以下为我们与刘振明研究员的对话内容,雷峰网&《医健AI掘金志》做了不改变原意的编辑与整理。

雷峰网:作为一名北大培养出的科研工作者,从在北大药学院学习药物的合成,到北大化学院学习药物设计,再到法国实践药理学,您何时尝试在药物设计中使用计算机技术?

我本科是北京医科大学(现北京大学医学部)药学院药物化学专业,直博保送到北京大学化学与分子工程学院物理化学专业。虽然是物理化学,但总体来说,五年博士学习更侧重计算化学。当时和我一同入门的有4 个博士生,一律都进入了计算机模拟方向。入学第五天,我跟师兄就到了国家气象局接触到了曙光大型机和超算,从那时开始,我就尝试将计算机辅助手段用于药物研发。

2005年毕业,我回母校效力,碰巧当时北大药学院要建设计算机辅助药物设计(CADD,computer aided drug design)平台,这就成了我留校任教后的第一个项目。自然地,CADD就成为了我的研究方向。

后来我到法国做了一年半的访问学者,主要工作是熟悉神经药理学研究的一般流程和规律,进一步熟悉和了解药物研发的过程。

为什么要做这个研究?在此之前,我有幸参与了国家“重大新药创制”科技重大专项的启动和实施工作,那时候我就发现:新药研发一定会成为中国未来10~15年的重要发展方向。我进一步梳理自己的知识背景,发现我本科更多是做合成,博士是计算,所以我到法国,主要是为了补充和完善自己在药物研究方面的知识和认知体系。

为什么选择药理学?实际上,药理学对药物研发非常关键,很多人将药理学定义为一个“桥梁学科”,联接基础研究和临床研究。所以我经常感慨,我是站在了“计算机科学”和“生命科学”的分水岭上,同时看到了两边的发展情况。

现在随着算力的提升,AI真正走入药物设计领域,证明国家的判断方向是正确的。

AI其实并不神秘,在我们圈内一些老师看来,简化一些讲,AI就是定量构效关系,完成各种各样的定量关系。只不过当时我们用“已知模型框架”做算法和软件,后来出现了以“深度神经网络”为基础的工具,比如AlphaGo,AlphaGoZero。

从我的经历看,8年前CADD还不是那么火热,但正如当初预期,现在风口来了,CADD的能力逐渐显现出来了,用了AIDD这个词。但无论叫什么名字,药物研发的门槛还是蛮高的。

目前大家比较担忧的是很多闯入“AIDD”这个领域的人是不懂药的,以化学药研发为例,至少要懂药化、药理,否则光会玩程序,算出了一个binding(用于配体结合位点的检测,ligand binding site,LBS),就认为解决了药物发现的问题,这是比较危险的“乐观”。

雷峰网:近年来,您在知识库构建上做了很多工作,为什么决定从数据出发做工作?

我们在数据库上做了两个重要工作。一个是“通用知识的海洋天然产物数据库”(CMNPD)。这是北大药物设计研究室与北大计算机技术研究所等多家机构合作构建的,面向化学知识库自动生成的高效策略平台。

以化合物的结构为主索引,在结构信息、制备(来源)信息、谱图信息、科研人员信息、开展工作的科研实体等方面实现了自动化提取与整合,目前加工效率达到每天超300篇文献(大于每天10000个结构)。

特别是在针对复杂天然产物数据库的构建中,一个月内就可以完成数年非冗余海洋天然产物数据库的构建与标引工作。

另一个是参与到北京大学张陆霞研究员所承担的重点研发计划“生物与信息融合(BT 与 IT 融合)”重点专项:“基于AI大数据驱动和可信安全计算的创新药物筛选系统研发与应用”,前不久启动会在北大医学部召开。

回过头看,我们为什么要做这些数据库项目?

因为早在五年前我们就意识到了数据的重要性。当时我们也在用别人的数据,虽然能拿到一部分数据,但是底层数据是触及不到的。所以即便我们的能力再高,在下游的模型搭建上只能做一些修修补补的工作。

但这五年以来,我反而对自己做的模型和方法更有信心了,因为我们直击的痛点是“自主可控的原始数据”。只有自主可控的数据,才能使得模型自主可控。

目前我们的CMNPD数据平台上线后,一年内达六万点击量, 90多个国家访问。不同人的需求对接过来,我们首先会问他们要做什么问题?所以很明显,数据成了我们的护城河。

总体来说,后信息时代的生物医学研究,使整个生命科学领域都面临着学科整合的问题。只有整合,才能避免科学研究中的“盲人摸象”,而不同学科之间整合的基础和最优途径,就是结构化的知识和数据。

所以现在我有一个判断:未来“基于数据的科研”可能会超过“基于实验的科研”,效率和维度都会提升。而且大家也意识到,基于高维数据可以俯瞰整个学科,这要和翻阅某一学者的一篇文献或者若干篇文献,或者基于自身知识体系看到的东西不一样。

雷峰网:有人称,AIDD一定会成为药研专家必不可少的工具,这也意味未来数据一定是“兵家必争之地”。目前您在这方面有哪些准备?

大家都知道,数据很值钱,但如果仅仅把数据存到硬盘上是不值钱的,那是死数据。所以近年来,很多人想用联邦学习解决这一问题。

但联邦学习最大的问题在哪?

它本质上是一种加密的分布式机器学习技术,可以在不披露底层数据和加密形态的前提下共建模型。但在实际使用中,如果只是做了数据接口,并不能解决数据稀缺的问题。

首先,联邦学习使用的数据,大部分都是拷贝数据,甚至有些数据清洗完丢失了很多信息;

其次,由于联邦学习的数据光有接口,没有打通数据内部,所以“模型拿走数据留下”的理念具体实施起来非常难。

此外,国内搞了很多数据汇交,数据中心,但很多时候这些也都是“死数据”。

举个例子,ACS(American Chemical Society,美国化学学会)是世界上最大的科技协会之一,涵盖了20多个与化学相关的学科,是全球被使用次数最多的化学期刊源之一。

为什么ACS这么受欢迎?因为ACS的一大特色,Article References可直接链接到Chemical Abstracts Services(CAS)的资料记录,也可与PubMed、Medline、GenBank、Protein Data Bank等数据库相链接。

但ACS的创立时间是1876年,有150年的发展历史,现在ACS为了让数据流动,每年几乎花费4亿美元从全世界找人往里面敲数据。

这个事情中国现在干不了,我们和国外的差距,一是时间沉淀,二是资金支持。

因此,大概在五年前我们定了一个原则:绝对不做人工的事情,要做主动数据采集,不能做被动的数据获取,而且要找一个和AI技术结合得更好的数据解决方案。

我们现在认为自己做的还不错的是“面向结构的生物医药大数据生态社区”。这个社区的建设不依靠人工,首先是太过昂贵漫长,其次是依赖责任心和主观判断得到的数据也不可靠。

我们采取了几种方式:

第一,自动化数据主动采集。

我们不会让研究者自己去上传数据,而是采用光学识别技术(OSR,Optical Scanning Recognition)、语义识别技术(NLP)在内的AI策略,自动且高效抓取数据和构建知识库

第二,打造“面向学科的数据知识信息体系和社区”。

比如某位研究海洋天然产物的学者发了200篇文章和专利,我们只要把他的200篇文章和专利做结构化,就能很快推出一个免费的知识库。他本人也不再需要使用excel或者word工具去做标记,而是邮箱或账号登陆,马上就能看到结构化信息。

更进一步地,他可以再次利用自己的已有知识做分析或补充,并获得相应的积分,再去换取别人的知识和数据。通过我们的初步实践发现,这也许才是打造一个高质量知识库的更好路径。

事实上,结构化数据库已经成为我们研究小组的根基。虽然占比不大,但是自从开始做这个方向后,我们愈发看好这个方向,也计划在这个方向上投入相关的人力、物力。期待未来在药物研发的某个细分领域做出类似ChatGPT的工具。

雷峰网:北大在药物设计上非常开放,建立药物设计研究室,生物医药大数据库和生态社区,药物设计-信息与情报分析中心、“智慧药物研发平台”,与杭州市共建创新应用基地,以及前不久和10家单位共同开发创新药物筛选系统。您在这一过程中也进行了不少跨学科合作,有哪些课题可以分享?

在AI方向上,北大前不久刚刚获批教育部支持建设的“中国首个智慧药物研发平台”。这个平台包括了智能设计、智能合成、智能检测,智能筛选等四个模块,都可以对外合作。

我们正在跟晶泰科技洽谈,希望将他们的智能化自动化实验室,发展为我们面向特定合成方法的、训练模型的“数据产生器”。

如果将来面向单步合成的条件筛选一天能产生1万个数据点,一年就是365万个数据点,某种程度上就可以破解国外的数据壁垒或数据封锁。

除了扩大数据生产渠道,在数据标准上我们也有对外合作。

比如,我们跟望石智慧成立了“北大医学-望石智慧AI生物医药数据技术协同创新联合实验室”,在此基础上合作孵化了一些高质量的数据产品,并开发了一些面向业界的解决方案。

实际上,我跟望石智慧的创始人周杰龙先生在2017年6月就有过交流。我们之所以一拍即合,第一,我们都认清了一个问题,AIDD最根本的东西是数据、高质量、自主可控的数据;第二,AI的盈利模式很多,但是AIDD的盈利模式一定是药物品种交付。

我特别希望这个行业中有更多的公司成长起来,所以我以及北大团队都非常开放,我们和很多药企都有学生联合培养,比如泰德制药、普洛药业、望石智慧。

我接下来要讲一句话:中国现在已经进入到创新药时代,很重要的一点,我们“恳请”中国的创新药企业帮助中国的科研院所一起成长,把我们自己的创新药研发能力提升上来,进而服务于企业的药物研发。

我现在基本上每个月出差三次以上,主要工作就是和业界、医院沟通,包括我们很多项目都是跟企业、医院一起申请的。我们课题组算是跟行业、产业结合比较紧密的实验室。

这也是北大的一个理念:给企业提需求,高校建高地。我也经常跟学生讲,我们做任何事,一定要面向需求,就像习总书记经常告诉我们科研人员的那句话:广大科技工作者要把论文写在祖国的大地上,把科技成果应用在实现现代化的伟大事业中。

雷峰网:从您自己的研究经历出发,您觉得现在AI制药人才应该如何培养,还有哪些不足和问题?

我个人感觉AI制药这个概念热得太快。AIDD绝对有用,但需要一个发展过程,往后再看5年到8年,AIDD对于药物研发和智能医疗的作用一定不可估量。

为什么需要 5 到 8 年?实际上,这就是AIDD领域中的技术积累和爬坡的过程,而且这个过程必然要有,学费一定要交。

对学校的科研团队而言,科研经费比较充足,不那么迫切,但对于AIDD从业者和投资人来讲,大家都要有一些耐心。我能肯定的是,未来AIDD的收益一定会超过传统的药物研发,而且周期一定会缩短,但也绝对不会像医疗器械研发那么快。

回过头看人才培养,这个领域快速热起来,我挺高兴也挺担忧的。

一方面这个领域非常缺人,另一方面AIDD在过去属于小众学科,人才输出量没有那么大,能够培养到博士的人才更是少之又少。

但是让老师们非常尴尬的是,即使是一些在校期间水平不高的学生,因为沾上了一个概念,薪资不不低。现在一个硕士的月薪炒到3万以上,一个博士月薪炒到5万以上,高校培养人才蛮难的,人都抢光了。

雷峰网:国外有些基于AIDD的新药推到了临床一期,您觉得截至今天,进入临床的分子里面有哪些是没有AIDD,专家就无法设计出来的吗?AIDD的重要性是否会提高?

首先回答第一个问题,AIDD能够赢过专家?

大家可以这样理解,药物开发在某种程度上是“大海捞针”,那么AIDD在内一些新技术、新策略的介入,是让“捞针”的准确性稍微高点。但这个任务的本质没有变化,它依旧是大海捞针。所以如果把一个药物的发现过程倒回去,再重新做一遍,有可能就是变成了另一条路径。

药物研发中的影响因素比较多,是因为药物研发本身的链条很长,涉及数据、法规、主观因素,绝对不能说“没有AIDD,药物就发现不出来”。如果真的如此,那之前很多药物都是怎么来的?

但与此同时,AIDD的作用也在逐渐提高。

现在我们经常在讲,要做基于临床需求的、新技术驱动的创新候选药物研发。没有临床需求,药物研发就是“无病呻吟”,没有落脚点。

举个例子,之前有个新闻说到一个生理学家的女儿患了罕见病,无药可治,这位父亲就去学习药学知识,了解这种罕见疾病的临床表现,再利用自己的已有手段,结合新技术,完成整个药物发现过程。

所以这位父亲是有了主观动力,才想去解决具体的临床需求。但如今的行业现状是,新技术有了,但70%的疾病依然没有临床治疗药物。

第二个问题,AIDD的重要性是否提高?

我做一个推断,未来5-8年,大家会看到AIDD参与到药物发现过程中的证据或痕迹。那时候人们会惊叹AIDD的巧妙:“为什么计算机能发现,我没有发现?”

如果AIDD能给一个传统药物学家感受到惊喜,那它就是有优势的。所以我们是两边站的,我们愿意去接受一些新技术,期待它能超越我们。

不要说AIDD赋能整个药物研发链条,只要它能解决其中某一个环节,把这一个环节做好,在大家倒推结果的时候,发现这个工具确实是充分必要条件,就足够了。

雷峰网:AIDD和CADD,或者说AI方法和物理方法,各有什么优缺点?您认为未来二者的关系是什么?

这两个词怎么理解?CADD的全称是computer aided drug design,计算机辅助药物设计;AIDD是AI drug discovery,人工智能辅助药物发现。

业界在讲,“为什么以前叫CADD不热,叫AIDD就突然热了?”

解释一下,CADD是先预设一个模型,这个情况下需要加入专家经验。

比如我认为它是S型模型、二元一次函数,都是我给它预设一个模型之后,再用数据去训练它,最后把这个模型变成方程,并应用到具体的领域中。这也是早期机器学习的基本思想。

那么AIDD是什么?它不用做预设,给它一堆数据,直接就能基于深度神经网络学习一个模型,机器学出来什么算什么。这个过程当中,当加入新数据时,它能够自动做优化。

大家知道迁移学习(Transformer Learning),它最大的作用是以任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。

例如,有了英语的语言模型后,后续只需要提供法语法规则和小样本数据,就可以很快帮你生成法语的语言模型。

但是AIDD的短板也很明显--只要有数据,它始终能给出答案。但是基于10个数据和基于1万个数据的答案是不一样的,但总会有“答案”。

因此,对AIDD来说,它和CADD一样:大量的、高质量数据是刚需。

基于这一点,我始终认为,CADD和AIDD没有本质性的差别,本身就是一体的,只不过业界或投资者有意把它们割裂了。至于各自的优缺点,业界的观点不太一样。

但只要有用,它们可以融合互补。比如目前数据不足的情况下,CADD肯定有优势,因为它的一部分模型是基于专家系统做出来的,普通人的知识很难企及。

而在数据足够多的时候,当数据本身可以涵盖或者超越专家的认知,AIDD的优势会更明显。这也是我们看好AIDD的一个原因。

但是现在行业里太多人爱蹭热点,包括最近GPT-4.0出来后,有些AIDD公司一周内就推出了所谓的“DrugdesignGPT”,这种跟风做出来的东西意义不大。

第一,达不到预期,自己和资本方失去信心;

第二,对药物发现的本质和核心路径的改变并没有实质性贡献。

雷峰网:针对国内创新药研发现状,目前还是 Fast follow 居多,或者是 me too ,me better,这种情况下最需要AI去解决什么问题?

首先我们要回归到一个本质问题,AI最大的作用在哪?

当给它40%的数据,AI有可能基于40%的数据产生一个模型,找到另外60%数据中的缺失点。现在我们比较看好AI模型,因为早在2016年和2017年,AlphaGo和AlphaGoZero已经展示出AI的“创造力”:当给它足够多的棋谱数据之后,它能够创造新的棋谱。

现在我们在跟国内的药企去聊,发现大家都形成了一个基本共识:Fast follow没有前途,很多药企提出新的创新药口号,“我们要做世界前五,中国前三。”

为什么?

因为中国已经被迫进入创新药时代,顶层制度设计为迎接创新药时代铺平了道路。

2018年3月,十三届全国人大一次会议表决通过了关于国务院机构改革方案的决定,组建国家医疗保障局和国家市场监督管理总局;

2019年1月国务院办公厅印发《国家组织药品集中采购和使用试点方案》的通知,确定将在4个直辖市和7个城市进行带量采购,涉及31个指定规格的采购品种。

2021年7月,国家药监局关于实施《药品专利纠纷早期解决机制实施办法(试行)》相关事宜的通告,预示着未来Fast follow生存空间变小,Fast in Class势在必行。

而且当中国进入创新药时代后,不管你愿意面对还是不愿意面对,都要面对。

像我们国家非常好的某家药企,2021年裁员了仿制药员工,根本原因是Fast in Class和Fast follow的思路完全不一样。

前几年创新药企业的日子比较好,某医药企业登陆港股市场,但上市来研发跟不上,对投资人的信心也有打击,最终结果是大家对创新药投资比较悲观。

但是再悲观,创新药时代已经来了,现在的重点是找到一颗好种子。

以前做仿制药,大家在找种子这件事上不愿意花钱,捡别人的就行。按照以前的药物研发生态,做成歪瓜裂枣也照样有人买。

现在你会发现,如果没有一个好种子,你的努力全部白费,市场和监管层都不可能认可。

因此,如何找到一颗好种子,需要“新技术、新策略驱动创新药候选品种研发”。实际上,AIDD就属于其中的一种新技术。我们比较看好,未来AIDD一定能够在创新药研发过程中赋能。

同时,我不想把AIDD单独拿出来说 ,因为它就是一种赋能技术。

我们也是亲历者和践行者,它一定能够起到作用,存在一条上升曲线,具体发挥什么作用,业界和投资界都稍微给点耐心。

雷峰网:自从2012年首家AI制药公司成立,至今已经第十个年头,但是依然没有一款药物成功获批上市,甚至进入临床试验的药物都凤毛麟角。AI研发的药物距离上市还有多远?

实际上你们看到的,跟我们看到的一样。所以我对行业的一个忠告,现在AI制药企业正处于艰难期,在资本和外界都很焦虑的情况下,一定不要为了应付“考试”,说出一些莫须有的话。

AIDD这个东西不是谎言,按照AI的药物研发规律,具体还有多长时间上市,我不能直接回答你,乐观来讲,给这个行业5到8年时间,就能看到一波AIDD设计出来的药物,至少做到让传统药物厂商眼前一亮。

现在以药学驱动的公司,或者围绕药物研发的公司太少。

有一个数据,截至2022年底,国内已经成立了73家AI制药公司,大部分都是IT背景的创业者转过来的,他们仍然是“互联网+”的模式。真正的AIDD,我想一定是药学家牵头的,叫做“药学+AI” 的方式。

可能在投资人看来,第一,药学家自己不敢吹,第二,药物家相对比较保守,这帮人知道药物研发这个任务有多大,也知道其中有多少变数。

但是现在很多AIDD制药公司的理念、研发路径、战略都不一样,如果拿中国历史比,现在更像春秋时代,连战国都还没到。

当然,我也对AIDD的未来充满信心。因为整个医药研发体系分为两个阶段:以PCC为临界点,前端为research研究;后端为development研发。

中国的后端研发体系很强大,特别是相对于欧洲,只要PCC之前的东西做好,中国至少在全世界排名前三没问题。所以中国药物研发的最大问题在于,前端的基础研究没有做好,根本能力提升不了。但只要种下一颗好种子,药物研发领域的信誉就建立起来了。

这也给我们高校老师提出的一个要求。对于产业也是一样,好种子种活了,整个产业都是得利的,所有环节都能打通。

雷峰网:目前AI制药公司大都进行到什么阶段,还有哪些痛点没有解决,技术瓶颈在哪?

瓶颈倒不在技术,是很多AI制药公司没有真正的做过药物研发。

我个人观点,IT驱动的AIDD公司,软件产品乃至服务都不是产业想要的东西。

其次,现在AIDD从业者, IT人很多,但是真正参与的临床专家、药学专家还太少。当然,一些公司可能是为了融资,找了一个做药的人站台。但实际上做药物研发,并不是靠一个药学背景的人就够了。

此外,IT人创立的公司,基因是IT的思维,药企人可能融不进去。未来需要让更多的临床学家、药物学家加入到AI制药中,由他们来攒局,创立IT公司,或者招募一批IT人才,解决药物研发当中的数据、知识,以及模型的问题。这样才能真正的触及AIDD技术,促使它面向产业,面向研发任务。

现在有个声音:未来会死一批AI制药公司。

因为很多公司用互联网思维做药物研发,互联网思维做消费是可以的,它们叫“高举快打”,但是在药品研发领域,药物研发的周期太长,速度太慢,“互联网+”这种方式不适合,半天到不了终点。

雷峰网:针对创新药,国内在这一领域还存在哪些薄弱环节?

有很多,最直接的是国家提倡的基础研究没跟上。

我们为什么会follow?说到底是别人有了,我们一做就是follow。原始创新太少。

比如靶点发现,人家敢做,我们敢做吗?

人家敢做,是因为背后有大量的研发数据,证明这个东西跟疾病密切相关。但试想一下,你一做之后,人家不做了,你心里是什么滋味,肯定很慌。这就是说,如果没有原始创新,你只能永远被迫去做follow。从国家层面来讲,基础研究是一个长期的事情。

同时,中国的优势也很明显:人口优势。这是西方所不具备的。因此我们的重要工作,是面向临床做原始药物发现。此外还有一点,要推动中国特色的创新药物研发,要制定我们自己的临床药物评审原则。

雷峰网:新药发现太难,很多百年药企巨头的爆款药物很多是靠收购而来。那么AIDD公司的出现,是否会加速百年药企“药物研发”的没落?也就是说,百年药企越来越依赖外部创新,自身的创新是否愈加乏力,会不会出现一种恶性循环?

百年药企,为什么会做这个事情?

第一,有钱。

国外大药企经常一个License out能开到20亿。但小的企业做不了这个事情,包括国内大药企也做不了,仍然保持自研。

第二,百年药企的成本权衡。

国外大药企很风光,但是内部的管理成本、人员成本,要远远超过小企业。

如果他们自己培养一支AI团队,一年要花20个亿,还不如合作上花20亿和AI制药公司合作,既能收到“果实”,还有可能埋了几个“种子”。而且只要能成一个,依靠他们这种大公司的强大商业能力,一定能获得回报。

所以我和创新企业交流时会说一句话,如果你本身没有AI研发基因,还不如跟高校合作,学习大药企的思路,把原始研发放出去。

事情证明,2015年后FDA批准的新药,59%都来自于Biotech和Bigpharma的合作。

这是一个好现象。

我曾经看到一个段子,大概是说某Bigpharma几千号人,研究十年,没搞出一个新药,后来有人考证过,其实是有研究出新药的,但Bigpharma研究效率低确实也是客观现象。

与此同时,从Biotech变到Bigpharma很难,因为短期内Biotech的商业能力不可能快速提升,不靠时间和资金积累是提升不上去的,所以Biotech也会主动和Bigpharma合作。合作才又可能产生赋能和共赢。

所以这是两厢情愿的事情,目的都是一个:更快完成能力积累,推出药物并盈利。

此外,这里还涉及到药品专利保护期的问题。药品跟别的不一样,它的专利保护期非常重要,多一年可能就多赚十几个亿,少一年就少赚十几个亿。这种现实情况下也让他们更愿意合作共赢。

所以,我不认为百年药企会没落,或者AI制药公司会没落,只不过大家在药物研发和商业版图上做了更好的分工而已。

雷峰网:归根到底, AIDD的价值还是需要跟药企的合作来证明。在您看来,传统药企或百年药企巨头,他们对于AI 制药新技术的看法是怎样的?怎么去做成果验证?是否愿意付费?

百年药企对AI这种新兴事物比较欢迎。有个数字,过去五年,国外一些创新药企业已经开始关注前端研发,超过40家药企建立了跟AI研发相关的部门。

为什么它们不抵触?因为药物研发行业跟别的行业很不一样,别的行业可能会竞争,但是百年药企缺少药物品种,有人能给我更多的选择,我为什么不去鼓励呢?

另外,百年药企更关注的是自身的商业版图。这种情况下,它和AIDD公司是一种互惠互利的关系,没有理由去反对,甚至是欢迎、扶持。

但是你会发现,药企跟AIDD公司的合作,更多的是药物品种交付。药企不管你的软件有多好,能做品种就合作,签一个里程碑付费的合同。

雷峰网:最近ChatGPT 火,包括背后的AIGC技术,对AI制药行业产生了哪些影响?

我们非常欢迎新技术的出现。早在OpenAI和DeepMind两家公司成立之初,我们就有关注,这些年来它们已经分化出两种不同的技术路径。

简单来说,前者非常注重数据和语料,靠规模数据、庞大算力、充分训练而“大力出奇迹”的暴力美学,在大模型时代发挥到了极致。

后者是不搞暴力美学,大搞神经科学,在数学、物理,这些涉及抽象世界和人类深层直觉的领域长期深耕。比如2021年DeepMind与顶级数学家合作研发的AI登上Nature,找到一个几十年来都没有结局的数学猜想,2022年与瑞士等离子体中心合作开发的AI系统参与核聚变。

但实际上,它们最终解决的问题都是一个:如何让电脑看懂你在说什么,而不是简单的复述。

这个是基础,因为人工智能三个领域--图像、语音和语义。

实际上,ChatGPT代表着人工智能在语义方面已经迈出了第一步。这对于AI制药非常重要,因为这个领域的发展方向就是做“基于知识的药物发现”。

以前AI不懂语义时,我们要像一个老师一样,给AI“喂知识”。未来AI懂得语义之后,我们只需要给它“喂数据”就行,甚至是一种开源数据,不需要提前做太多规范。

另外我认为ChatGPT这些技术的出现,也迅速让AIDD行业热闹起来了,大家都在说基于GPT-4要做一个DrugDeginGPT。不管说法对不对,至少有人意识到,以ChatGPT代表的语义解析能力,将为药物研发、智能医疗带来很大的赋能。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/tvnwat5G6ud6cEx3.html#comments Fri, 19 May 2023 09:43:00 +0800
浙江大学药学院谢昌谕:AI模型缺乏泛化能力,制药仍需在传统计算框架之下 | AI制药十人谈 //m.drvow.com/category/shengwuyiyao/xZ4lkkv3OiKgaWOm.html “数据共享对药企模型的提升有一些帮助,但并不像大家预测中的那么大,有很多算法的细节仍有待突破,比如不同药企的数据存在不一致性等问题。”

近日,雷峰网《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。

浙江大学药学院教授谢昌谕在与《医健AI掘金志》的对话中,提到了欧洲的药企数据共享项目MELLODDY,指出数据共享这一模式发展中存在的局限性。

谢昌谕与AI制药结缘要追溯到2018年。

谢昌谕是具有量子物理与人工智能双重背景的学者,早年间曾在麻省理工学院、多伦多大学、新加坡-麻省理工科研中心从事理论化学、量子计算、人工智能技术在AIDD、有机材料、生物传感器等方向的应用研究。

2018年回国后,谢昌谕加入腾讯量子实验室,带领团队探索适合于量子计算技术的落地方向,从而进入AI制药领域。

“(制药领域)如果想要在近期内看到比较大的研究成果,其实更依赖于传统计算和人工智能,而非量子计算。”

随着研究的深入,谢昌谕的心态也从开始的“将药物设计作为实现‘AI+量子’计算算法的跳板”,转变为真正想要在药物设计领域做出一些成果。

在浙江大学药学院教授侯廷军的介绍下,谢昌谕加入浙大药学院。

对于更适用于AI制药的传统计算与人工智能两种方法,谢昌谕也直言其各自的利弊:

传统算法具备明确的理论,其泛化能力更强,适用范围更广,但计算速度却不够快;而AI模型目前还是难以真正学到底层的因果关系,模型的泛化能力较差。

“如果对黑盒算法进行更多可解释性的分析,将其与AI模型相结合,或许会成为未来的主要发展趋势之一。”

以下为《医健AI掘金志》与谢昌谕的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

雷峰网:您早年间的学术方向偏向量子计算、人工智能等领域,是什么时候开始转向AI制药相关研究的?

谢昌谕:2018年加入腾讯之前,我的研究背景更偏向理论化学、量子计算、量子物理这方面,2019年开始涉猎AI的方向,那时是从团队的角度考虑,要寻找一个量子计算的落地方向。

我认为从量子计算的硬件等各方面条件来看,短期落地其实比较困难,所以想尝试一下“AI+量子”这两种前沿的计算技术的结合,在一些特殊的领域中有哪些可能性,从而使量子计算技术尽快落地应用,让社会受益于这些前沿技术。

在这个过程中,我们调研了不同的行业,综合考量每个行业的特质,以及这些行业能够为社会产生的价值,还有我们团队成员的学术背景等因素,最后觉得制药是一个不错的选择。

而且根据观察,很多跨国药企对人工智能、量子计算、自动化、计算化学等各种技术兴趣非常浓厚,一些公司在这上面的投入也很可观。从这个角度来看,制药也是一个很好的方向。

我们对这项研究原本的期待是,既能进行“AI+量子”的技术研究,同时也能获得药企的认可,对药物研发做出一些贡献。

但是进行更加深入的研究之后,我们发现,如果想要在一定时间内看到比较大的研究成果,其实更依赖于传统计算和人工智能,而非量子计算。

因此,从2019年开始,AI制药就逐渐变成我花费精力最多的一个研究方向。

雷峰网:2022年,您离开腾讯量子实验室,加入浙江大学药学院担任教授,当时有什么契机使您决定回归学术界?

谢昌谕:腾讯量子实验室提供的科研环境非常好,招聘了很优秀的研究员,进行了很多领域的交叉研究,从科研上讲很有成就感。

但腾讯量子实验室的核心目标是最大程度推动量子计算技术的发展,我一开始的想法也是想要将药物研发作为一个出口,让量子计算在其中发挥作用。

随着我在AI制药上投入的时间越来越多,对这个领域有了更深刻的领悟,再加上新冠疫情的影响,我的心态发生了一些改变,从最初的将药物设计作为实现“AI+量子”计算算法的跳板,转变为真正想要在药物设计领域做出一些成果,反而不再介意使用的方法是传统的计算物理还是AI、量子。

我的想法发生变化之后,就希望在研究上能够以药物研发为中心,获得更多这方面的资源支持,恰好之前和浙江大学药学院的侯廷军教授有合作,通过他的介绍来到浙大药学院工作。

雷峰网:不久前,碳硅智慧发布了AI新药研发平台DrugFlow1.0,作为碳硅智慧算法科学家,您在DrugFlow1.0的设计、研发、后续商业探索上主要参与了哪些工作?

谢昌谕:现阶段在碳硅智慧的工作中,我希望技术层面取得一些突破,聚焦小分子药物设计方面的前沿算法,或是在理论层面的更多尝试。

比如在设计大模型的过程中如何更好地学习分子表征,如何更好地结合传统计算物理和深度学习来实现一些更具理论支撑的药物设计方案等,这些工作是更偏研究与探索性质为主。

这也是我选择碳硅智慧的主要原因,在研究上,我能够去尝试一些对药物设计可能更有价值的理论和想法,找到其中能够走得更远的可行方案;

在落地上,碳硅智慧有专业的团队和丰富的经验,能够在算法和模型的技术细节上做更多的优化,工程化的实现也更加专业。

雷峰网:在AI制药领域,传统算法与人工智能算法分别有何利弊?如何相互结合?

谢昌谕:传统算法中比较有代表性的如分子动力学模拟与结合自由能的计算,其优势在于具有比较明确的理论,我们就可以从理论的角度来判断这个算法在什么场景中是相对可靠的。

同时,这些算法的泛化能力较强,适用范围会更广一些。

传统算法也存在一些问题,比如需要使用者具备更多的专业知识储备与实际操作的经验积累,才能对算法进行研究。即便是使用相关软件,也需要较高的知识门槛。

另一个痛点则是,传统算法虽然理论清晰,但计算速度不够快,有时由于各种假设与近似的原因还是不够精准,所以在药物筛选的过程中实用价值比较有限。

相比之下,AI模型如果有合适的数据进行训练,速度会快上很多。在一些测试场景中,AI模型的效果非常精准,但是往往到了真实的药物研发场景中,大家就会发现它使用起来没有很多科研论文里描述的效果那么好。

主要原因是AI模型没有真正学到底层的因果关系,所以模型的泛化能力很差,如果没有新的数据做支持,模型就很难适应新的场景,换而言之,模型会出现一些过拟合的表现,甚至学习到数据本身隐性偏差的问题。

所以使用AI模型时,你有时候并不知道什么时候能够真正地信任它,如果对黑盒算法进行更多可解释性的分析,将其与AI模型相结合,或许会成为未来的主要发展趋势之一。

以小分子制药为例,如果结合自由能的预测,或是基于靶点口袋的分子生成,或是对先导化合物进行优化改造,将微观物理的信息融入到深度学习框架之中,这个模型就能够更好地学习到真实的因果关系或物理规律,模型的鲁棒性和可靠性也会得到大幅提升。

另一个方向则是直接用AI来加速传统计算,在传统计算的框架之下,用AI来解方程,有希望在不丧失计算精度的情况下大幅提升计算效率。

雷峰网:在算法层面,AI制药平台之间能否形成技术壁垒?

谢昌谕:如果单看一个小模型,我认为比较难形成技术壁垒。

不能形成技术壁垒其实也可能是一个好事情。

现在很多被广泛使用的模型本身就是源于互联网或其他行业,比如自然语言处理、图像识别等领域的算法,研发者将其开源之后又被AI制药的研发人员拿过来优化、使用。

在这样的大环境之下,研发者们被鼓励将自己的算法进行开源,促进整个领域的发展。

此外,如今深度学习领域有很多好的建模软件和工具,可以帮助非专家级的使用者轻松地将不是特别复杂的模型调到稳定水平。

从算法的层面来说,很难形成技术壁垒,但对于大模型而言,就比较容易形成壁垒。

虽然模型的设计思路是透明的,但是如何收集、清理训练模型所需的数据,以及训练庞大模型的技巧等等,这些复杂且大规模的工作更容易产生技术壁垒。

雷峰网:数据问题一直是AI制药领域的痛点,已经成为目前制约AI药物研发的重要因素之一。

目前已经有企业尝试建立数据共享平台,在保证数据隐私的前提下,推动药企之间的数据共享,在您看来这种合作形式是否符合AI制药平台当下的需求?

谢昌谕:如果能够实现共享数据,肯定是利大于弊的,联邦学习等技术一定程度上能够保护数据的隐私,如果药企都参与进来,就可以得到表现更好的模型。

在欧洲有一个项目叫做MELLODDY,即Machine Learning Ledger Orchestration for Drug Discovery(机器学习分类帐编排的药物发现)。

强生的子公司Janssen Pharmaceutica NV(杨森制药)是该项目的制药行业负责人。

项目汇集了杨森制药、安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、默克、诺华和施维雅等10家顶尖制药企业,两所高校,四家初创公司,以及IT企业英伟达。

该项目旨在创建一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。

在不久前的DrugFlow1.0产品发布会的圆桌讨论环节上, 也得知MELLODDY项目的一些进展。

比如,该项目对药企模型的提升有一些帮助,但并不像大家初期预测的那么大,有很多算法的细节仍有待突破,比如不同药企的数据存在不一致性等问题。

所以,并不是大家把数据拿出来共享就能马上取得很大的突破,其中还有很多困难需要克服,从欧洲的案例中我们也可以看到在技术层面需要优化的很多细节。

不过,长远来看这肯定是一件好事。

雷峰网:2022年,AlphaFold2与ESMFold分别宣布预测出数亿种蛋白质,AI技术在蛋白质预测上的不断突破,对制药领域有哪些影响?

谢昌谕:AlphaFold2和ESMFold等产生的价值是清晰可见的,无形之中增加了大家对AI这个领域能够的信心,从而持续进行资金或科研上的投入。

单就蛋白质折叠这个问题而言,目前已经取得了很大的进展。

最近特别热门的ChatGPT等生成式AI也是下一波发展的契机,将会为科研人员的生产力、科学研究的生产效率带来提升。

更具体地来看,AlphaFold2和ESMFold这一类算法,最早影响到的就是基于蛋白质结构的材料设计与药物设计,从David Baker团队的蛋白质结构设计工作中也可窥见一二。

结构预测模型使蛋白质设计获得了非常迅猛的进展,对药物递送、药物开发等工作产生了直接的冲击。

就我所关注的小分子而言,很多靶点目前还没有合适的结构,现在利用AlphaFold2的技术,大家也在探索是否可以预测一些适合进行药物开发的靶点口袋。

AI制药企业英矽智能此前就做了一些类似的工作,基于AlphaFold2进行药物开发。

这些进展都是实实在在的证明,AlphaFold2和ESMFold这些工具经过未来的持续优化,也会在药物设计领域逐渐占据重要的位置。

雷峰网:AI技术天然具有快速迭代的特征,制药却是一项战线漫长的工作,兼具这两种特征的AI制药,应该怎样融合两种思维?

谢昌谕:现在的AI技术的确发展很快,但这并不完全是AI技术本身的特质。

节奏快更多是互联网企业的特征,只是目前很多很好的AI工作都是由互联网公司完成的,可能大家因此认为所有AI技术一定都是快速迭代的。

此外,目前AI制药领域的初创公司,其实更多还是聚焦在早期药物研发的阶段,比如药物发现等等。

在这些环节中,利用AI等技术已经能够缩短研发时间,所以战线也不算特别长了。

因此,就节奏快慢而言,AI技术与早期药物研发似乎并没有太大冲突。

比较关键的是,做计算的可以不断地去试错并调整,但做药的人往往会更谨慎的去对待不同的实验尝试。

面向药物研发这样复杂的工程难题,一个团队里也应该存在不同的价值观或声音,大家通过交流,协商出更好的解决方案。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/xZ4lkkv3OiKgaWOm.html#comments Tue, 09 May 2023 15:59:00 +0800
华东理工大学唐赟:药物研发最忌急功近利,行业还需大浪淘沙 | AI制药十人谈 //m.drvow.com/category/shengwuyiyao/WLdG6VFUr110cFgB.html “有些进入AI制药行业的人,尤其是风险投资者。他们只有计算机的背景,缺乏药学背景,并不真正了解药物设计,只是在跟风炒作一个概念。”

华东理工大学药学院教授唐赟在计算机辅助药物设计、化学信息学、网络药理学、计算毒理学、计算生物学等领域深耕多年。在此次对话中,唐赟也向《医健AI掘金志》表达了他对于AI制药行业当前情况的担忧。

唐赟教授毕业于中国科学院上海药物研究所,师从中国科学院院士陈凯先先生,曾先后在瑞典卡罗林医学院、美国国家卫生研究院癌症研究所等机构从事研究工作。

2004年,唐赟回国任复旦大学教授,后受中国科学院院士蒋华良邀请,协助创建华东理工大学药学院。

ChatGPT的出现,让AI制药重回三年前爆火时的盛况。

在今年的春季GTC大会上,英伟达宣布将与三井物产株式会社(Mitsui)就Tokyo-1项目合作,通过高分辨率分子动力学模拟和AIGC等技术,提高日本制药实力;

百度文心一言首个落地医药行业的产品GBI-Bot(医药垂类对话机器人)也于近期发布,基于百度灵医智惠在医疗健康行业的技术积累,实现了文心一言与GBI专业数据库的有机结合。

越来越多的资本涌入AI制药行业,试图在AlphaFold2之后,再次借助AIGC技术掀起生命科学领域新的革命。

但繁荣背后也有声音指出,“AI药物研发领域充满了投资人用钱堆出的泡沫,很快将要迎来自证实力的过渡期。”

唐赟指出,药物研发自有其发展规律,一些投资人期待两三年就能从中得到回报,这是不现实的,AI技术驱动研发的药物距离上市至少还要五年时间。

这个行业,还要经过一场大浪淘沙。

近日,雷峰网&《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。

以下为《医健AI掘金志》与唐赟的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。

医健AI掘金志:您早在1991年研究生期间就曾进行过计算机、神经网络等在药物设计中的应用相关研究,是国内非常早期进行这一领域研究的学者,您是怎么开始在药物设计的过程中尝试计算机相关技术的?

唐赟:我本科毕业于同济大学应用化学专业,当时中国科学院上海药物研究所的陈凯先先生刚从国外回来工作不久,只有四十多岁,是国内最早一批进行计算机辅助药物设计(CADD)的学者之一。

我本科的老师说,陈先生年轻有为,有很多好的想法,跟着他一定没错,我就报考了中科院上海药物所陈先生的研究生。

我从1991年读研究生开始,到1996年博士毕业,五年的时间专门跟陈先生学习计算机辅助药物设计。

当时做这个方向研究的人很少,也很少有学生会选择这样一个方向,我那时候对药物设计也不是很懂,但是我们相信跟着陈先生一定能做出一些东西来。

一入学,陈先生就给了我几篇英文文献,是他与国外同行交流时收到的文章单行本,就成为了我的第一个课题,将神经网络方法应用到药物定量构效关系(QSAR)研究中。

当时学习这个很艰苦,能找到的资料非常有限,也没有软件,我就自己学习用C语言写了一个有1400多行的神经网络计算程序,后来用这个程序发表了3篇英文文章。

没想到神经网络现在又火起来了,变成了深度学习,并带动了AI制药的发展。

之后陈凯先先生又带领我们参加了国家“863”计划的第一个药物设计项目“基于蛋白质和核酸三维结构知识的药物设计”,其中我主要承担了两个方面的研究。

首先是“G蛋白偶联受体(GPCR)三维结构模建和药物作用机制”的研究,我们是国内最早做“GPCR同源模建”的团队。

中国科学院院士金国章教授,当时正在研究“左旋千金藤啶碱(l-SPD)对多巴胺受体亚型结构的选择性”问题,我们帮助金院士模建了多巴胺D1、D2受体亚型结构,将左旋千金藤啶碱与多巴胺受体相结合的几个场景单独取出来,用量子力学半经验分子轨道法进行计算,并探索了四氢小檗碱类似物的选择性机制,帮助金国章院士解决了这个问题。

当时,我们还与池志强院士合作,模建了μ阿片受体三维结构,并预测了羟甲芬太尼的三个可能结合位点,后来经过点突变实验对此进行了证实。

其次,我采用三维定量构效关系(3D-QSAR)的方法,为氟喹诺酮类药物的结构改造提供了重要信息。

上海药物研究所2009年上市的安妥沙星,早期的研究工作就有我的参与,研发人员在我们研究的3D-QSAR指导之下,合成了比氧氟沙星具有更好抗菌活性的药物分子。

1996年,在“863”计划十周年成果展上,上海药物所将这些工作作为成果进行了汇报展示,受到好评,并于1997年获得中国科学院自然科学二等奖。

大家以前都觉得计算机辅助药物设计离自己很远,和日常的新药研究没有什么关系。

通过我们在“863”项目中取得的研究成果,上海药物所的药物化学家和药理学家也逐渐认可了计算机辅助药物设计的价值。

如果只是口头介绍这个东西有价值,别人看不到它的效果,是不会认可的,我们必须拿出实际的案例才有说服力。

我们做了非常多类似的基础性工作,推动计算机辅助药物设计在药物研发中的应用。

同时,由于当时国内做“计算机辅助药物设计”的人非常少,我在做研究的同时,也做了很多知识普及类的工作,把国外这一领域的文献、知识写成中文综述发表出来,一共有十来篇。

1996年,我博士毕业出国后,我的师兄蒋华良院士在国内继续推动相关工作,并于2000年成立了“药物发现与设计中心”,现在计算机辅助药物设计这个学科已经发展得非常好了。

医健AI掘金志:AI制药是一个交叉型的领域,更需要具有药物研发与AI交叉背景的从业者,华东理工大学药学院在培养交叉型人才的学科建设和师资配置、教学方案等方面,您有何心得?

唐赟:我2004年回国,开始是在复旦大学药学院任教,后来师兄蒋华良院士找到我,邀请我和他一起到华东理工大学新建一个药学院。

建院时的想法就是将药物设计作为药学学科的特色方向,并且聘请多名上海药物所药物设计方向毕业的博士来充实师资队伍。

2004年的时候,国内已经有不少人在做药物设计,但还没有系统性培养学生的方案。

我们当时就已经意识到国家将来肯定需要这方面的人才,所以很早就开始培养这个方向的学生,目标就是为张江药谷培养药物设计人才。

2005年到2015年这十年间,我一直在管理本科教学,牵头创办了药学专业,将药物设计学及药物设计实验作为本科生的必修课程,成为国内本科药学专业中最早开设相关必修课程的高校之一。

从2006年起,本科生正式开始上药物设计理论课和实验课,由我和我团队里的几个教师一起授课,讲义也是我们自己编写的,还有一些配套的课程,这样培养的本科生具有较好的理论知识和动手能力,有许多毕业生后来选择在药物设计方向进行深造。

我根据多年教学经验编写的《药物设计学》教材,2020年由化学工业出版社出版;我们编写的“药物设计实验”教程则包含在我主编的《药学专业实验》中,也在2020年由化学工业出版社出版。

在研究生培养方面,我非常注重对学生专业知识和技能的培养,既强化学生的新药研发背景知识,也要修一些计算机、数学类的课程,掌握编程的基本功,AI如今已成为学生们需要掌握的基本技能。

因此,我们实验室培养的研究生都具有较好的药物设计能力,深受业界欢迎。

现在我们课题组已经培养了近百名硕博生进入业界,恒瑞医药、翰森药业、海雁医药、药明康德、康龙化成、晶泰科技等等,不论传统药企还是新兴的AI制药公司,都有我们的学生。我平时到外面做报告、讲课的时候,总有制药公司的人来问我要学生。

医健AI掘金志:在AI制药领域,您和您的团队与业界之间有哪些比较印象深刻的合作项目?

唐赟:前几年和企业的合作不太多,这几年AI火起来了,找上门来合作的人就多了。

去年我们和重庆药友制药公司建立了合作,这是上海复星医药旗下一个全资医药公司,华东理工大学有很多校友在药友制药工作,他们的董事长刘强也是其中之一。

药友制药内部做药物设计的人不多,又想做创新药,于是就回母校来找我合作。

这是一个抗乙肝病毒的药物设计研究,我们利用深度学习方法,对一些活性已知的抗乙肝病毒的分子结构进行学习,生成了一批类似的分子结构,药友制药从中选择了一部分进行合成与生物活性测试,测试的结果他们非常满意。

我们提供的这些设计分子的方法,其中有一些还没有实际应用过,不知道设计分子的效果如何,但最后出来的结果很好,他们很满意,我们也很满意,因为证实了我们方法的价值。

目前他们正在和我们谈第二个合作项目,肿瘤药物的分子设计研究。

另一家做AI制药的公司索智生物,总部在嘉兴,在上海有分部,也跟我们合作过一年多。

索智生物对我们的网络药理学方法感兴趣,将我们的方法植入到他们自己的分子设计平台中,作为他们的研究工具之一去设计药物分子。

随后他们在成立不到两年的时间里,已获得3个PCC(临床前候选化合物)分子,进展很不错。

学校和企业之间是互惠互利的关系,我们为企业提供先进的研究方法,企业为我们提供具有实际需求的课题和实验验证的机会。

以前没有和企业合作的时候,我们研究出来的方法只能发篇文章就结束了,也没办法了解它的效果。现在通过与企业的合作,能够将研究成果向产业转化方向再推进一步。

相应地,企业把他们的需求告诉我们,我们利用AI等方法技术帮他们解决难题,也能将风险前置,从而降低分子合成与后期验证的成本。

医健AI掘金志:从计算机工具到AI工具的变革,对药物设计产生了哪些推动作用?

唐赟:现在行业里很多人号称在做AIDD(人工智能药物发现),实际上却并不是真正地了解这个行业的背景知识,而是最近两三年才“改行”进入这个行业。

他们有计算机背景,但是缺乏药学背景。

以我的理解,不论CADD(计算机辅助药物设计),还是AIDD,都是做药物设计,但药物设计应该包括两个方面:一是结构驱动,二是数据驱动。

传统的CADD是基于分子模拟技术,通过计算机的模拟、计算和预测药物与靶标之间的相互作用,从而设计和优化先导化合物结构,这叫做结构驱动。

新兴的AIDD是基于AI技术,叫做数据驱动。CADD中也有数据驱动,叫做QSAR,AIDD就是QSAR的延伸,是CADD的一部分。

现在很多人把CADD和AIDD当作两种事物来看,有的人甚至将二者对立起来,这是不对的,AIDD只是CADD的一个高级阶段。

我在外面参加学术交流时一直说,结构驱动与数据驱动,相当于一个硬币的两面,缺一不可,不能把它们割裂开来。

我们在做药物设计的时候,肯定是不能只靠数据驱动这一样东西,必须要采用一些传统的CADD技术。

现在只是因为进入了大数据和人工智能(AI)的时代,才会出现这个AIDD的概念。也是由于AIDD的出现,让世界范围内更多的人关注药物研发这个领域。

我们以前做CADD的时候,默默无闻,没有人关注我们做什么,只能通过国家自然科学基金等申请一些小的科研课题。

那时候搞新药研发的企业也不多,我们想和企业进行合作也比较困难。

AIDD出现后,这个行业才受到更多的重视,找上门来合作的企业也越来越多,研究资金也要多一些。

粗略统计,截至2022年底国内已经成立了73家AI制药公司,其中大部分成立于2019年—2021年间,也为行业引入了更多的风险资金,推动了整个行业的发展。

但是我对目前的情况也有一些忧虑,很多进入这个行业的人,尤其是风险投资者,有些只有计算机的背景,缺乏药学背景,并不真正了解药物设计,只是在炒作一个概念,有些急功近利。

有人认为只要两三年就做出新药开始盈利,这是不现实的。甚至有些公司的目标并不是去做出几款新药,而是想借助这个风口吸引到更多的资金,尽早上市。

将来一定会大浪淘沙,一些企业会倒闭,一些资金会退出去,最终留下的才是真正做药物研发的企业,毕竟我们制药人的初衷是做成药,做好药。

医健AI掘金志:虚拟筛选是先导化合物发现的主流方法,去年您的团队发布的适用于虚拟筛选的wSDTNBI算法,获得药明康德生命化学研究奖,这项新研究主要解决了虚拟筛选中的哪些问题?

唐赟:这是我们提出的一个新的虚拟筛选途径。传统的虚拟筛选途径:一个是基于靶标结构的方法,一个是基于配体的方法。虽然都取得了一定的成功,但也存在一些局限性。

比如,基于靶标结构的虚拟筛选,严重依赖于靶标的三维结构,如果找不到这个靶标结构的话,最终效果就要大打折扣。

从目前的情况来看,绝大部分靶标的蛋白结构还没有被测定出来。

虽然AlphaFold2号称已经预测出2亿多个蛋白的结构,在蛋白质结构预测方面取得了很大的进步,但这些结构还存在一些问题,导致应用在虚拟筛选时成功率不太高,或者说,还难以满足基于结构虚拟筛选的需要。

基于配体的虚拟筛选,则需要依赖配体阴性样本数。

这也是我们从十几年前就开始尝试解决的问题,化合物进入人体之后并没有那么听话,不是你想让它和哪个靶标作用,它就会和哪个靶标发生作用,而是可能会与人体内的很多蛋白发生作用,使结果变得不可控。

为了克服这些局限性,我们提出了“加权的基于子结构-药物-靶标网络推理(wSDTNBI)的方法”。

基于网络推理的方法,最早是应用在社会学领域中,我们学校商学院的周炜星教授,在2008年左右就开始研究社会领域中人与商品的网络关系与推荐算法。

他发现“人与商品的二元关系”和“药物与靶标的二元关系”是一样的,因此将这一方法推荐给我们。

我们也派了学生到他的团队合作学习,一起进行相关研究,在此对周教授的方法推荐表示感谢。

后来在这些研究的基础上,我们又进行了很多改进,最终形成了目前的一系列算法,也就是我们目前的研究方向--网络药理学。

相比其他虚拟筛选的方法,这个方法的优势在于,既不依赖于靶标三维结构,也不依赖于阴性样本。

我们仅仅需要使用实验测定的“药物-靶标相互作用”数据如K(i)、IC(50)值,建立药物-靶标相互作用网络,就能够完成虚拟筛选。

此外,该方法还有一些突出优点,比如可以同时针对多个靶标进行虚拟筛选,了解化合物的多向药理学性质,运算速度非常快。

在我们的案例中,利用wSDTNBI方法仅耗费数十秒时间,就完成了超过一万三千个化合物和近两千个人体靶标之间的相互作用预测。

这项研究成果2022年初发表在Chemical Science上,算法已整合到我们团队研发的免费在线预测系统NetInfer中(http://lmmd.ecust.edu.cn/netinfer/)。

使用wSDTNBI方法进行活性化合物筛选的示意图

医健AI掘金志:目前AI驱动研发的药物有些已经进入临床阶段,您认为AI技术在药物研发过程中,哪些工作是不可取代的?相比传统手段,AI技术更高效的成果是什么?

唐赟:这个问题要从AI的概念上入手去理解,AI的优势在于,可以对大量的数据进行学习,透过现象找到其内在联系,这是人工所难以做到的。

而药物分子设计过程,实际上是一个多目标优化的过程。既要使设计的分子具有良好的生物活性和安全性,又要保证分子具有良好的化学稳定性和药代动力学性质。

这个多目标优化过程就会涉及到大量数据处理的环节,AI承担着不可替代的作用,比如QSAR的作用就是如此。

我三十年前就在做这方面的工作,那时候还没有AIDD的概念,QSAR还属于CADD的范畴,但实际上,AI就是在QSAR的基础上进行的更深入的研究,因此在药代动力学和毒性预测、分子结构生成、虚拟筛选等方面具有自己的独特优势。

医健AI掘金志:虽然已经有少数药物进入临床阶段,但到目前为止,AI驱动研发的药物仍然没有一款成功获批上市,AI技术研发的药物距离上市还有多远?

唐赟:AIDD技术在发现药物的过程中会起到很大的作用。我也看到一些统计数字,比如一个药物研发项目,从启动到进入临床研究阶段,传统管线要五六年,现在利用AI制药技术可以缩短到一~二年。

这就是AIDD的优势,主要体现在药物发现的阶段。

但后期的临床试验阶段仍然要占据很多的时间,而AI技术在临床阶段能起到的作用却十分有限。

因为临床试验的工作仍然需要人工来完成,无法依靠AI技术来大幅缩短时间。

目前市面上已有一些公司,声称旗下进入临床研究阶段的候选药物是通过AI技术研发的,却一直没有药物成功上市,就是因为后期的临床试验阶段非常困难,我估计至少还要5年才能走完这个流程。

乐观估计,未来5至10年内,应该会有AI驱动研发的药物上市,毕竟AI这个概念进入药物研发领域也才短短几年时间。新药研发有自身的规律,还需时间来验证。

在药物发现的环节,AI技术也面临着一些困难,尤其是数据不足的问题。

AIDD本身要依赖大量的数据进行工作,但在新药研发领域,目前的数据量只在中小规模之间。

在以往的会议讨论中,我也提出过一个观点,就是AIDD未来的发展需要行业内部共享数据。

但很多制药公司不会把自己的数据公布出来,这是最要命的东西,即便是自己用不上的数据,也藏得像个宝贝一样,不会拿出来和人共享。

打破行业壁垒的关键就在于数据共享,目前行业中每个人都掌握了一些数据,但每个人的数据又都只有一部分。

我们在高校做研究,也只能用公开的一小部分数据,建模只能用公开数据,这对模型的准确率影响很大,只能达到百分之八九十。

数据、算法、算力是人工智能三要素,其中的关键就是数据,数据的质量与数量都非常重要,只要在数据上取得突破,其他问题都会跟着突破的。

医健AI掘金志:您对计算生物学有十分深入的研究,三年前AlphaFold2横空出世,掀起了蛋白质结构预测领域的革命,如今以ChatGPT为代表的AIGC技术再次引爆全球,您觉得将为行业带来什么样的影响?

唐赟:AlphaFold2的出现,提高了制药领域对AI技术的关注度,以往蛋白质结构预测是非常困难的事情。

同时,尽管AlphaFold2在这方面已经取得了很大的成功,但目前也只能预测一些单体蛋白,而多聚体蛋白或蛋白复合物,以及蛋白各亚基之间的结合模式的预测,AlphaFold2目前还难以实现。

毕竟,目前PDB库中虽然有超过二十万个蛋白结构,但其中只有八万多个纯蛋白,人体蛋白更是仅有三千个,更多的则是一些容易测定的蛋白与不同配体形成的复合物。等将来PDB库中的纯蛋白结构更多一些,AlphaFold2预测的结构也会更加准确些。

AIGC技术也是如此,分子结构生成就属于AIGC的一种,通过使用者输入的结构去随机生成一些相似结构,但它也很难去产生一个完全新的结构。

AI技术就是这样,你输入了哪些东西,它才能学习到哪些东西,再据此进行新的产出。

如果我们本身所具备的数据、知识不足,AI也不可能无中生有。所以AIGC的关键还是在数据。

但AI技术目前已经能够为我们提供很多选择,并且能够在已有的相似结构中找出最好的那一个,这也是很大的帮助。雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/WLdG6VFUr110cFgB.html#comments Fri, 14 Apr 2023 18:36:00 +0800
GAIR Live | CASP 15冠军团队大论道:结构预测的下一个里程碑,将在何处? |(上篇) //m.drvow.com/category/shengwuyiyao/J080cP0FhD9VIgMX.html 在CASP比赛创建者John Moult教授看来,这一比赛从来不是闭门造车,或是学术界的圈地自嗨。

2018年,在第13届CASP比赛中,一个顶着谷歌子公司帽子的参赛选手亮相,其AlphaFold系统以最高的预测准确率击败其他参赛队伍。

2020年,在第14届CASP比赛中,这一公司再次卷入竞技场,凭借AlphaFold二代系统以绝对的优势大获全胜,并在次年将技术成果全部发表于《Nature》和《Science》等顶级期刊。

这便是如今的AI殿堂级公司--DeepMind。

从那以后,人们首次将“人工智能”和“蛋白质结构预测”两个毫不相关的领域联系在一起。而DeepMind背后的谷歌,也凭借CASP大赛织造了一张梦寐以求的医疗商业蓝图。

从业内人士的角度,这或许是意料之中。正如John Moult教授创立CASP比赛的初心,便是希望以此推动计算生物学研究,加速理解细胞构建原理和推进药物发现,最终惠及全人类。

显然,DeepMind已经蹚出了一条可参照的发展路径。

不久前,CASP 15落下帷幕,尽管本届比赛中未见DeepMind身影,但诸多华人团队参赛热情高涨,在蛋白质单体/多体结构预测、蛋白质-蛋白质复合体结构预测、RNA结构预测、蛋白质-小分子配体复合物结构预测等多赛道上夺得桂冠。

不少参赛选手直言,“这是‘后AlphaFold2时代’的首届大型同台竞技,所有选手都获得了业内前所未有的关注。”

在AlphaFold2的冲击之下,蛋白质结构预测是否还能为人们带来新的惊喜?

本届首次新增蛋白质-小分子复合体预测和RNA结构预测两大赛道,是否意味着蛋白质结构预测不再稳占“C位”?

RNA结构预测领域是否会出现如AlphaFold2一般引发革命的技术工具?

从基础研究到应用研究,人们不断讨论着在CASP 15背后行业发展的诸多可能。

近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《生物计算“奥赛”冠军团队论道:当生命科学遇上史诗级AI,何去何从?》线上圆桌论坛落幕。

本次论坛邀请了多位在CASP 15中取得出色成绩的参赛者,由上海智峪生科CEO王晟担任主持,江苏理工学院生物信息与医药工程研究所教授常珊、密歇根大学计算医学和生物信息学系博士后研究员郑伟、浙江工业大学信息工程学院教授张贵军、上海智峪生科技CTO熊鹏参与讨论。

在上篇中,几位嘉宾共同分享了在CASP 15中的参赛经历,以及在AlphaFold2冲击下,蛋白质结构预测赛道该何去何从。

在下篇中,将聚焦本届两大新增赛道:蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力,探讨当下火热的AIGC技术在AI生命科学领域的可能性。

“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。

以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理:

CASP竞赛首次引入RNA赛道

王晟:你们对CASP 15竞赛有哪些印象深刻的事情?

常珊:我刚刚看到比赛结果的时候很惊讶,虽然知道参加比赛的华人组织很多,但没有想到前几个名次都被华人包揽,这让我印象深刻。

其次就是AlphaFold2在比赛中的应用非常广泛,往年我们参加多聚体竞赛时,通常会遇到一些困难的target,大家完成度不是特别好。

但这次比赛中感觉大家的完成度都非常好,一些困难的题目今年大家也能够完整地提交,很大程度提高了大家参与比赛的积极性。

还有我们自己的赛道,ligand。我印象特别深刻的是有一个target,H1114target,刚出来的时候我也被吓了一跳,因为它有56个配体。

我看到这个题目的时候其实是想放弃的,觉得组委会把这个题目设计的太难了,配体这么复杂的情况下,原本的程序就没办法使用了,只能自己重新写很多代码来实现target的计算。

但是想到这道题目对我们来说很难,对别人来说也很难,就坚持把题目做完了,一直到凌晨才提交完毕。

最后的评估结果有点遗憾,这道题目虽然有56个配体,完成的过程非常辛苦,但是和其他只有一个配体的题目所占的权重是一样的,所以在评分的时候我们并不占优势。

张贵军:对CASP 15来说,我们其实还算是新手,之前没有参加过CASP比赛。

首先从CASP的发展史来看,AI在蛋白质结构预测方面有着非常大的推动力,从CASP 12萌芽,CASP 13发展,CASP 14突破,CASP 15发展得更加成熟。

近年来在医药领域已经有一些企业取得了比较大的成功,比如在新冠疫情的应对上。国内的高校、研究机构、企业等等,都已经开始进入这一领域,速度之快、广度之大都非常令人惊讶。

从技术的角度来看,我觉得郑伟博士、杨建益老师会更有发言权。

就我们的感受而言,在这次的比赛中,单体、多聚体、复合物这三个赛道目前还是在AlphaFold2的基础上进行,尤其是MSA上的处理。

这些MSA信息的获取实际上是这一届比赛中单体复合物结构提升的关键环节,当然,这也取决于现在的AI模型的发展。

AI模型现在发展的也很快,残差网络、注意力机制、自然语言模型等等,都很好地理解了序列与结构之间的关系。

生命系统以及任何一个生命活动,都是通过生命的语言进行,氨基酸、蛋白质、单体复合物等等类似于人类语言中的字母、单词、句子,先进的AI技术能够很好地捕获到这些信息。

在CASP 12中,一些模型的精度比较低,当时的长度基本上都在100以内,能量模型、构象搜索过程等问题都是我们的障碍。

近年来AI技术在在蛋白质结构预测方面的应用在不断加快,尤其是MSA、AlphaFold2等等。

今年我们参加的是模型的质量评估赛道,比赛的过程中我们的感受是,在目前的方法上增加一些独特的特征,然后通过网络模型去学习这些特征,就能够以比较小的算力和代价取得较大幅度的性能提升。

王晟:对于来自学术界的团队来说,和工业界一个很大的差别就是能够使用的资源的量,Google、Facebook等企业可以用几千块甚至上万块的GPU来训练模型。

但来自学术界的参赛团队掌握的资源远远不及那些大公司,要在同一个赛场上和他们进行竞争,就要更好地利用小算力、小模型取得大的进展,这是一个非常好的启发。

郑伟:我觉得这次CASP 15很有趣的一个现象是参赛的队伍变得特别多,说明这个领域开始越来越多地受到学界和工业界的关注。

这次CASP 15蛋白质单体结构预测赛道的参赛团队和CASP 14基本持平,蛋白质-蛋白质复合体结构预测赛道参赛团队增加了75%左右,上次只有不到50个队参加,这次有90个队伍左右。有很多队伍开始关注蛋白质复合体预测这一问题。

这次比赛还开设了两个新的赛道,一个是RNA结构预测,另一个是蛋白质-小分子配体复合物结构预测。这两个赛道虽然是第一次开设,每个赛道也有超过30个团队参加。

今年的CASP竞赛整体看起来变得越来越繁荣了,同时竞争也变得越来越激烈。

另外,我认为今年CASP竞赛中放出的target的难度以及fold的结构种类,相比往届有了很大的提高。

比如target H1137,是由9个不同的蛋白组成的一个超级复杂的复合体,这样复杂的复合体在CASP竞赛中应该是首次出现。

在以往的竞赛中,受实验手段限制,这样的复杂结构很难解析出来。但在AlphaFold2等深度学习的预测模型帮助下,这次的比赛中能够完成一些比较复杂的复合体。

而RNA和小分子赛道的加入,使CASP比赛能够越来越全面地展示计算生物学的发展水平。整体来看,CASP比赛变得越来越有趣了。

熊鹏:这次比赛中印象最深的事情是竟然有RNA赛道。RNA结构预测在以前相对小众,关注度远远弱于蛋白质结构预测。

RNA结构预测并不是从今年才开始比赛,早在2010年左右欧洲就组织了“RNA-Puzzles”的比赛,已经举办了六七届,十二年的时间里才积累了39个target。

对于RNA来说,每年新解析的RNA只有几百个,其中大部分都是核糖体RNA或是附庸于蛋白质的小RNA片段,不适合做一个独立的fold,因此在CASP这种集中的竞赛上,可以作为题目来呈现的新增RNA非常少。

竞赛的组织者也非常有诚意,一共收集了12个target,这是非常不容易的,我们直到比赛之前都不确定会不会有RNA题目,看到组织方给出的12个题目非常欣慰,RNA结构预测的问题会通过这个平台被越来越多的人知道,吸引越来越多的人参与进来,这对RNA学科的发展也非常有帮助。

学界团队更易受算力掣肘

王晟:今年,你们在大赛上都取得了比较理想的成绩,能否总结一下在各个参赛项目上的优劣得失?

常珊:我们今年参加了两个赛道,一个是多聚体的赛道;另一个是ligand的赛道。这两个赛道一起参加确实特别吃力,往年比赛的时候我只参加多聚体就已经很吃力了,今年又增加了一个赛道,觉得更吃力。

在比赛成果上,我们在ligand赛道的成绩比较好,是第一名。当时我们对每个target都进行了预测,每个target的配体数量不同,我们几乎都能够准确预测到结合部位,即RMSD小于5埃。并且,有很多target我们团队预测的准确度都达到RMSD小于2埃。

有一些target特别难,我们只有部分ligand预测的比较准,但每一个target都能取的比较好的结果。这是我比较欣慰的地方。

在赛后的总结中,我发现有很多做得不够好的地方,比如比赛过程中在时间分配上发生了很大的失误,我们团队人比较少,只有两个老师和一个硕士生,三个人同时参加两个赛道很难兼顾。

按照组委会的评分方式来看,比较容易的target一定要做的精度特别好才能拿到分数。

很遗憾,为了完成比较难的target,这部分容易的target我们认为结果是对的就提交了,没有去精雕细琢,导致没有拿到分数,这也是我们最终排名比较落后的原因。

参加比赛的人数少既是我们的缺点,同时也是优点,我们的沟通效率会更高,在讨论问题的时候三个人碰个头就能定下来要怎么做。

下次再参加比赛,我觉得要么把任务分解一下,多让几个学生参与进来,要么就选择一个更侧重的赛道参加,避免精力不足。

王晟:在这种评分体制下,简单题目上大家的差距不会太大,但是难题一旦搞定,一道题的差距差不多抵得上5到10个简单题目。

所以我的打法是简单题目不要丢太多分,和大家差不多就行,重点去搞定难题。

张贵军:刚刚常珊老师提到的问题我们组也同样存在,今年是我们课题组第一次参加CASP比赛,还是新手,为了准备CASP 15提前半年在CAMEO上做了很多测试,我们参赛成员包括几个博士、硕士研究生。

通过本届参赛经验,从下一届开始我们需要更好的组织。

在CASP 15竞赛中,我们参加的赛道比较多,除了RNA和配体之外,其他的赛道基本上都参加了。

准确性评估的EMA实际上也是一个新的赛道,只是不像RNA、配体一样显著,这个赛道的评测主要是用三个词表,一个是QScore,一个是Score,一个是pLDDT。

QScore来自于Complex,也就是复合物领域中的一个评测指标,侧重于衡量interface的docking的分数。而Score主要衡量整个蛋白质复合物结构的精度。

pLDDT侧重的是残基级的精度。在CASP15中,我们组在pLDDT指标上领先幅度很大,这主要是得益于新的超快形状设别(USA)特征,采用了CASP 14以来的最新网络,自己也生成了一批训练数据,从而捕获残基集的误差。

残基级误差在药物研发中非常重要,因为它可以用来实现refinement过程,从而获得高精度的结构模型。

在Score方面,我们的指标没有排在前面,这也是刚刚提到的问题,算力。在CASP15竞赛期间,信息工程学院、学科给了我们很多算力支持,学院计算中心三分之二的算力都是我们在使用。

即使是这样,我们完整的AI模型也是在CASP 15结束之后才真正训练完成。我们现在也在积极复盘,查漏补缺。

pLDDT,包括 QScore我们也进行了分析,如果要提升精度,就要考虑接口处残基的数量、残基的互作,结合pLDDT指标,以及我们单序列平均pLDDT,复合物平均pLDDT这些特征都要考虑。

在单域、多域和复合物上面,我们的表现一般,在这里也恭喜郑伟博士和杨建益老师,做的非常棒。

一个最主要的原因就是AlphaFold2,MSA非常关键,而且需要大量的算力来做预训练模型,我们没有关注这方面。我们考虑的是设计蛋白质结构模式的辨识方法,通过盲测去验证想法的性能,确认它到是不是源于现有的PDB数据库的设想。

这也是一个非常久远的命题,但我认为随着共进化技术的发展,模板建模方法还会峰回路转,受到更多关注。考虑到现有算力、算法设想,我们对MSA没有做任何改动。从CASP 15来看,这两点非常重要,也是我们未来努力的方向。

王晟:张贵军老师提到一个非常重要的点:MSA的quality。

我在2020年CASP 14的比赛上的一次国际报告中,介绍当年我们TFold方法的Pros and cons时,我也讲了和张贵军老师类似的观点,就是MSA对于整个大分子,包括蛋白和RNA等的结构预测的重要性非常关键。

我们当时还做了很多的实验,用一个非常浅的MSA或是用包含了更多进化的序列跑相同的算法,其质量是完全不同的。

不仅如此,如果用一个相同的算法搜相同的数据库,但是使用不同的参数、不同的迭代次数、不同的e-value、不同的Z-score搜索MSA,它的质量都会很不一样。

这是一个非常有意思的问题,我们还要对它进行本质上的探索。

郑伟:刚才王晟师兄和张贵军老师都提到了MSA的重要性。就我们课题组而言,在MSA领域也做了几年的工作,总结了一些数据和算法,也开发了一些工具专门做MSA。

比如我们的DeepMSA算法以及最新的DeepMSA 2,这些算法采用了常规的基因组和宏基因组,用不同的工具来组合构建MSA。

我们认为MSA确实很重要,它不仅对结构预测这个问题很重要,放眼整个生物信息学领域,很多基础的预测问题,比如早些年的功能预测、位点预测等,很多的时候都要依赖PSSM,而PSSM则依赖于MSA的效果。

我个人认为MSA是整个生物信息学的基础,只要MSA做好了,无论是对结构预测,还是对生物信息学里的其他基础问题,都有很大帮助。

对于单体预测上一些较困难的蛋白,其同源序列的数目不够多导致了预测难度比较大。如果给 AlphaFold2两个target,其中一个MSA序列较少,另一个MSA序列较多,一般来说MSA序列较少的target结果会更差,MSA的质量很大程度上会影响target的难度。

今年CASP 15的assessor还专门提供了一张清单,上面整理了一些Top group成功的标签,其中MSA在Top5的group中都出现了,我觉得在未来MSA也会越来越引起大家的重视。

今年我们课题组算是第一次参加蛋白质复合体的赛道,得益于此前在单体上的算法积累和MSA的积累,虽然是第一次参加但是也取得了比较理想的成绩,MSA可以说是我们今年在比赛中获得成功的重要因素之一。

CASP比赛对我而不仅仅是一个比赛,同时也是一个比较好的学习机会。因为CASP比赛的时间比较集中,有三四个月的时间可以全身心地投入到比赛中。

平时做蛋白质预测、做的都是针对general蛋白的算法,可能关注不到某个蛋白的特性或生物学背景,但是在比赛中每做一个 target都会去研究这些,在比赛中能学到很多不同target蛋白生物学方面的新知识。

刚才很多老师提到课题组参赛的人数比较少,我今年的体会也比较深,因为实验室调整,我们今年不是以实验室整体去参赛,而是以个人的名义代表实验室参赛。

整个CASP 15期间,无论是前期的算法开发,还是比赛期间服务器、算法运行,都是我一个人在负责,服务器出现各种问题都需要我去和管理员沟通。

我在比赛期间睡觉时间非常少,一天最多只有六个小时的睡眠,每工作四小时就睡两小时这样轮转。如果人力有限的话,一个人参加多个赛道是非常耗费时间和精力的事情,对体力的要求也比较高。

另一个体会比较深的是,大家一直在提的算力局限性,学界的算力肯定不比工业界,这对比赛的影响还是很大的。

我们今年显卡个数也是比较有限,只有二三十张,所以参赛之前的很多想法,由于算力的局限都没有来得及去实现,比赛过程中很多工作都是一边摸索着一边做的,这是很大的遗憾。

将来如果有机会得到更多的算力,我想不仅是我,还有各位老师也会去尝试更多优秀的想法。

王晟:关于算力的问题,我们也在公司内部进行过一些探索的,考虑是不是所有的target都要堆算力去做,如果遇到某些搜不出同源模板的,或者根本就不存在相似fold的结构,这个结构或许是蛋白,或许是RNA,是不是堆更多的算力,或者训练一个更复杂的AI模型就能搞定?或者有没有别的方法来搞定这些target?

熊鹏:这次RNA比赛一共12个题目,分成三组,一组是天然的RNA序列,一组是人工设计的RNA序列,一组是蛋白质和RNA的复合物。我们最大的收获来自于人工设计的那一组RNA,一共有4个题目。

首先,相比其他的小组,我们在这四个题目上积累了很大的优势,使用我们自己的方法来预测这种人工设计的RNA,精度会远远高于其他的组。

以前的RNA设计并没有进入公众的视野,大家听得比较多的是蛋白质设计,比如David Baker组,他们开发了Rosetta工具,得到了很多蛋白质设计的成功案例。这次比赛中,来自斯坦福的实验室通过自己的方法人工设计出了一些RNA。

我们也是通过这次比赛来解开这些题目,研究这些RNA的来源,怎么被设计出来,从而摸索出了一套RNA设计的策略。对我自己来说打开了一扇新的大门,学到了很多新的东西。

比较遗憾的是第三组题目,蛋白质和RNA的复合物。这个方向一直都是我过去非常感兴趣的方向,我也一直想将蛋白质和RNA这两个领域统一起来,做统一的结构预测,以及统一复合物设计。

但很遗憾的是,这项工作的工作量比较大,构想也太过庞大,目前为止还没有完成。

我们原本打算在比赛中迅速开发出一个简易的版本,去实现那两个target的预测,但是发现没那么容易,匆忙的一两个、一两周或者一个月的时间,确实不足以开发出一套可行的程序,最终那两个target做得也比较差。

这个问题也并不是我们一个组的问题,对所有的组来说,蛋白质和RNA的复合物预测的都不是很好,这也是整个领域目前面临的难题。

但这个方向特别重要,因为生物体内很多功能的RNA分子或者蛋白质分子都是通过蛋白和核酸的相互作用来实现功能的。

比如基因编辑或者基因调控,涉及到的核心问题就是RNA和蛋白质的相互作用,这些问题目前都还没有解决。

未来还需要各位做蛋白质研究和做RNA研究的人一起协作,共同解决这些问题。

另外,前面几位老师都提到MSA,它对于蛋白质的结构预测至关重要,也是我们实现从过去的基于同源建模的方法到基于evolutionary coupling共进化的方法这一突破的核心角色。

MSA在RNA的结构预测中也受到了广泛的关注,但它究竟能起多大作用目前在学术圈内还有着较大的争议。

有人认为MSA对RNA结构预测的影响像在蛋白质结构预测中一样大,我们现在做得不好是因为MSA构建的还不够好,只要我们构建出更加优质的MSA,就能够提供更多的contact information或是orientation的information。

另外一派认为在RNA结构预测中的的MSA,可能只对二级结构预测或base pair的预测有帮助。对于其他的相互作用,MSA提供不了任何信息。

现在学术圈还没有达成共识,不同人的看法也不一样,大家在各自的想法上进行了尝试,目前还没有定论。

RNA结构预测问题跟蛋白质还是不一样的,很多未知的东西还需要大家以后去解决。

AlphaFold2引爆蛋白质单体结构预测的革命,能否燃烧到RNA领域? 

王晟:CASP15比赛新增了两个重要赛道,蛋白质-小分子的复合物预测以及RNA结构预测。在RNA结构预测方面,哪些方向能因此受益而加速突破?RNA结构预测的研究能够怎样推动RNA相关疗法、合成生物学的发展?类似AlphaFold2引爆蛋白质单体结构预测的革命,能否燃烧到RNA领域? 

常珊:虽然我没有参加,但是我原来在密苏里大学时,我的博士后导师邹晓琴和陈世杰老师是夫妻,他们两人的学生之间经常交流,所以我也了解了一些相关技术。

我们在江苏理工学院生物信息与医药工程研究所的团队里,刚好有一个成员是陈世杰老师的博士后,他的博士、博士后期间都是在陈老师的实验室,加入我们团队后主要负责RNA的结构预测。

他是物理学的背景,跟熊博士是一样的,所以他采用的也是物理模型--先构建二级结构,再考虑怎么把三级结构预测得更准确一些。

我认为AI在RNA结构领域的能力,还没有比肩AlphaFold2,在这个领域内,物理模型还是一个主流模型。

从这次比赛的情况来看,RNA结构预测的精度和蛋白质结构预测的精度相比,差距还比较大。为什么?

首先,RNA结构预测精度太低,拉低RNA-ligand预测结果。

我们参加ligand的赛道时,有几个受体不是蛋白质而是RNA结构,我们当时并不预测RNA的结构,就用组委会公开的其他小组预测的结构做了ligand相互作用的预测。

从最终看公布的结果来看,RNA的结构预测偏差实在太大了,这也导致了我们ligand预测的失败。

我们是受到了RNA结构预测不准确的牵连,受体都不准确的话,配体怎么可能会准确?

我认为,未来做RNA结构预测的人要和做蛋白质结构预测的人密切合作,才能把ligand做得更好。

不论是蛋白质还是RNA的结构预测做的不好,都会影响ligand相互作用的预测。

其次,我们也做了蛋白质和RNA相互作用的预测,在比赛结果中,其中一个target我们组排在前面,我非常意外,因为当时我们自己没有做RNA结构预测,直接将其他组的RNA结构预测的结果和蛋白做了相互作用。

虽然排名靠前,但误差也20埃左右,属于五十步笑百步。只是大家在这一项上的误差都非常大,我们错的稍微少一点点,就被排到了前面。

RNA结构预测的领域迫切地需要引入其他技术,否则其精度暂时会落后于蛋白质结构预测。

王晟:CASP15之所以推出了RNA结构预测赛道,也就是借比赛,进一步提高大家对RNA结构预测的关注,提高RNA预测精度,推动整个领域的落地,即RNA疗法以及合成生物学。

常珊教授讲的这两点非常有意思。

第一点是RNA和小分子。目前常见的RNA药物,小RNA、寡RNA、RNA疫苗等等,基本都是利用其线性作用的特性,而不是利用其空间结构。

但真实场景下的RNA,都是通过其复杂、动态的结构发挥重要功能的,如果我们能够准确地捕获它的复杂动态结构,理论上就可以像蛋白质-小分子药物一样,设计出专门针对RNA小分子的药物,从而target巨头调控作用的RNA,不论是在疾病治疗还是其他领域,都有着非常重要的作用。

第二点,RNA-蛋白质的相互作用预测,对于合成生物学至关重要。

比如如何构造调控网络、如何理解RNA和蛋白之间的作用机制、能否设计更好的结构,让蛋白质表达得更多、如何调控transfer factor,设计出能够与RNA特异序列结合的蛋白质(RNA-binding proteins),以及构建出优越的底盘细胞(底盘细胞的选择和优化,是合成生物学链条上的核心步骤)。

张贵军:刚才熊鹏博士的发言我非常认同。

虽然蛋白质结构预测目前已经达到比较可观的精度,但我们还要考虑其动态性。

在生物体内,蛋白并非静止状态,而是时刻通过PPI相互作用,通过一致的原动力:电磁力导致最终形态发生变化,最终实现信号传导。

多态性是RNA和蛋白质同样面临的问题,蛋白在多态性方面的研究可能有助于提高RNA结构预测精度。

此外,目前RNA的数据不及蛋白质的数据全面。在蛋白质结构预测的数据库中,如今已经存在大量结构,且许多结构已经被证实是完备的。

在这种情况下,通过物理化学建模方法超越AI是有可能的。将来随着数据的增加或是新技术的突破,RNA结构预测也将会有所提升。

如同蛋白质结构预测的发展历程一样,在最初的CASP竞赛中,大家也曾质疑过是否能通过计算机来模拟蛋白质结构,这一点近年来已经得到证实,我相信未来RNA也可以达到这个水平。

我个人感觉RNA和蛋白质的相互作用非常重要,长期以来大家很关注基因组研究,一直被忽略的RNA为什么突然受到这么多关注?之前在技术上当然有一定难度。

然而,从药物研发的角度来讲,RNA起到的是桥梁的作用,同时又具有多态性,目前的药物靶标大部分还是蛋白靶标,未来RNA药物会是一片蓝海,有着广阔的落地场景。

郑伟:我没有参加RNA的赛道,对RNA研究也不是特别多,在这方面肯定没有熊鹏师兄这么有权威性,我谈一些简单的看法。

张贵军老师刚才谈到的蛋白质结构或者RNA结构所具备的多态性,或者我们可以叫变构,在CASP 15之前,组委会准备设置一个蛋白质变构赛道,但是比赛中并没有出现target,相当于这个赛道被取消了。

在CASP 15结束后,组委会成立了一个单独的蛋白质变构讨论组,对这个方向的讨论更多了,不知明年是否会单独设置相关赛道。

这也意味着,无论是蛋白质变构还是更遥远RNA变构,都是未来潜在的研究方向。

我记得贵军老师和西湖大学李子清老师,最近发了一篇蛋白质变构文章(Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues)。

总体而言,变构方面的研究太少,希望CASP16之后会有很大的变化。

此外,张贵军老师提到的RNA对制药领域或相关疗法的影响,我个人认为都非常对。以往的药物靶点大部分都是蛋白质靶点,但实际上RNA会成为一个比较好的潜在靶点,通过阻断RNA表达或阻断RNA与蛋白质形成复合物,从而阻断蛋白质形成功能,其疗效或许会更好。

未来研究RNA成为小分子靶点,在医药领域的落地也许会有比较好的发展。

刚才王晟博士提到一个问题,AlphaFold2预测蛋白精度比较高,RNA领域是否也会出现类似的机器学习算法,在未来引发RNA结构预测的革命?

我认为短时间内可能不太容易出现一个纯深度学习、全自动、不依赖任何人工参与,同时能够达到AlphaFold2相同精度的算法。

AlphaFold2能够成为一个很成功的深度学习框架,其中一个关键因素是具备大量的实验结构支撑其深度学习的训练。

AlphaFold2使用的PDB数据库已经建立了50多年,其中积累了数十万个实验解析的蛋白质结构,这样大规模的蛋白质数据能够为深度学习提供比较好的训练基础。

但PDB数据库中已经解析出来的非冗余的RNA结构只有数千规模,在没有大规模数据支撑的前提下,想要开发一个全依赖于深度学习框架的RNA结构预测算法,短时间内很难达到AlphaFold2的水平。

当然,这并不影响大家对深度学习框架的探索,比如一些课题组开发了基于距离约束的算法,还有课题组在尝试RNA的端到端的学习。

王晟:我补充一点。郑伟博士刚才讲到的几点,都是参考AlphaFold2框架做RNA结构预测。

智峪生科这次有一支参赛队伍就是采用了AlphaFold2的框架来做RNA三维结构的预测,叫做AIchemy-RNA。

从结果来看,虽然取得了AI方法中的第一名,但和物理的方法相比确实还是要差一些,原因正如刚刚郑博士所讲,主要在于数据量的问题,这是一个很大的约束条件。

其次,之前熊博士也讲到,对RNA的结构预测来说,MSA的影响是否像在蛋白质结构预测中一样强还是未知数。

第三,AlphaFold2的成功不仅仅在于其端对端的架构,而是将所有人类已知的序列信息利用起来了,使用了类似半监督学习的框架。

在这次比赛中,我们也把RNA的序列以及通过实验测得的二级结构等信息加入到模型之中。

从结果来看,虽然比不上物理的方法,但是在这次采取AI方法的参赛队伍中表现还是非常不错的。我们做的更好的是熊鹏老师的物理方法。

未来我们非常期待把AI的方法和物理的方法结合起来,取得更好的成绩。

熊鹏:首先说明一点,虽然我们这一组的方法在CASP 15的RNA组中获得了第一名,但是它的绝对精度并不高。

比如前面我们提到的两个RNA和蛋白质的复合物的结构,我们的误差在20埃左右,拓扑都是错的。

我们预测得比较好的target,比如人工设计的RNA,或者是几个天然的risen,精度在5埃、6埃左右,相对于蛋白质的结构预测精度还有很大的一段距离,而距离应用就更远了。

如果要实现RNA结构计算相关的应用,精度最好控制在两三埃左右,不论是对小分子设计还是对RNA的功能设计,都会有比较大的帮助。

所以,现阶段的水平离具体的应用依然有一定差距。

如果要从根本上去解决RNA预测精度的问题,还是需要神经网络直接学习RNA折叠的驱动力,也就是使用神经网络方法去训练一个精度更高的立场,但我自己并没有做太多的尝试,各位做神经网络的专家可以往这个方面尝试一下。

如果RNA的精度能够达到跟蛋白质预测差不多的水平,它应用方向到底哪里?在生物医药方面的应用主要在三个领域。

首先是大家关心最多的就是mRNA的优化或设计,这涉及到蛋白质的密码子优化的问题,以及mRNA稳定性的问题,这与RNA的结构在溶液中的状态也有很大关系。

当然,这个问题通过非结构的方法也许能够获得一些信息,但是有结构之后,能够对RNA的折叠判断更加准确,这对于mRNA的优化将会有非常大帮助。

第二个方向是针对RNA的target,或是针对RNA的小分子药物设计。在做药物的过程中,部分靶点很难找到小分子结合口袋,即不可成药靶点。

对于这些靶点来说,如果不直接抑制其蛋白质,而是去抑制控制蛋白质表达的Non-coding区,则为药物开发提供了新的思路。

这个方向依赖于两件事,第一是控制蛋白质基因表达,预测其准确的三级结构,第二是解决RNA和小分子的相互作用问题,针对特定的Non-coding区设计特定的小分子。这个方向国内有很多老师都在做尝试。

第三个方向是以RNA本身作为药物进入人体内发挥功能。目前的置放药物主要还是通过基因匹配抑制相关的基因表达。或是RNA本身作为功能分子实现基因调控、基因剪切等。比如设计特定的RNA切割特定位点,作为基因治疗的药物使用。

据我了解,有些组在尝试开发纯RNA的分子做基因编辑。目前基因编辑主要还是通过CAS蛋白体系,即蛋白质复合物+guide RNA,编辑特定的序列。如果我们直接设计一个纯RNA的分子,识别特定的位点,执行精编辑的功能,在理论上也是可行的。

总结一下这三个方向,第一是通过计算的方法优化mRNA的蛋白表达,优化其稳定性;第二是针对RNA target的药物设计;第三是将RNA本身作为新型药物。

雷峰网《医健AI掘金志》将于近日推出《GAIR Live | CASP 15冠军大论道:结构预测的下一个里程碑,将在何处?|(下篇)》,聚焦本届两大新增赛道:蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力,探讨当下火热的AIGC技术在AI生命科学领域的可能性,欢迎各位读者朋友关注。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/J080cP0FhD9VIgMX.html#comments Wed, 22 Mar 2023 10:51:00 +0800
陈润生院士:中国生物信息学启蒙、传承的三十年「大江大河」 //m.drvow.com/category/shengwuyiyao/M1zc463npTtWopC5.html

1990年4月6日这一天,陈润生记了30多年,当时他49岁。

那是一个普通的日子,离陈润生从德国纽伦堡大学学成回国,归队中国科学院生物物理研究所已有两年多,期间他拿到“863蛋白质工程”资助,升任研究员。

他一直思考未来的研究方向,读了不少关于人类基因组计划(HGP)的报道和讨论。

就在这一天,陈润生看到一篇由James Watson(被誉为“DNA之父”)发表于《Science》 的文章:“The Human Genome Project: Past, Present, and Future”。

在论文开头,Watson写到,“ HGP所用花费要比登月计划少一个数量级,但它对人类生活的影响是更大的……当我们最终能解读DNA分子中编码的遗传信息时,它不仅能帮助我们了解正常人有什么功能,还能在化学水平上解释遗传因子在许多疾病中的作用,如夺走了成千上万人的生命的癌症、老年痴呆症、精神分裂症。”

这些描述让陈润生激动不已——世界对岸有人搞起了人类遗传密码。他决定给Watson写封信,表明对这一卓越科学事件的理解与支持。

陈润生当时只是一个普通科研人员,毫无知名度,而Watson早在20世纪中期就拿下诺奖,并时任美国国立健康研究院(NIH)首位人类基因组研究中心的主任。

两人素昧平生、身份悬殊,“我写信过去并不指望有何反馈或回报,国内根本找不到同行 ,只是想宣泄一下自己的情绪 。”

一个月后,陈润生收到了来自NIH的邮件,信是Watson委托美国人类基因组计划办公厅的主任而写,并随信附了两本材料。其中一本是被陈润生珍藏多年、封皮起皱的美国人类基因组第一个五年计划的正式文本。

这份漂洋过海的文本,开启了陈润生后半生重要的生信方向,也翻开了中国人类基因组研究的第一页。

一封漂洋过海的来信

1987年,一位在美国工作的马来西亚华裔林华安博士(Hwa A. Lim),首创生物信息学(Bioinformatics)一词。他给出Bioinformatics的定义:生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科。

1990年10月,人类基因组计划在美国正式启动,生物信息学这一新学科也相伴发展。在美国人类基因组计划正式文本中,着重提到了基因组信息学:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

1991年,我国科学家讨论如何参与基因组研究,重担落到了时年66岁的吴旻身上。

吴旻1961年从苏联学成回国,开始创建中国的现代人体细胞遗传学研究,70年代投身于食管癌的遗传病因领域,在国内首倡并开展对人类疾病进行基因治疗,1986年在“863”资助下开展基因治疗研究。

到90年代,吴旻身兼数职,当选中国科学院学部委员(院士),并担任中国科学院生物学部副主任。时局促动下,吴旻成为中国开启人类基因组计划和生物信息学科的牵头人。

1991年5月,吴旻被任命为国家自然科学基金委员会生命科学部主任,任期至1995年。

吴旻想在任期里把参与HGP的事情办成。1991年底,他向基金委递交了中国人类基因组计划的重大课题建议书,提出并组织我国人类基因组计划重大项目。

吴旻

这一举措获得了中国很多著名科学家的支持,有谈家桢(中国现代遗传学奠基人)、邹成鲁(近代中国生物化学的奠基人之一,时任中国科学院生物学部主任)、强伯勤(主要从事脑发育以及神经系统疾病相关基因的结构与功能研究)、陈竺(从事人类白血病和基因的研究)、罗辽复(80年代初由物理学向研究理论生物物理研究)、张春霆(80年代中期由物理学转而研究计算生物学和生物信息学)等,不一而足。

邹成鲁、谈家桢、强伯勤、陈竺、罗辽复、张春霆

1992年国庆节的第两天,吴旻游完泳穿衣时脚下一滑,身体向前扑倒,面部着地、满脸是血,后经医院照X光发现鼻梁两处骨折,左眉尖上缝了5针,打了破伤风针。

此时,正是中国人类基因组计划的重大课题建议书评审的关键时刻,4天后又要在基金委进行一次答辩。时任生命科学部副主任的赵宗良心急如焚,却无法替代上场。

10月6日,答辩如期进行,吴旻头裹纱布报告了我国人类基因组计划项目实施的重要性和深远意义。

这场一波三折的答辩,终于收获了顺利通过的结果。吴旻在他的“我与科学基金”一文中提到:万幸我没有感染。

另一边,陈润生也在时刻关注国内人类基因组研究的线索。这位42岁(1983年)加入中国共产党的党员,迫切想加入学术大集体中。

陈润生仔细阅读了美国HGP的正式文本。他认为,信息分析包括序列的组装与功能元件的标识,是本项目的关键。

1992年,陈润生得知吴旻正组织我国的人类基因组研究项目。但他不认识吴旻,更不知如何把想法告诉吴旻。

陈润生想了很久,非常怕被拒绝。他了解到,吴旻组织的团队主要来自医学研究部门,没有中科院的单位和人员。

那时候,陈润生是中科院生物物理所的研究员,直接找吴旻既怕不见,又怕被拒,这样就没有回旋的余地。

思来想去,陈润生还是让自己的研究生徐军试一试。

徐军本科在清华大学就读(现在美国加州洛杉矶工作),不仅聪明而且机敏。对于上门拜访这件事,陈润生嘱咐, 如能见到吴先生,只谈两点:

“一是以我的名义,说我已经跟Watson联系过,并拿到美国HGP正式文本,一直想归队。我们做理论生物研究,是基因组研究所必需,也是互补的,希望能让我们参加,补上序列组装和数据分析这一环;二是我们知道经费紧张,我们理论研究只要带着计算机和脑子就可以工作,不分经费。”

没想到,吴旻很顺利地接见了徐军,告知徐军回去等消息。这边吴旻立马找到强伯勤、陈竺商议,并最终由强伯勤出面欢迎陈润生团队的加入。

万事开头难,陈润生感慨:“如果吴先生没有接见徐军,我肯定没有机会在国内最早从事生物信息学研究,也不会成为基因组学和生物信息学专家。”

1993年3月,江苏无锡的放射原子研究所内,召开了一场重要的“中国人类基因组评审研讨会”。

经过充分讨论,基金委全委会最终通过了吴旻的建议书。会后吴旻感言,“此项目历经一年多的多次评审,终于完成了立项。”

吴旻那时已经67岁了,考虑到人类基因组研究是一项跨世纪的长期任务,应该让年轻的科学家来担此重任,故推举当时还年轻的陈竺、强伯勤担任此项目的负责人,并吸收一批中青年科技骨干承担项目的主要任务。

1993年9月28日,由国家自然科学基金委员会生命科学部组织的,以谈家桢教授为组长的专家组,在沪论证并通过了强伯勤教授、陈竺研究员申请的《中华民族基因组中若干位点基因结构的研究》重大项目,中国人类基因组计划(CHGP)正式启动。

江苏无锡江苏放射原子研究所内的中国人类基因组评审研讨会,吴旻(前排右一)

尽管与美国启动HGP的30亿美元相比,中国的经费仅有300万人民币,但项目组仍然为陈润生的课题分配了经费。

陈润生课题组的任务是DNA序列的拼接、组装和功能元件(主要是编码基因)识别的方法研究。

为此,他们建立了DNA序列的统计分析、分维分析、神经网络、复杂性、局域简并度等多种方法,特别是在国际上首次提出密码学方法,并将这些方法综合起来用于基因识别等,提高了预测的成功率。

能把密码学知识用于DNA序列分析也是机缘巧合。

大约是1991年下半年,陈润生听说曾肯成教授、裴定一教授要组织一个密码学培训班。他想看看遗传密码是否与军事或商业中使用的密码有关联,因此和徐军一起参加。

徐军用了一年左右的时间完整地参加了培训,陈润生只参加了讲座。

虽然了解了皮毛,但他们也学了一些方法,并尝试把一些公式改成能计算四个字符(CGAT)的 DNA 序列,得到的结果颇佳。于是,密码学分析技术也用到了基因组分析。

尽管陈润生团队发展和应用了多种算法,但是在基因组序列上依然只找到很少的编码区。通过和国内外同行交流,大家逐渐产生一个共识:人类基因组中用于编码蛋白质的序列很少。

陈润生表示,“最初议论大约也就是10%,很快发现10%也估高了。”

如今,业内知道的是人类基因组中编码蛋白质的基因序列,只占人类基因组的3%左右。但在上世纪九十年代初,虽然不能精确知道编码序列所占的比例,“但只占一小部分的概念是非常清楚的。”

彼时,国内外学术界很多人将约97%的“非编码蛋白质的序列“称为 “junk”DNA ,  但陈润生有了大胆的想法:这么大比重的 “junk” 不舒服,也不合逻辑!我坚信 “junk”DNA一定有功能。

1993年底,陈润生决定把自己课题组的主要精力放到“基因组非编码序列”的研究上。

尽管在理论物理所、生物物理所和一些学术会议上不断谈到这一研究,但最初几年的外界响应和课题组进展都不大,原因很简单,缺乏实验数据。

与此同时,在吴旻的推动下,由陈竺和强伯勤组织领导的中国人类基因组研究,规模还很小,只是检测了某些特定的基因位点,而没有开展全基因组测序。

无论如何,中国的人类基因组研究迈出了重要的第一步。

中国人类基因组计划的群体接力

中国人类基因组计划和生物信息学的发展,还离不开另一拨人的努力。他们是此后成为华大基因早期骨干的杨焕明、于军、汪建、刘斯奇。他们更为年轻,是国际 HGP 的见证者和参与者。

自1994年后,四人陆续回国,促使CHGP开始与国际HGP接轨。

华大四位创始人,左起:汪建、刘斯奇、于军、杨焕明

1993年,于军辞去纽约大学研究助理教授职务,加入“华盛顿大学基因组研究中心”,与人类基因组计划的策划和领导者之一的Maynard V.Olson成为同事。

在那里,于军参与共建了HGP所需要的关键物理图技术,成为早期参与该计划的唯一华人科学家,以及四人中离HGP最近的人。

Maynard V.Olson

1993年,于军最先找到汪建。他们同在华盛顿大学,二人商量后一致认为应当把人类基因组研究推广到国内。为此,他们还联系了在丹麦的杨焕明和在德克萨斯的刘斯奇。

1994年,汪建在四人中第一个回国,创建北京华大吉比爱生物技术有限公司(GBI)。他是行动派,充满挑战欲,从1991年主导成立西雅图华人生物医学协会,到去往世界最高最深以及南北两极的事迹中可见一斑。

汪建凭借丙肝和艾滋病试剂生意赚了第一桶金,这笔钱也成为在中国发展HGP的启动资金。

杨焕明也于1994年回国,进入中国医学科学院基础所。

回到陈润生这边。长期扎根中国的陈润生注意到,中国的基因组研究队伍正在壮大。在留洋学者回国的趋势下,他走出国门与国外同行交流技术心得。

从1994年开始的十年里,陈润生先后到访香港中文大学、加州洛杉矶大学、哈佛大学、日本大阪大学蛋白质研究所、台湾理论科学中心等。

这些访问大多为期三个月,陈润生解释到,“三个月能够做成一件事儿,不然你去了跟别人聊聊天,什么也没有落成。”

陆续的访问开拓了陈润生的视野,他成为很早就转向结构模拟的学者,做了大量的电子结构和空间结构的分析。

1996年9月,他在蛋白质空间结构模拟和DNA序列分析领域的工作,被CODATA(是国际科技数据委员会,为国际科学联合会下属一级学术机构) 邀请,在日本筑波大学做“小谷正雄纪念演讲” 。

他成为这年获得“小谷正雄 ”奖(以日本学名字命名,1960年,小谷正雄创办日本生物物理学会,1978年当选CODATA会长)的三人之一。

另一方面,国内基因研究走上正轨,我国的生物信息学也有了发展起色。

1996年,清北两校率先开设生物信息学课程。由于是新学科,师生没有正式的教材,可借鉴的资料更是捉襟见肘。

为了推动生信学科的普及,陈润生从1988年任教国科大时就注重教学讲义的梳理。八年时间里,陈润生的一系列理论推演手稿、查阅的外国技术文本、以及和国内外同行的工作,成为当时最完整详细的教学讲义。

1997年,有两位重磅级学者加入:一是清华生物信息学所长李衍达院士,二是中科院理论物理所所长郝柏林院士。

陈润生评价:他们是真正发展了“生信”的人。

此后,清华生命科学学院的孙之荣也参与其中,并成为组织国内生物信息的学术会议的头号人物。

如今的孙之荣75岁,仍奔走在学科建设中(这段故事将单独成篇,添加作者吴彤微信icedaguniang提前分享交流)

李衍达、郝柏林、孙之荣

1997年11月,时任中国遗传学会青年委员会主任的杨焕明,在湖南张家界组织了一次研讨会。

这是我国学术界第一次召开与基因组学相关的研讨会,杨焕明、汪建、于军等人提出了中国人类基因组计划(HGP)的战略构想,这成为他们共同事业的起点。

1998年,时任中科院遗传所所长陈受宜和副所长朱立煌,邀请于军和杨焕明等来遗传所组建一个所级人类基因组中心。

于军、刘斯奇随即这一年回国。

1998年8月12日,在中国科学院遗传研究所,汪杨于刘四人参与组建的人类基因组中心(现中国科学院北京基因组研究所)在北京成立,杨焕明任主任、汪建任执行主任,于军、刘斯奇任副主任。

陈受宜、朱立煌

陈润生参加了这次中心成立大会。

时隔24年,他对当时的场景仍然历历在目:“我记得会议是在遗传所主楼前的院子里开的,侧面有一栋小楼,专门腾空为基因组中心使用。房间里只有桌椅,有的桌椅也不全,没有仪器设备,可以说是一穷二白。”

所有的努力都是为实现中国的基因组研究以及和国际接轨,但必须保证每一分钱都要花在刀刃上。

此时的吴旻虽退居二线,但他的一句话被所有人熟知:“绝不允许有任何人从事盈利或带商业色彩的科研,要保住基础科学这块阵地。”

因此,在大规模的人类基因组测序之前,为了进行各项准备和锻炼队伍,1998年,中科院微生物所谭华荣团队、遗传发育所杨焕明团队,以及生物物理所陈润生的团队,商定先进行一个微生物全基因组的序列测定。

这就是“破译腾冲耐热菌基因组的研究”,被视为人类基因组研究前的“练兵”。

在决定以云南腾冲热泉里筛选出的泉生热胞菌B4为研究对象之前,三支团队在中关村微生物所办公楼的二层会议室召开了了关键会议。

当时微生物所准备了四、五个候选微生物,大的约有六百万碱基,小的约三百万碱基。大家分析了各种因素,如能否有新发现、是否帮助解释生命演化、是否具有知识产权、以及最重要的一点——所需的经费最低。

但智者千虑必有一失,因为没有考虑这个细菌基因组的AT碱基含量很高(达到62.4%)GC含量很低(仅为37.6%),最后总的测序量一点也不比一个GC含量高的六百万碱基的基因组少。

这就大大增加了杨焕明团队的测序量,以及拼接、组装的难度。

另外,在这项工作一开始,还找不到现成的软件工具。所有的拼接、组装和基因标识的算法和程序,都是陈润生和团队从头搭建,边做边改。

陈润生的学生宣振宇、李蔚和杨剑成为此次项目的主要参加者,也为他们日后参与国际HGP的工作打下基础。

1998年9月和10月,国家基因组北方研究中心(主任强伯勤院士,学术委员会名誉主任吴旻院士),以及南方研究中心(主任陈竺院士)相继成立。

三个研究中心的建立,正式开启了CHGP的大规模测序,也让中国跻身国际HGP的进程终于有了眉目。

1999年夏天,杨焕明来到吴旻的实验室,他决定参加在英国剑桥举行的国际基因组会议,并将希望在会上争取国际基因组中1%份额的测序工作。

这是国际HGP协作组最后一次确定各国任务的会议。

杨焕明他们知道,这也许就是最后一次加入的机会了。如果不拼死一博,历史性机遇有可能就会这样错过。

这个想法得到了吴旻的支持,加之Maynard V.Olson等专家的帮助,1999年9月1日,中国科学家应邀出席第五次人类基因组大规模测序战略研讨会。

杨焕明为代表,带着做了13遍的人类基因组序列的70万个碱基对测序结果只身赴会,表明中国有能力承担1%的测序任务,并在2000年春末完成。

1999年9月5日,国际人类基因组测序协作组正式宣布,中国成为人类基因组计划成员,承担人类3号染色体短臂端粒一侧约30厘摩尔(相当于约3000万个碱基对)区域的测序和分析任务(也称“中国卷”),这占人类基因组测序工作的1%。

这一天,中国终于成为继美、英、日、德、法后第六个参与HGP的国家。

1999年11月10日,1%计划被列入我国的国家项目,并确定由华大基因牵头,国家基因组南方中心、北方中心共同参与。

“97%的非编码序列不是junk”

就在协作组官宣的4天之后,北京华大基因研究中心正式成立,搬址于北京顺义区空港开发区B区6号楼。

在这栋厂房里,每个人都有一个格子的工位(约2米x2米),环境是开放的,不论是谁工位都一样。

当时的生信团队大约20人,负责人是王俊(曾任华大基因 CEO,后创办碳云智能科技),陈润生的博士生李蔚临时成为王俊的助手。

他们的首要工作是集成与发展算法,为大规模基因组的拼接、组装和基因标识服务。

为了能够如期完成测序任务,测序仪昼夜不停,人也分成了两批,白班夜班地倒。没有实验台,也没有值班室,上夜班的同事一个人负责好几台机器。

算好每台机器的下机时间,定好闹钟,拿上几个实验室的小圆凳拼起来,躺在上面盖上衣服睡一会,闹钟响了就起来操作,一通折腾后睡意全无。

在这支年轻人居多的团队里,陈润生也是其中一员。这时候的陈润生身兼数职,本职还是中科院生物物理研究所的研究员,同时参与到HGP项目中,成了华大基因团队的一员。

此外,自从1999年起,他还被时任中科院计算所所长的李国杰聘为兼职博导,帮忙建立一个计算生物学团队。

虽然分身乏术,但陈润生考虑到HGP的紧迫性,大部分时间还是给了它,“5天里有4天都在空港。”

那时候的华大基因,缺场地、缺资金、缺设备、缺人员。困难重重,压力巨大,唯独不缺的是决心。

他们在测序仪顶上摆放着三根玉米棒,下面贴着用白纸打印的一行红字:穷棒子精神永放光芒!

实验室一角

2000年5月,我国科学家终于完成了“中国卷”基因组序列草图的测定工作,是六国里参与时间最晚,完成时间最早的国家。

2000年6月26日,时任美国总统的克林顿宣布,“人类有史以来制作的最重要、最惊人的图谱——人类基因组草图完成。”

与此同时,空港工业区B区6号楼里也举行着一个小型的庆祝仪式。没有鲜花,没有喝彩的人群,甚至没有留下一张合影。这些参与了中国卷的年轻人们,推算着新闻发布会的时间,吃了点水果就散了。

在此之后,陈润生开启了下一场研究。

从90年代初到新世纪初,参加基因组分析工作越多,陈润生越坚信,非编码序列具有生物学功能,自己研究进展不大的原因是实验数据太少。

那个年代,国际上从事非编码研究的还不多,要了解非编码的功能等于无米之炊。陈润生有了一个想法,1999年末看到国内人类基因组测序实验的蓬勃开展,看到华大基因从无到有实现大规模测序的过程。

这让他萌生了建立湿实验室,从而获取非编码研究数据的想法。

但是搞理论的做分子水平的生物学实验谈何容易,人才、经费、设备都是问题。

经费最好解决,自德国留学回来后,陈润生就被吸纳到科技部“863蛋白质工程”中,还有后来的CHGP项目,分给他的经费大部分没花掉,十余年内攒了60万元。

有了这笔经费,陈润生的工作就更容易启动。

他从生物物理所请来了实验做的比较好的邓巍,以非编码序列高达70%的多细胞模式动物线虫作为切入点,并对转录本的长度范围限定在50-500个碱基的序列进行研究。

实际上,这种实验方法在当时并没有先例可循。陈润生团队从头开始设计实验流程、摸索实验条件和参数。为了节省使用经费,陈润生利用在中科院计算所任职的机会,借用那里的大型计算机进行大规模测序分析。

这一待就是四年,2004年,时任中科院生物物理所所长的饶子和不止一次打趣陈润生,“你快归队,你快回来,你干嘛老在外面漂。”

饶子和

正是这些“漂泊”的经历,陈润生分别在计算所和生物物理所建立了两支团队(目前共三十余人),终于在非编码领域走出了一条路。

实验方面,邓巍把实验相关的各种探索记录形成了四百多个文件;理论方面,陈润生团队建立了一套自己的非编码基因预测方法。

获益于这种广泛的交叉研究,他们以线虫为对象发现了161个新的非编码基因,由此确定了两个非编码基因家族、发现了三个特异的非编码基因启动子。

更重要的结果是,他们证实,非编码基因与编码基因一样,各自有一套独立的转录调控系统。

届时,陈润生团队所有发现的非编码基因都被收录于GenBank(最广为人知的核酸和蛋白质序列数据库),并于2006年1月6日将论文发表在影响因子11+的《Genome Research》。

三天后,美国科协(AAAS)所属的科学评述杂志《EurekAlert》 也发表了长文介绍了这一研究成果,不仅肯定了上述发现,还指出实验技术的效率比国际上提高了10倍。

接着,凭借线虫研究中建立的整套非编码基因的识别方法,陈润生团队独立承担了人类3号染色体完成图中非编码基因的识别工作,发现了各类型非编码基因近900个。

这些成果都包括在2006年发表于《Nature》的三号染色体完成图的论文中。

每一个成果都来之不易,愿意从事非编码研究的人还是太少。

自2000年起,陈润生团队就开始搜集国际上被实验证实的NcRNA基因及非编码转录本,发展了相应的软件及检索工具,建成了NcRNA数据库——NONCODE。

这是当前国际上最全的NcRNA数据库,已成为很多研究的基本数据源,该工作的学术贡献是提出了非编码基因的分类系统。

文章刚一发表,2005年1月21日《Science》就介绍了该工作。此后,陈润生团队又构建了非编码RNA和蛋白等相互作用数据库——NPInter,这些均为国际非编码基因研究提供了数据基础。

由于在实验和理论上的一些成果,陈润生团队的非编码研究在国际和国内有了一些影响,以后的研究也变得更容易开展。

现如今,陈润生的研究仍然是非编码,但更侧重于“经世致用”,比如核酸疫苗与核酸药。而他牵头研发的长链非编码核酸药物,则瞄准肿瘤、烈性病毒与传染病、衰老三个方向。

陈润生在多次报告和论文中明确指出:人的遗传密码代表着人体的全部信息,现在只能用3%,对疾病诊断治疗能准确吗?实际上,遗传密码的破译给我们带来了数不清的新靶点。如果能够破译剩下的97%的非编码,这是根本上的原始创新。

在与雷峰网的交谈中,陈润生中途接了一个电话。他说到,“下午北京开发区要聊建核酸药物和疫苗基地的事,基础研究到一定阶段一定是转化,我们现在就是忙着转化的事情。”

随着国家“四个面向”,陈润生过去做了30年的非编码研究,慢慢因为学科的重要性开始服务社会,服务经济发展。

回忆起从1993年决定转向非编码领域,陈润生感慨起步之难:国家基金委的基金申请不到,评审断言工作没意义、没根据;长期获得资助的“863蛋白质工程”项目也不让参加。

“直到90年代后期,我们在非编码领域拿到了973项目,近几年作为首席与同行们拿到了基金委的‘国家重大研究计划’项目,说明非编码这条路走对了。”

生信长河中的群英图

90年代,中国的生物信息学发展几乎与国际同步,根基是中国有一支理论生物物理的学术队伍。

陈润生在中国开设生物信息学课程、在HGP上的大放异彩,都与中国在理论研究上、与前辈们的薪火相传息息相关。

1959年9月,陈润生考入中国科学技术大学(下称“中科大”)生物物理系,成为当年考入中科大的1600名学生之一。

这群来自中国天南海北的学生,不仅是全国各省的佼佼者,还有个共同的名字,“中科大第一届全国统考生”。

因为就在前一年,中科大刚刚成立,却错过招生时间,学生只好从其他高校“借调”而来。因此,陈润生这届学生格外受重视,据说录取线也比清北高一点。

中科大首任校长是郭沫若,提议创办一所科技型大学,并确定学校名称、成立大学筹备委员会、起草校歌歌词,种种决策皆他所为。

在成立之初,中科大就承载了我国政治界和科学界的共同构想。严济慈、华罗庚、钱学森、贝时璋、钱临照、赵忠尧、郭永怀、赵九章、王元、龚升等一批中科院学者出动,组成了中科大的教学阵容。

当选为中央研究院第一届院士,被选聘为中国科学院学部委员(院士)的贝时璋,就是此后推动中国生物物理发展的核心人物。

贝时璋先生

1958年,学校成立伊始,贝时璋做了两件大事:创建中国科技大学生物物理系、创办中国科学院生物物理研究所(以下简称“生物物理所”)。

当时生物物理学还是一门饱受争议的学科,有些知名学者甚至断言:“只有生理学,没有生物物理学!”

贝时璋顶着反对声音创办了生物物理这门交叉学科,并单独划分了一支理论生物学研究小组。组长是郑竺英,成员有:郁贤章,王湘生,陈传涓,汪云九。

贝时璋对该组成员的业务方向都有具体指导,如,他让郁贤章多注意生物大分子的结构和功能,让汪云久侧重生物系统中的控制和信息。

理论组同志合影(第一排左起:夏发生、杜莆、顾凡及。第二排左起:孙纹琦、朱洁萍、邹嘉玉、郑竺英、石淑珍。第三排左起:王湘生、汪云九、万夫远、张鉴铭), 摄于1961 年

同时,为了培养出真正的学科交叉人才,贝时璋也毫不含糊。

他安排生物物理系学生们,物理课和物理系一起上,数学课和数学系一起上,化学课和化学系一起上,考试也和其他系一同排名,绝不打半点折扣。

独特的教学方式,让陈润生一直受着很多老师的栽培。陈润生讲到,“我们通常是今天跟钱先生、彭先生讨论宇宙学、粒子物理、格林函数,明天跟贝先生、沈淑敏讨论生物学。”

大学五年的所有考试中,陈润生无论按照什么系排名都稳居前三名。1964年5月,贝时璋推荐表现优异的学生到中国科学院生物物理研究所,陈润生便是其中一员。

得益于过去所培养的数理基本功,陈润生在做理论生物物理时也更容易上手。

然而时局使然,很多学术研究组不复存在。

至1978年3月,中共中央召开了全国科学大会,邓小平指出四个现代化的关键是科学技术的现代化,并着重阐述了科学技术是生产力这个马克思主义观点,科学研究终于恢复。

陈润生的理论研究并没有因此搁浅,做了大量的大分子结构模拟。1978年底,为了进一步了解结构模拟的理论基础,陈润生被送去吉林大学的理论化学进修班学习一年。

而教授这门课的不是别人,正是被视为中国现代理论化学的开拓者和奠基人的唐敖庆。

这位和陈润生同是江浙老乡的教授,在50年代被调任东北高校,也在那里开启了他的后半辈子。而同样因为调任原因安家东北的徐鹰(排版时插入链接)的父亲徐如人,就是唐敖庆的学生。

陈润生对唐敖庆记忆尤深,其实是被他的学术研究所震撼。

“唐先生眼睛不好,他戴那眼镜是近视3000度,几乎是贴在黑板上板书。他上课从来都是带着一盒粉笔,一个粉笔擦,其他什么都没有,从上午八点到十二点连续推公式,写完一块黑板再擦掉继续。这本事你想,基本功(有多厚)。”

唐敖庆先生

受唐敖庆启发,陈润生此后在理论研究上对自己要求更加严格。一次他应邀在华中科技大学讲授量子化学,全程推导公式,从头到尾一字不改。

在陈润生看来,这是锤炼自己的一种方式,“你如果不真正理解,不能把理论的发展记得一清二楚,根本不可能讲这个课,也讲不出来,就卡在那儿下不去了。”

与此同时,1978年后,贝时璋采取了很多措施推动理论生物学研究室的重新组建与发展。

首先,贝时璋分别邀请彭桓武、钱学森等其他领域的著名科学家,给所内研究人员讲解学科发展与学科交叉,并实质性地建立了生物物理学与各专家所属学科的联系。

接着是组建理论生物学研究室。

大约1978年至1979年之间,贝时璋邀请上海生物化学研究所(下称“上海生化所”)的徐京华研究员,作为上海生化所与北京生物物理所联合共建的——理论生物学研究室(下称“联合室”)的主任。

届时,陈润生、丁达夫、王宝翰,都是其中主要成员。

1980年联合室成立后,在彭桓武的支持下,徐京华带领其成员频繁地参加刚建立不久的理论物理所的学术活动,同时也在理论物理所组织了多次理论生物学的相关讨论,如:混沌、熵、耗散结构与生物体的结构、生物大分子的手性和自组织;DNA 分子中遗传信息的表示与特征等。

可以说,七八十年代之交的理论生物学研究,是在贝时璋、彭桓武的组织与指导下,在两研究所的一批研究人员多次讨论中,逐渐形成并迈上了正轨。

然而,国内真正探索DNA序列的物理数学特征,要从1982年开始。

最早把主要精力放到DNA序列上的是内蒙古大学罗辽复团队。

1982年,罗辽复带领团队从理论物理转向理论生物学研究,整个八十年代,这支团队发表了很多关于DNA序列和遗传密码方面的研究成果,如:突变率的S_4对称破缺和终止密码子;核酸起始序列、终止序列和插入序列的统计分析;核酸序列的碱基分布、同源性和Markov性;核酸分子的信息参数和分子进化;遗传密码的退简并规则等,甚至还讨论了为什么遗传密码由四个碱基组成。

很重要的是,罗辽复团队研究和发展了DNA序列分析的理论方法,如:分维方法;特别是信息论的方法,比如提出了最大信息原理、基因序列的平均互信息方法等。

八十年代中期以后,从事DNA理论研究的还有天津大学的张春霆。

1984年5月,张春霆调入天津大学理学院物理系工作,此后他由物理学转而研究计算生物学和生物信息学,并在1987年发表了首篇理论生物物理论文。

张春霆在理论生物学研究领域有两方面的主要贡献:

一是八十年代末提出,用双 Sine—Gordon 偏微分方程组来模拟 DNA 分子在转录和复制过程中碱基运动的动力学机制;

二是九十年代初,提出了 DNA 序列的 Z 曲线理论,开拓了一条用几何学方法分析 DNA 序列的新途径。目前,Z 曲线理论在基因组学和生物信息学中已获得了广泛的应用。

第三支队伍就是陈润生团队。

实际上陈润生做DNA理论研究也是在上世纪八十年代。

1982年,在一个理论生物学研讨会上,罗辽复受邀分享关于DNA序列分析的报告,陈润生就和他讨论了核酸序列的分析问题。

1987年底,陈润生为期两年的德国访学结束,此时国际上已经有了破译人类遗传密码(即“DNA”)的趋势,陈润生做出一个重要判断:遗传密码将是未来很重要的一个方向。

受“863”项目资助,陈润生很快转向基因组序列研究,并在90年代初将这部分工作延续到CHGP项目中。

总的来说,八十年代到九十年代初,我国在DNA序列分析的理论方面已有建树,特别典型的是:罗辽复团队提出了DNA序列分析的信息学理论、张春霆团队提出了DNA序列分析的几何学理论、陈润生团队提出了DNA序列分析的密码学理论。

而如果以更长远的视角来看,从五十年代以来,贝时璋、彭桓武、徐京华、江寿平、丁达夫、王宝翰……这些前辈,无一不为九十年代中国参与到人类基因组事业中打下了重要基础。

耄耋之龄,不退不争

“沮丧我没有,人能成事,一个是判断,一个是坚持。”

谈起几十年来的抉择,陈润生声音清晰有力,“我的大多数抉择没有跟着别人走,被很多人怀疑和反对,这就需要自己的坚持。坚持在于你自己的判断,这两个是互补的:判断得不够坚决,很多人吃亏在这。他足够聪明,也想到了。但是不坚持,由于各种情况放弃,就成不了。”

陈润生现在仍习惯365天到办公室打卡。有一年大年初一,陈润生照常到了中科院生物物理所,在这天碰到了唯一的另一人,王志珍。

陈润生回忆那天的场景说到,“远远看着有个人护送着一个人,走近一看竟是王志珍。我说你也来了,她说你也来了。”

王志珍摆摆手让同事不要跟着。她和陈润生是同班同学,两人当年在中科大里都是最顶尖的学生,五年里谁都没出过前三名。

此后王志珍在蛋白质折叠,折叠酶和分子伴侣胰岛素A、B链相互作用及重组等研究中做出重要贡献,与陈润生先后成为院士。

那天,两人聊到老师、聊到学生,最后陈润生聊到自己,笑呵呵地告别老同学。

他说,“还有好多事等着我去做。”

雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/M1zc463npTtWopC5.html#comments Tue, 22 Nov 2022 15:02:00 +0800
「AI预测蛋白质结构第一人」许锦波:十年冷清终不渝,一个计算生物学的拓荒者 //m.drvow.com/category/shengwuyiyao/mfO3n35tRUyJKen9.html 许锦波的人生分水岭是2016年秋天。

他提出的RaptorX-Contact方法,首次证明深度学习可以大幅提升蛋白质结构预测精度。

长期原地徘徊、进步有限的研究领域终于迈出实质性的一步,各界掀起了AI预测热潮,无数公司获得了进入生命科学的时代入场券。

外界给他加封了一个头衔:AI预测蛋白质结构全球第一人。

从2005年开始,许锦波就在芝加哥大学附属的丰田技术研究所开展科研和教学工作。

这是一所受慈善捐助而成立的独立计算机科学研究所。许锦波时间宽裕,每年的教学工作只有两个月,很少受科研经费困扰。能静下心来做研究,是他留在那儿的重要原因。

2021年9月,许锦波回国创业。2022年1月,他的公司成立,取名为“分子之心”(MoleculeMind)。此后,由许锦波牵头,分子之心在国内组建了一支25人左右的团队,其中不乏生物计算、计算机科学、生物化学物理等多学科背景的研究人员和工程师。

4月份,公司完成数千万美元天使轮融资。

关于许锦波和他二十多年来的研究故事,被凝练成一句话:从冷清走向热闹,从象牙塔走向聚光灯。

金麟岂是池中物

1990年下半年,还在读高三的许锦波,在全国高中数学联赛中获江西赛区第一名,成为江西临川县获得该类奖项的第一人。竞赛结果出来后 ,许锦波收到了国内最好的五、六所大学发来的入学通知书。其中一封,就来自中国科学技术大学(下称“中科大”)。

彼时,中科大经过一系列的教学改革创新,在中外合作培养事业上取得了长足进步,在国内外声誉鹊起,被《Nature》杂志撰文称为“招风的大树”。

出生在安徽合肥的杨振宁更是多次访问中科大,并担任理学院名誉院长,倡导在中科大少年班中设立计算机软件专业,推动中国计算机科学发展与国际水平接轨。

在老师和亲朋的建议下,许锦波思索再三,对数学的热爱转移到理论研究上,便将志愿定为“中科大计算机科学技术系”,并选择了更偏向理论研究的“计算机算法”专业。

虽然专业偏向理论,但许锦波先于多数同学上手代码和实际项目。大三下学期(五年制),他在校外找了一份工作,在一家做金融服务软件的美国公司(合肥办公室),主要做美国股票分析系统的用户界面。

90年代初,许锦波用的还是元老级的编程语言——Borland C/C++来开发项目,写了多少行代码,他已经记不清,但写代码的能力却得到了锻炼。

他回忆道,“那时还没有实习的想法,更多是想打工挣钱。当然学校机房确实没几台电脑,学校更强调把基础打牢,四大力学是必修课。”

抱着深造的目的,许锦波决定硕士研究计算机的另一分支——计算机系统 。用他自己的话讲,“当时想学怎么造计算机。”

1996年,许锦波进入中国科学院计算技术研究所(下称“中科院计算所”)。在那里,许锦波结缘中科院一支高性能计算研究组——曙光组。

90年代初,时任国家智能计算机研究开发中心主任的李国杰,带着一支没有设计经验的队伍,承担了研发“超级计算机”的重任。就在许锦波到来的前一年,曙光组做出一个重要决定:863计划下一个目标产品曙光2000,不再沿着计划原定的“超级计算机”方向走,而是转向研制“超级服务器”。

李国杰(身穿深色衬衣者)

两者区别在于,超级计算机主要用于科学工程计算,从计算速度上追赶国际先进水平。而超级服务器是更加通用的高端计算机,除科学计算外,更多地用于事务处理与网络服务。

这一决策也影响了许锦波后面的研究方向。

三年里,许锦波的重心放在了“分布式系统以及计算机安全”,陆续参与了曙光组的前沿项目,如虚拟主机系统、高可靠性系统等工程化项目。

他的朋友以及合作者对他的评价是:无需助手,能独立进行一项课题,独立用算法实现一系列想法。这种能力,很大程度上得益于这段工作经历。

许锦波说,“代码能力将成为不可忽视的底层能力,不仅是计算机专业要这么做,每一个理工人都要视其为基本功。”

一悟归身处,何山路不通

1999年,南斯拉夫大使馆事件让中美关系陷入僵局。转去加拿大,成了当时很多人求学和任教的共同选择。许锦波也是如此。

这一年,他去往加拿大南部腹地的大学——滑铁卢大学(临近多伦多),继续攻读计算机科学系。

在许锦波入校前,学校指派了一位做并行算法的印度裔教授Prabhakar Ragde为其导师。这位导师指导宽松,第一年,许锦波涉猎各个领域的论文,找感兴趣的科研方向。

Prabhakar Ragde教授

2001年上半年,人类基因组计划(HGP)比原计划提前两年完成,历时11年的多国合作项目落下帷幕,随即进入了“功能基因组学”时代,研究的重心由基因组的“结构”向基因的“功能”,也就是向蛋白组学转移。

学术界一个明显趋势是,越来越多的学者愿意用计算机科学解决一些实际的生物学问题。两个学科的结合越来越紧密,直至融合形成一个新兴学科——计算生物学。

许锦波深受鼓舞,抱着试试看的心情,他毛遂自荐转入方向更为契合的滑铁卢大学李明教授组里。

为何转入李明门下?

实际上,许锦波本硕就读时,李明曾先后到中科大和计算所做过两次讲座,当时李明已凭借Kolmogorov复杂性、不可压缩方法、信息距离理论等研究,享誉计算机科学界。

1990年,李明做出了长度为O(n log n) 的超串来逼近长度为n的最短超串,成果发表至计算机科学领域的顶级会议期刊FOCS。

一年后,李明找到在加拿大麦克马斯特大学任教的姜涛,以及从荷兰来的访问学生John Tromp,合作钻研最短超串(shortest superstring)解决法。

正在此时,三人发现MIT的Avrim Blum、贝尔实验室的Mihalis Yannakakis,也在钻研这一问题,并且也独立得到了修改过的贪婪算法线性解。最后,五人合作发布了一篇STOC论文《 Linear approximation of shortest superstrings》。

后来,这一证明被收录至众多计算生物教科书中。

因此,在许锦波转入其门下时,李明已经成为生物信息学的一位大家。

按理说,李明在停薪留职期间不收学生,但他欣赏这位后生,两人都毕业于中科院计算所,说起来师出同门。于是,李明从Prabhakar Ragde那里要来了许锦波,算是合作培养。

2001年,许锦波正式做起了计算生物学。初次接触,李明对许锦波说,“有一个很难的问题,研究蛋白质折叠,想不想做?”

李明教授

那时候,学界已经研究了四十年的蛋白质结构问题,一直难有大突破。李明也从未将此课题向任何学生提及,甚至他自己也未涉足这一课题。

许锦波为什么愿意接手?

多年后,他回忆起这个决定:“我们选择研究课题的时候,通常要选择一些比较重要和困难的问题,如果问题不重要,就没必要花时间研究;如果问题不难,几年之内就被别人做出来,也没有多大意义。”

对27岁的许锦波来说,接下导师抛过来的这一选题,也意味着他要进行一次大范围的自我转变。不过,许锦波也不觉得这是明显的换方向,仍然是用计算的方法解决问题,只不过对象换成了生物学。

不过,紧接着他又补了一句,“就算博士几年一点结果都做不出来也没关系,大不了去硅谷写代码、当码农。”

许锦波说的不无道理。

加拿大最早成立计算机科学系,就在滑铁卢大学。而该系所属的二级学院,正是加拿大唯一且全球最大规模的独立数学院——滑铁卢数学院。作为数学院最具传奇色彩的计算机科学系,微软、谷歌、Facebook早早就来抢未毕业的学生。

决定从一个非常热门的领域跳出来,去做生物学研究,无论对谁来说都需要很大的勇气。

许锦波也没想到,这次转变将影响他一生的科研方向:在此后的二十余年时间里,他的任务就是开发和优化算法,去无限缩小蛋白质结构预测结果和真实构型之间的差距。

不过,开始研究生物学问题的半年时间,许锦波就很痛苦,“论文专业术语都看不懂,也没人可以问。”

许锦波坦言,当时他只有高中的一点点生物知识。滑铁卢大学是强理工科背景,仅有一个很小的生物系,他跟生物系教授没有很多交流。此外,导师李明还在加州学术休假,不像现在发个微信就可以交流,师生二人两个月才能见一次面。

那段时间,许锦波只能靠自己去啃论文,除了吃饭睡觉全是做科研。

“可能和大家印象中的科研形象不一样”,许锦波笑着说到,“一个生物学家的实验室是各种试管和试剂,但作为计算生物学家,全部的科研工作都在一台电脑上完成。”


左图为生物学家实验室,右图为许锦波实验室

这也诠释了计算生物学领域的研究手段,既有传统的生物实验,即湿实验;也有包括计算手段在内的数学建模、数值仿真、数据分析,或是机器学习,即干实验。

和传统的湿实验相比,干实验最大优势即不需要特别大的经费投入,其次是比较灵活,可以随时开展一个新的研究项目。

那段时间,许锦波沿用一种干实验方法研究蛋白质折叠——能量优化。

他解释到,安芬森法则是蛋白质结构预测的基石。在安芬森这个假设和理论基础之下,科学家们去做蛋白质折叠预测,都是从能量优化的角度去做。如果将这种方法教给计算机,就可以一步步优化能量,从而达到预测蛋白质结构的目的。

2002年,李明学术休假结束,回到滑铁卢,许锦波马上告诉了他一个好消息,“马上要开始今年的CASP(全球蛋白质结构预测比赛)了,我们也去参加。”

结果是,许锦波在全自动高通量蛋白质结构预测的评比中一举夺冠。

不过,许锦波认为,“虽然排名最好,但不是大的突破,因为预测结果并不比以前的方法好很多。”

他重新梳理那一年来的工作,发现这一思路有着天然缺陷。

“第一,一个蛋白质是一个非常大的体系,由成千上万个原子组成,对应一个非常巨大的搜索空间,构型是千变万化的。第二,虽然说大家普遍接受蛋白质折叠到最小能量状态,但能量函数到底是什么样的?我们本身就对能量函数的理解还不是特别好。”

在当时一大批学者纷纷比拼更好的能量优化方法之际,许锦波站在了这一方法的对面:把生物学问题当成纯粹的算法问题,或许并不能从根本上解决问题。

“传统的能量优化方法可能不是一个很好的路径。”

十年磨一剑,霜刃未曾试

2003年,许锦波博士毕业后计划赴美,开启博士后工作。

然而,受2001年9月11日恐怖袭击影响,美国政府一度收紧了赴美学生签证,许锦波的签证一直处于被审查状态。

无奈之下,许锦波选择暂留本校任教,一边做助理教授,一边等待签证过审。

这也让许锦波错失了拜入徐鹰(时任佐治亚大学生物信息系主任)门下的重要机会。而导师李明曾推荐他去哈佛,最终也不了了之。

等待的时间里,许锦波做了一个新问题——蛋白质的侧链结构预测。

那时,学术界对蛋白质结构预测的研究重心是主链蛋白,许锦波博士期间的精力便集中于此。

为何从侧链下手?这是因为,蛋白质三维结构由主链和侧链共同搭建而成,算法预测蛋白质结构的步骤,是先以蛋白质主链建模,再根据主链的构象为侧链建模。

自然界中的蛋白质含有20种氨基酸,它们的主链几乎完全相同,而侧链差异很大。因此,精准的蛋白质侧链建模对蛋白质折叠和蛋白质设计至关重要。

签证背调用了近一年时间,许锦波也在这个方向上投入了近一年时间。

他并没有沿用当时学界的主流方法,通过SCWRL软件做近似优化,而是将图论算法引入侧链结构预测,成功地将侧链结构预测的时间,从十几个小时缩短至几分钟。除了速度提高了上百倍外,新方法还可用于构象复杂性更高的蛋白结构。

“这算得上是侧链结构预测中,第一个不需要完全暴力运算的算法。”

2004年,许锦波将成果投递于RECOMB(国际计算分子生物学大会)。这是与ISMB(国际计算生物学会)齐名的计算生物学两大顶级会议之一,会议从1997年开始举办,自2003年后投稿数量开始增加,接收率降低到20%左右。

此后很多年,许锦波陆续在RECOMB会议上分享过多次研究成果,并获得了诸多奖项,如2009年最佳海报奖、2014年最佳论文奖、2019年时间检验奖。

许锦波印象最深的,还是2004年第一次投递RECOMB。他记得,2004年上半年,自己的签证终于过审。于是马上动身前往MIT,开始了博士后生涯。2005年,该论文被RECOMB顺利接收,许锦波被邀请前往波士顿做会议报告。

在那时,这一成果并没有受到很多生物学家的关注,这和学术圈里的一个规律有关。

许锦波解释道,“一般而言,多数生物学家认为期刊论文更有价值,但在计算机领域,科研成果有很高的时效性,投稿一般都选择学术会议,便于和同行交流。”

拿当下最热的深度学习来说,2014年AlexNet算是第一个大获全胜的DL模型,距今仅8年时间,已经变成了公认的老古董。大约同年,生成对抗网络GAN出现。截至目前,起码有几百种能叫上来名字的GAN变种。

2015年,物体检测领域R-CNN被提出,深度学习正式攻陷此领域,之后fast-RCNN、faster-RCNN、YOLO、SSD、mask-RCNN,几乎每年都有重大突破。

因此,计算机领域日新月异的发展特性,决定了重要结果几乎先在会议上分享,其次才会在期刊里发表会议文章的扩充版本。

许锦波不知道的是,就在报告现场,他的成果吸引了一个人的特别关注。

几天后,许锦波收到了一封邮件,邀请他将成果整理为期刊论文发表,落款是时任Journal of the ACM(计算机科学领域顶级期刊)的德国编委,Thomas Lengauer。

Thomas Lengauer教授

曾于2018年至2021年担任国际计算生物学学会主席的Lengauer,与许锦波的经历相似。

自20世纪90年代初以来,Lengauer的研究重点从理论计算机转向计算生物学,其中一个研究方向就是蛋白质结构和功能预测。2001年后,他一直担任马克斯普朗克信息学研究所(MPlI,位于德国)计算生物学和应用算法部主任。

而当时他所担任编委的JACM,正是ACM (Association for Computing Machinery,国际计算机学会) 的官方刊物,遴选标准极为苛刻,只刊登对计算机科学有长远影响的论文,理论偏向性很重。成立至今的68年里,仅发表了3000篇论文,平均一年不到50篇。

收到来信后,许锦波马上在论文中加入了一些理论结果,并于2005年投递于JACM。

而这一意外之举,直接将许锦波的命运向前推了一把。在此之后,许锦波的研究得到了计算机学者、生物学者、以及计算生物学家等更多人的支持,为他留美任教埋下了重要伏笔。

2005年,许锦波去往芝加哥大学附属的丰田技术研究所(另译:丰田工大芝加哥分校,TTIC,Toyota Technological Institute Chicago)任教。

TTIC是丰田工业大学与芝加哥大学共建的独立计算机科学研究所,于2003年9月正式运营,目前仅13名正式教授。

与众多高校不同的是,该研究所成立之初曾获2.6亿美元捐助,资金充足、支持力度大,可以支付大部分科研经费。

21世纪初,机器学习还没有迈入黄金时期,该研究所便意识到机器学习的价值,将其作为研究方向之首。此后,许锦波的研究方法逐渐从能量优化转换为机器学习,便是受研究所影响。

许锦波表示,传统的机器学习方法是直接把蛋白质的氨基酸序列映射到一个三维构型上去,比基于物理或是统计的方法做得好一点,但并没有得到本质上的改变,以至于大家认为蛋白质结构问题没办法预测出来。

这段时间,很多人做不出新成果,申请研究经费也非常困难,陆陆续续从蛋白质结构预测转向其他领域,比如RNA结构预测、系统生物学等。

那种冷清直接反应在人数上:CASP会场中不足两百人,仅有新世纪初的三分之一。

许锦波的朋友也多次劝说他换个方向:凭他的能力,完全有机会在其他领域再起炉灶。

许锦波没有动摇,他解释说,“这和我的性格也有关系,而且我的团队一直不大,不想分散精力去管理一个大团队,做太多不同的方向。”

许锦波在丰田技术研究所任教时留影

一直到2014年,局面出现一线转机。

2012年,深度学习开始在图像识别领域展示出威力。许锦波很自然地想到,能不能用深度学习去做蛋白质结构预测。

2014年,许锦波设计了一种新的深度学习算法,从更为简单的问题入手——预测蛋白质的二级结构,即肽链主链骨架原子的空间位置排布,不涉及氨基酸残基侧链。测试发现,深度学习对这个简单问题有效。

这个时候,生物信息学领域里,只有极少数人关注到深度学习这一新的工具。

2015年和2016年,许锦波再次开发了一种更好的深度学习算法,可以直接用来预测蛋白质的三维结构。许锦波解释道,“与能量最优化的传统方法不同,深度学习带来的新思路是预测原子之间的相互作用关系。”

很多人对此后的事情并不陌生。

2016年暑假,许锦波开发出第一代人工智能方法RaptorX,证明了深度残差卷积神经网络可以大幅度提高蛋白质结构预测的性能。

许锦波表示,“我们当时预测的一个有两百多个氨基酸的膜蛋白的结构,误差大概是2.29个埃,已经非常接近用实验技术解出来的结构的分辨率。”

2016年全球蛋白质结构预测比赛(CASP12),许锦波的这一方法震惊了在场人。这一年秋天,许锦波在自己的研究所召开了一个小型报告,邀请了芝加哥大学生物物理系合作者,共同探讨研究成果。

其中一位是芝加哥大学生物物理系的博士后,在听完许锦波报告后,全力转向深度学习方法,并在一两个月后加入Deepmind。他就是后来领导DeepMind团队,设计了AlphaFold人工智能系统的John Jumper博士。

John Jumper,被《Nature》评为2021年度十大科学人物

随后,许锦波也将论文成果公布于网络,发布后的第一个月,即在领域内引起了一波关注。

2017年1月,这篇论文正式发表于国际计算生物学的官方期刊 PLoS Computational Biology,并在2018年上半年拿到了该刊创新突破奖。

在2018年的CASP 13中,许锦波进一步在比赛中验证他的深度学习方法,激励了蛋白质结构学界的许多研究小组,其中最具代表性的要属DeepMind、Baker两支团队,相继推出了 AlphaFold2、RoseTTAFold等AI模型,将AI预测蛋白质结构的研究推向高潮。

许锦波也逐渐有了“AI预测蛋白质结构全球第一人”的称号。

不过,这个成果本可以更早。因为2015年,许锦波就组织了学生去实现他的想法,但没有成功。2016年初,腾出一些时间的许锦波开始亲自写代码,直至七八月份完成初步成果。

还有一个小插曲是,这一成果最初投递的是《Nature》子刊,但是审稿的编辑不太相信结果。“因为这个问题研究很多年了,一直没有什么进展,他不认为我们能做得这么好。”事实上,无论是从方法还是成果上看,深度卷积残差网络都超前于时代。

所以,即便是跟随许锦波多年的学生,或是权威杂志的审稿人,都很难理解他和他的成果。许锦波说,“当时计算机科学背景的人都在扎堆做序列,研究结构的非常少,所以很多结构预测方面的成果不那么受重视。”不过,也有很多人成了许锦波“学术上的朋友”。

曾在1994年创办CASP比赛,现任马里兰大学细胞生物学和分子遗传学系教授的约翰·莫尔特,对许锦波的工作作出了肯定。

他评价道:“DeepMind在开发一种非常有效的方法方面做得很好。然而,这项工作背后的概念和方法并非凭空而来,关键技术是深度学习方法的应用。毫无疑问,DeepMind直接建立在许锦波的工作之上。”

此外,2012年就转向深度学习,并在许锦波博士阶段指导过他的许东(现密苏里大学校董事会教授),对许锦波的工作寄予厚望:“锦波是蛋白质结构预测的少数且最重要的贡献者之一。随着蛋白质结构预测在更广泛的领域中取得进展,这一领域很可能再获得诺贝尔奖的认可。”

而许锦波的导师李明,更是毫不吝啬对爱徒的赞赏,“他是我在职业生涯中遇到的最有才华、最杰出的学者之一。”

一木不成林,百花方为春

蛋白质结构预测的冷清已经是过去式。2020年,AI预测蛋白质结构,被国际顶级学术期刊《科学》杂志评为“十大科学突破之一”,2021年又被评为“十大科学突破之首”。

2021年8月,DeepMind公司在《Nature》上宣布,已将人类的98.5%的蛋白质预测了一遍,计划当年年底将预测数量增加到1.3亿个,达到人类已知蛋白质总数的一半,并且公开了AlphaFold2的源代码,免费开源有关数据集,供全世界科研人员使用。

现任佐治亚大学校董事会教授的徐鹰,过去二十年来逐渐跳出蛋白质研究,转向了更接近实际问题的肿瘤生物学。看到越来越多工业力量的加入,他感叹,“现在,AI技术已被应用于各种与蛋白质相关的问题,但这一切都有迹可循,离不开锦波多年来的坚持,他很善于用不同方法不断改进自己的研究工具。”

许锦波很乐于看到DeepMind继承了他的思想。

“这种颠覆带来的改变非常大,特别是改变了分子生物学家做研究的范式——以前分子生物学家研究一个蛋白质,都是基于氨基酸序列去研究蛋白质的功能,但现在我们有了精确的结构预测,分子学家可以直接基于预测出的结构去研究蛋白质的功能。”

被改变的,不仅仅是一种研究方式,更是一个产业的崛起。

互联网巨头如微软、甲骨文、英伟达、亚马逊,以及中国的腾讯、百度、字节跳动和华为等都在竞相押注“AI for Science”。

许锦波认为,“当下的确是一个好时代。”

2021年年初,清华大学智能产业研究院(AIR)的张亚勤找到许锦波,询问其回国意向。2021年6月开始,许锦波陆续收到多方投资意向书。

很快,昌平国家实验室的高毅勤教授(现任北京大学化学与分子工程学院教授)、谢晓亮教授(现北京大学生物医学前沿创新中心主任)也找到许锦波。

两位教授坦言,国内学者评职称与论文数量和影响因子强绑定,从事计算生物学的人比较吃亏,这个领域的学者太少;但如果以计算机学者的身份,更是吃亏。工业界薪酬高、待遇高,多数人想去大厂。即便是资格老的教授,门下无人的现象常有。

“你愿不愿意回来?”

这个问题更像是一种期盼。许锦波清楚,培养交叉型人才不是一个教授能推动的,但需要有人站出来。

高毅勤教授、谢晓亮教授

2021年9月,许锦波回国,将视野转向应用空间更大的AI蛋白质优化设计方向。

谈及回国后的创业规划,许锦波表示,“我希望打造一个有中国特色的计算生物学,连接「 产学研用」,在创新药研发、生物材料、合成生物学等领域做出一些真正有用的东西。”

他兴致勃勃谈到,“比如能否把一个抗体优化得更好,使得它能够跟抗原结合更好;或者设计一个自然界不存在的蛋白,用它来做药或工业生产,比如我们可以设计一些新的酶来提高工业催化的效率。”

2022年1月,许锦波的公司成立,取名为“分子之心”(MoleculeMind)。

此后,由许锦波牵头,分子之心在国内组建了一支25人左右的团队,其中不乏生物计算、计算机科学、生物化学物理等多学科背景的研究人员和工程师。

4月份,公司完成数千万美元天使轮融资,由红杉中国领投,百度风投、生命园创投基金、芯航资本、未来启创等跟投。

7月份,公司自主研发的AI大分子优化与设计平台“MoleculeOS”正式亮相,填补了我国尚没有功能完整的AI蛋白质设计和优化平台的空白。

8月份,AI蛋白预测完成三级进化,全球首发孤儿蛋白预测新算法,进一步扩大了人类在蛋白质结构预测领域的探索效率和边界。

如今,分子之心计划与国外同行开展联动,在全球范围内同步打造专业的研发实验室,并持续寻找等各方面的优秀人才。

作为全球人工智能和生命科学的交叉领域首屈一指的顶尖华人科学家,许锦波的社会责任是什么?

他有一句话,很能回答这个问题:“AI颠覆了蛋白质结构预测,但这只是一个开始。我希望打造出中国生物经济时代的基础设施。”

分子之心MoleculeOS平台框架图诚然,如许锦波一样,生活在二十世纪中后期的一些学者是幸运的。他们有机会亲身见证历史的发生——70年代合成生物学诞生、80年代生物信息学诞生、90年代人类基因研究诞生、新世纪初基因测序成果诞生……如今,一个AI生命科学的时代到来。他们一生的探索都围绕生命科学的话题,他们的激情与困惑,真诚与彷徨,成为这场科学探索中不可分割的一部分。幸也,李明、徐鹰、姜涛、潘毅、周耀旗、许东、许锦波,为生命真理的探索并未结束。

作者注:

1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。目前,雷峰网启动《生物信息学的三十年往事》专题,陆续推出了李明、徐鹰、潘毅、周耀旗、许东、许锦波等新老学者的人物故事,记录光辉岁月,以照后人之路。关于生物信息学的更多故事,欢迎与本文作者吴彤交流,微信号:icedaguniang

雷峰网雷峰网


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/mfO3n35tRUyJKen9.html#comments Wed, 26 Oct 2022 10:30:00 +0800
现代信息论先驱李明院士,与他的三十年「生命科学」奇缘 //m.drvow.com/category/shengwuyiyao/lJUFs9WEtqR8Er4i.html

回想2020年AlphaFold 2的横空出世,以及延续下来的AI制药创业热情,我们很难承认这是一个人或者一个团队的灵感成果。李明与他的前辈、后生,在所处的数个巨变时代中,成为了一个个照亮学科和行业的‘持炬者’。

说起李明,诸多生物信息学学者都不吝称之为“学术大师”:他的学界成果以及给后世带来的启发性思考与推动,持续了数十年。

他在机器学习、自然语言处理、算法平均复杂度、现代信息论以及生物信息学方面都做出了重大贡献,解决了计算机科学领域诸多难题。

他的成就记录在Nature、Nature Methods、Nature Machine Intelligence, Nature Communications, PNAS、Scientific American、JACM、CACM、FOCS、STOC等国际顶级杂志和会议上。在谷歌学术,文章引用数超过三万五千次。

他是现代信息论奠基人之一。他与荷兰计算机科学家Paul Vitanyi合著了经典著作《Kolmogorov复杂性及其应用》。这本书至今四次再版,广为引用,被学界公认为迄今为止最具前瞻性的指导性文献之一。

Amazon的读者评论:这本书是每个程序员必读之书。芝加哥大学教授Lance Fortnow 称这本书是本领域独一无二的必读书。这本书写作严谨、文笔流畅、理论漂亮、应用新颖、信息全面,赢得了Amazon上众多读者的青睐,他们少见地为一本深奥的数学著作给出一致的5星好评。

他是加拿大皇家科学院院士、ACM、IEEE和ISCB 的Fellow、以及Killam Prize的唯一一位获奖大陆华人。

他还是一位创业者。2000、2013年分别创办两家公司,二十多年里,他的生物信息公司不仅商业能力稳健,还为无数生物信息学者的技术落地架起了一段桥梁。

李明院士数十年来,生物信息学科从无到有,经历了探索、勃兴、反思、革命等诸多重要节点,时代奔腾,学科起伏。

与李明同时代的好友姜涛、徐鹰、许东等人,仍在为学科奔走。

李明的晚生,如许锦波(博士师从李明)回国创立了分子之心、彭健(博士师从许锦波)创立了华深智药,师徒的情谊有了更多传承的意义。

他的足迹,是一幅跨越30年的生物信息学恢弘图景。

前半生的七所学校

北京海淀区科学院南路6号,是中国科学院计算技术研究所(下称“计算所”)。

1956年8月,中国科学院决定,成立计算技术所等三个研究所筹委会,并建立半导体物理研究小组,中国第一个专门从事“计算机科学技术”的学术机构由此诞生。

我国第一台通用数字电子计算机、我国高性能计算机的研发基地、我国首枚通用CPU芯片,都出自于此。

计算所有一条准则:瞄准国家重大需求,开展研究和技术转移工作。很长一段时间,计算所都是我国的计算机人才高地,一大批年轻人代表国家新兴力量留学海外。

其中一位,就是李明。

1980年,李明成为科学院公派出国的第一批研究生。这年4月,李明前往美国密歇根三大高校联盟之一的韦恩州立大学(WSU),攻读计算机科学硕士。只用了8个月时间,李明取得WSU硕士学位。

1981年,他赴康奈尔大学(Cornell)继续攻读计算机科学系。康奈尔大学是美国大学协会的十四个创始院校之一,著名的常春藤盟校八成员之一,李明在那里成为「计算复杂性」理论奠基人、图灵奖得主——Juris Hartmanis 的学生。

Juris Hartmanis教授

康奈尔大学的计算机科学系与Hartmanis有着重要渊源。

五十年代,Hartmanis拿到博士学位后,曾在康奈尔大学数学系任教过一段时间,后加入通用电气公司的信息研究部,与Richard Stearns一起开辟了计算复杂性。直到1965年,Hartmanis才离开通用电气,重返康奈尔大学任教。但他没有回到数学系,而是负责筹建计算机科学系。

Hartmanis的到来,随即吸引了一批著名计算学者加盟,J.E.Hopcroft(1986年图灵奖得主)、David Gries(1995年ACM优秀计算机教育奖获得者)、E.Horowitz、P.Wegner、A.Shaw,都慕名而来。

李明加入时,Hartmanis带领的计算机科学系正值发展上升期。蔡进一、郭百宁、周礼栋后来也陆续来到了该校计算机系。

Hartmanis任教的25年中,有21个博士研究生,李明是第13位。他延承了导师的的计算复杂性研究。博士期间,李明曾用Kolmogorov复杂性完全解决了Hartmanis-Stearns 20年前留下来的未解难题。

此前,Michael O. Robin以及Zvi Galil等人曾做出部分进展,但一直没有人彻底解决该问题。

李明创造了一个分析算法平均复杂性的新方法。他解释道,图灵机有一个单向输入带,而他用一个工作带,成功模拟出两个工作带的紧致时间下界,开创了Kolmogorov复杂性在计算机领域的应用。

这个方法后来被李明和他的同事们用来解决诸多问题,如,Shellsort平均复杂性、Heapsort平均复杂性、Lovasz Local Lemma的新证明——多头有限状态自动机是否可以做字符串匹配,k个下推栈是否真的比k-1个好,等等。

1985年3月,李明拿到博士学位后,去了俄亥俄州立大学的计算机科学与信息系任教一半年。

同期,李明的中科院硕士同学李国杰也读完博士(1981年李国杰前往美国普渡大学攻读博士学位,师从美国计算机界的权威华云生教授),进入伊利诺伊大学CSL实验室工作。两年后,李国杰回到中科院计算所,开始了自己终身的科创事业。

1986年,李明去往哈佛师从图灵奖得主——Les Valiant,做了一年的博士后。

Les Valiant教授

Les Valiant是一位英国人,同样是计算机科学背景,求学和任教经历相当丰富。他先后在英国剑桥大学、伦敦帝国理工学院、华威大学的计算机科学系学习,此后在卡内基梅隆大学、利兹大学和爱丁堡大学任教。直到1982年,Valiant来到哈佛,在异国他乡开始了长期的教学生活。

Valiant的一大贡献是1984年的论文《A Theory of the Learnable》,这让诞生于1950年代的机器学习第一次有了坚实的数学基础,对人工智能诸多领域包括加强学习、机器视觉、自然语言处理和手写识别等,都产生了巨大影响。

在与Valiant做博士后度过一年后,李明先后在哈佛大学Aiken计算实验室和加拿大约克大学短暂任教。两年后的1989年,他以副教授的身份去了滑铁卢大学的计算机科学系,与彼时刚刚博士毕业的杨强成为同事。

若干年后,杨强再赴他处就职,而李明留在了滑铁卢大学,1994年拿到终身教授职位,2009年成为校级教授(University Professor),并一直工作至今。

滑铁卢大学计算机系和多伦多大学计算机系一直并列为加拿大第一名,但滑铁卢大学计算机专业从来都是加拿大理科学生的首选。

在当地人心中,滑铁卢既是一座大学城,也是加拿大的高科技重镇。这所位于加拿大安大略省多伦多市西部、距离多伦多市区大约100公里的学校,创建于二战后的1957,其初衷就是为加拿大的经济建设培养人才。

正因如此,学校非常注重工程学科的建设和发展,尤其是计算机科系和工程系,学校更是倾其全力发展,并以全面的Co-op系统(Cooperative Education Program,指“带薪实习课程”)而世界闻名。时至今日,这两大系仍是滑铁卢大学的学术根基。

在这里,李明迎来了自己研究生涯的第一个“转型期”。

“误入”生信深处


在与雷峰网的对话中,李明坦言:“完全是误打误撞做起了生物学问题。”

在滑铁卢开始独立研究后,这位在计算机科学道路上近乎一路直线前进的学者,绝想不到自己会有一天与人类基因组计划产生联系。

1985年,人类基因组计划提出。这份史无前例的全人类的合作计划,不到五年时间就完成了全部的准备工作。

1990年,美国正式启动了该计划。投资30亿美元,用15年时间,破译组成人体约2.5万个基因的30亿个碱基对,绘制出关于人类基因的遗传图、物理图、排序图、转录图等所有图谱。

换言之,美国试图用“1美元1个碱基对”的预算,破译一本“生命天书”。

然而,这30亿碱基对相当于30亿阶楼梯,要按照正确的顺序排列完成,工程之浩大难以想象,被称为美国历史上的“第三大工程”(第一大工程为1944年的曼哈顿原子弹计划,第二大工程为1969年的阿波罗登月计划)。

人体基因组计划的意义及复杂程度史无前例。一旦揭开了基因的奥秘,人类将获悉生命的种族、血型、孕育、生长、凋亡等过程的全部信息。这也是为什么美、英、法、德、日和中国等六国的科学家,要共同参与这项国际性科研的原因。

一场对人类终极奥秘的探索,以1990年作为了分水岭。

在《生物信息学三十年》系列专题中曾提到,徐鹰、许东二人就是在这个时候参与到人类基因组计划中,他们建立了各种生物数据库,开发各种检索工具,并在DNA和蛋白质序列分析方面,合作做出了那个年代最好用的算法工具Prospect。

1989年,李明来到滑铁卢大学,接触的第一个问题就是困扰了计算机科学十年的——最短超串的近似算法分析。他发现,这一抽象的理论研究能够解决当时科学界的一个实际问题—— DNA序列的组装Shotgun算法的精确度问题。

用现在的眼光和影响来看,李明的这一发现恰逢其时。

基因组测序的困难在于,当时的技术无法准确读取长链,“读取”技术仅能够有效地读取较短的链。于是,科学家们决定将长链切成较短的碎片进行测序,最后在所有测序完成后,再拼装片段形成完整的DNA。当时应用最广的一种技术为“快速标签测序法”,被多国合作小组所承包。

但没想到的是,在人类基因组计划启动后,这项研究不仅迅速席卷多国,同时也扩散到诸多私营性质的基因研究机构中。

其中,最具代表性的就是的文特尔(J. C. Venter),他在1991年提出“霰弹枪法”的测序技术,目的是将一个细胞的所有基因复制多次,粉碎成无数个DNA小片段,再把大量基因测序工作交给计算机,从而大大加快DNA测序速度。一旦成功,他将把基因测序商业化,申请基因成果专利。

一场公私之间的竞争,在三十年前拉开帷幕。

J. C. Venter

李明身在计算机科学领域,却发现了一个关键问题。

他注意到,霰弹枪法虽然大幅度提高了测序速度,但也造成了众多重合度过高的碎片,导致原序列重建时速度降低。因此,只需要在大量的碎片中找到有最大重合的碎片,就可以像玩拼图游戏一样,将基因组还原,组装速度大大加快。

这也就引出了“最短超串(shortest superstring)解决法”。

1990年,李明做出了长度为O(n log n) 的超串来逼近长度为n的最短超串,成果发表至计算机科学领域的顶级会议期刊FOCS。

一年后,李明找到在加拿大麦克马斯特大学任教的姜涛,以及从荷兰来的访问学生John Tromp,合作钻研这一问题。三人相距不远,同在加拿大安大略省,开车一小时的距离。频繁交流中,姜涛解决了修改过的贪婪算法的线性解。

正在此时,三人发现MIT的Avrim Blum、贝尔实验室的Mihalis Yannakakis,也在钻研这一问题,并且也独立得到了修改过的贪婪算法线性解。

“分头做不如合作”,李明表态。五人一拍即合,最后由李明解决了原始贪婪算法的线性解,并合作发布了一篇STOC论文《 Linear approximation of shortest superstrings》。

无意中,李明这一为期两年的研究,为人类基因组测序方法提供了理论依据,为这一全人类的科研项目添了一把火。

后续,这一证明被收录至众多计算生物教科书中,其中影响最为广泛的一本,就是1995年被Michael S. Waterman(生物信息学和计算生物学的奠基人之一)收录至个人所著的《Introduction to Computational Biology:Maps, sequences and genomes》。

不过,对于这项成果,李明表现得相当淡然。他向雷峰网说到,“完全是误打误撞,我们把一个计算理论的问题解决了,属于先有了锤子再找钉子,结果可以用在生物学上,挺好玩,我们就开始做计算生物学了。”

也正是在这几篇论文之后,李明走向了生物信息学。

1995年,李明和时任明尼苏达大学计算机系教授的堵丁柱,决定回国创办一个计算机和算法相关的会议。

堵丁柱教授

此时,国内与国外是两个不同的世界。

尽管中国从1993年已经开始参与人类基因组计划,但由于国内人才缺乏、信息网络建设落后,生物信息学一直发展缓慢。

李明和堵丁柱起意,办一个包含计算理论、算法、组合优化、生物信息学几个方向的会议,每年举办一次,名字就叫计算与组合学国际会议,英文简称COCOON,是李明和John Tromp 一起起的名字。

有意思的是,这个简称对应的是正是英文单词“茧”。这似乎暗含了李明的期待:中国生物信息学能如蝴蝶破茧。

在这次会议后,我国的生物信息学真正进入了“黄金时代”。90年代中期,李衍达、孙之荣、陈润生、郝柏林等国内学者,成为了这股学术潮流的“奔走者”。

李衍达、孙之荣、陈润生、郝柏林四位教授

此后,清华大学迅速成为学术中心,先后举办了华北生信研讨会,成立了我国第一个生物信息学重点实验室——清华大学生物信息学研究所,并在新世纪后扩大规模,从区域会议变为全国会议,推出教育部直属的生信重点实验室。

后来也在国内创立生信会议的徐鹰,曾称赞李明是一个“大”学者:所谓学者之大,即耕耘在今日,收获在未来。

李明的黄金时代与合作者联盟

进入新千年,伴随着人类基因测序工作完成,生信研究再次迈入新时代——后基因组时代。

这次转变的一个重要标志是产生了「功能基因组学」,基因组学研究的重心由基因组的「结构」向基因的「功能」,也就是向蛋白组学转移。

后基因组时代,很多相关专业的人做起了生物信息学,如现任上海计算生物学研究所所长韩敬东、现北京大学前沿交叉学科研究院执行院长、中国科学院院士汤超、以及李明的博士生、被誉为“AI预测蛋白质结构全球第一人”的许锦波。

韩敬东教授、汤超教授、许锦波教授

套用文化研究者戴锦华教授的一段话:他们非常幸运和不幸地有机会意识到他们置身大时代,而非小时代,就是因为现代文明登顶,这一代人不论他们是否自觉,他们都是作答者。

如果说李明在基因组学的时代还是在做理论、打酱油,蛋白组学时代注定成为他的舞台。

他带领团队开发的PEAKS 系列蛋白组学软件,不仅跨界发表在了Nature Methods、PNAS、Nature Machine Intelligence、以及Nature Communications等期刊上,而且已经成为国际上蛋白组学的主流软件系统,拥有包含几乎所有跨国药企、相关的生物技术企业、研究所、大学在内的4000家用户。

如今在国内,这一是蛋白组学软件系统也覆盖了80%的蛋白组学研究中心。

这些年来,因为工作上频繁接触和经常的思想交流,姜涛(现任加州大学河畔分校校长讲座教授)与李明结下深厚友谊。他一直把李明看作是亦师亦友的兄长,对李明的才能和品质深为敬佩。姜涛说到,“人工智能带动了蛋白组学技术的革命性进展,老大哥李明是这一场变革的主要推动者之一。”

2000年,李明趁着滑铁卢大学的两年学术休假期,去往了加州大学圣巴巴拉分校(UCSB)。

问及缘由,李明说道,“我太太当时想去加州,那儿天气好,就去了。”

UCSB是一个“面朝大海,春暖花开”的滨海院校。临湖沿海靠山,号称全美最美大学,李明描述,“在沙滩走着,还能看到海豚跳来跳去。”

刚到这所最美大学,李明回滑铁卢创建了自己的第一个公司——生物信息学公司Bioinformatics Solutions Inc(BSI),开发蛋白组学通用软件。

他的合作者包括姜涛、马斌、徐鹰、许东、Paul Kearney、Jonathan Badger、Brona Brejova、Tomas Vinar。这一众同事或学生日后全部成为世界上计算生物学中翘楚。

那段时间里,李明还被一位博士生找上门来,希望拜入门下。

这个博士生正是许锦波,他是全国高中数学联赛江西省第一名。许锦波原本在滑铁卢大学跟着计算机科学方向的导师Prabhakar Ragde读博,尝试用计算的方法做一些生物学的问题。

2001年上半年,许锦波决定转入方向更为契合的李明组里。

按理说,李明在停薪留职期间不收学生,但他欣赏这位后生,两人都毕业于中科院计算所,说起来师出同门。于是,李明从Prabhakar Ragde那里要来了许锦波,算是合作培养。

2001年,许锦波正式转行计算生物学。

李明提议,“有一个很难的问题——蛋白质折叠,想不想做?”

许锦波接下了这一课题。回忆二十年前的那股决心,许锦波向雷峰网坦言,“就算一点结果都做不出来也没关系,大不了去硅谷当码农。”

很长一段时间,这对师生都是远程交流,基本上两个月才能见一次。

许锦波说到,“那时候没有现在这么方便的网络会议,刚开始的时候非常困难。”2002年李明回到滑铁卢,许锦波马上告诉了他一个好消息,“马上要开始今年的CASP(全球蛋白质结构预测比赛)了,我们也去参加。”

结果许锦波在这届比赛中一鸣惊人,在用于全自动高通量蛋白质结构预测的评比中,一举夺冠。

对于徒弟的成就,李明没有半点邀功,“我完全没有什么监督,全是锦波自己做的。”

此后很多年,两人都保持着亦师亦友的关系,许锦波去往了芝加哥丰田计算技术所。很大程度上,李明影响了许锦波的学术价值观。李明说到,“做一个事情就要把它做到最好,就算是一个小问题,也力争把它做到世界级水平,不要用论文数量要求自己。”

此后,除了蛋白组学,李明还在Kolmogorov复杂性、信息距离、蛋白质结构预测系统、同源搜索算法等领域都开展了大量的研究,直接促进了信息检索和基因测序方面的进步。

2006年,李明当选加拿大皇家科学院院士,成为获此殊荣的第二位华人学者。在李明之后,凭借计算机科学获得该奖的华人学者还有两位:京东副总裁、加拿大西蒙弗雷泽大学计算科学学院教授裴健、微众银行首席人工智能官、香港科技大学讲席教授杨强。

2010年,李明再获另一重量级奖项——加拿大最高科学奖Killam Prize。自从这个奖设立至今40多年来,李明是唯一一位来自中国的华人学者获得此奖。


2010年,李明获得加拿大最高科学奖Killam Prize

滑铁卢大学的第一位Killam Prize获奖者William Thomas Tutte教授,于1982年获奖。他曾在二战期间,破译了一系列被称为FISH的德国军事加密代码,使得诺曼底登陆得以大大提前。这被描述为第二次世界大战中最伟大的智力壮举之一。

换言之,近30年后,滑铁卢大学中才诞生了第二位Killam获奖者。时至今日,迄今为止仅有五人凭借计算机科学获此奖项。“深度学习三巨头”的其中两位——Geoffrey Hinton和Yoshua Bengio,分别在2012年和2019年获得Killam奖。


Geoffrey Hinton和Yoshua Bengio

盛誉加身后,李明继续创业。他最常用一句话告诫自己,“做得更实际一点,更应用一点。”2013年,李明在滑铁卢创办了第二家公司——RSVP Technologies Inc,基于信息论、深度学习与自然语言处理技术,开发了深度语义理解平台,为企业提供场景对话服务。

面向B端客户,这也是李明作为学者创业的独特之处。

他曾在创立之初拿对话系统举例,“针对C端的对话机器人并不受市场买单,其中最根本的一个问题是,目前大家对于语言/文本,在机器能处理的空间中没有一个很好的表达方式,使得现有的对话机器人没有办法从语义和逻辑上去理解对话,并且缺乏自学习能力。”

李明认为,从另一个角度看,NLP的工程化不是一个个算法的累积,也不是一个个任务的独立优化,而应该是系统工程,综合考虑语言、计算、场景等多种因素,不断演进融合,寻求效果满意解的过程。这也是利用NLP技术可以达到赋能B端的原因所在。

至今,这番话仍能引起很多NLP从业者的共鸣。很大程度上,这也是“学者”李明与“创业者”李明的一种默契。

第三次创业,终点是攻克癌症

技术落地,仿佛贯穿了李明的人生,而创业的出发点,也可以从他下面这句话得到答案。

“当年做Kolmogorov复杂度理论,以及shortest superstring,那些都是纯理论问题,只让大家嗨了一下,离实际应用还差得很远。”

2018年前后,谷歌下属的DeepMind实验室,一下子调动了30个人,动用了几百块的GPU,涉足当时略显得冷清的生物信息领域——以深度学习工具预测蛋白质结构。

实际上,这是基于许锦波开始独立研究后的一个工作。

2014年,许锦波曾设计了一种新的深度学习算法,开始使用深度学习去研究蛋白质结构。他先在蛋白质二级结构预测上测试,发现深度学习对这个简单问题有效,由此激发了他进一步的研究。

2015年和2016年,许锦波开发了一种更好的深度学习算法——RaptorX,它可以直接用来预测蛋白质的三维结构。

很快,许锦波凭借这一工作在2016年的CASP比赛中崭露头角。当年秋天,他把结果写成一篇论文发布在了网上。发布后的第一个月,即在领域内引起了一小波关注。次年1月,许锦波将前期成果正式发表于PLOS Computational Biology,将蛋白质结构预测的声浪推向高潮。

自此以后,无论是学术界还是产业界,都对蛋白质结构预测给予了广泛的关注,特别是受到许锦波前期研究成果启发的AlphaFold 2,更是直接带热了AI制药行业。

由于家中亲人癌症去世,从2005年,李明就开始研究癌症。从2000年代以来,李明在质谱仪肽段测序方面做了大量的研究,2016年他发现,结合深度学习可以将此类技术应用在癌症个体化治疗中。

目前,对于癌症治疗的传统方法主要有以下三种模式:手术、化疗、放疗。但是由于手术风险较大,重要器官的肿瘤无法根除,化疗和放疗带来的巨大副作用,价格高昂以及个体差异等种种因素,人们开始在传统的治疗方法以外寻求其他更为高效,对个体更为精准以及副作用更小的疗法。免疫疗法成为不二之选。

李明进一步解释,当一个细胞发生癌变,我们的白细胞抗原(HLA)系统会把一些变异的肽段(新抗原)表达在细胞表面,以通知胞毒T细胞(CD8+ T)来清除这个癌细胞。个体化癌症免疫治疗的关键就是找到这些新抗原。

然而,如何在个体化层面鉴定这类新抗原和相关验证仍然是一巨大挑战。而这,也正是引入是深度学习的关键。李明将其称之为“新抗原的从头测序”。

具体来说,用深度学习寻找新抗原的过程,可以理解为三步:

一、在癌组织里面将癌细胞产生的新抗原提取出来,然后利用质谱仪DIA采集模式,将新抗原肽段产生大的谱图数据载入软件分析;

二、利用个人的HLA 肽段重新训练个体化模型,继续识别患者产生的新抗原;

三、最后也是最关键的一步是,用深度学习鉴定新抗原是否能激起免疫反应,也就是验证其有效性。

在传统方法中,最常见的一种验证方法就是“湿实验”,即通过在实验室里采用分子、细胞、生理学试验方法进行验证。然而,从大量的实验验证到药物研制,这个过程不仅漫长,造价也极其高昂。

针对这个问题,李明提出了模拟人体中心耐受系统的思想来解决在免疫原性预测中没有TCR 的问题,与Ngoc Hieu Tran博士和团队推出一个崭新的DeepImmu AI平台,使用深度学习技术替代传统湿实验室过程,新抗原的检测精度大大提高。

李明说,“生命科学领域存在大量的数据,单纯靠湿实验室远远不够。个性化治疗的普及需要干实验室化,AI将会帮助生物学家将制药流程从湿实验转到干实验。”

从应用价值上看,个体化癌症免疫疗法,也将随着时间发展而更加深刻。它意味着个性化免疫药物不再是花费数十年、耗资巨大的一种药物,而是可以通过产生针对每个人个体的特性新抗原,达到准确的治疗目的。甚至在未来,个体化治疗也将被用于其他疾病,如自身免疫系统疾病的治疗、降低器官移植的排异反应、以及预防癌症疫苗的生产上。

道阻且长,回头再看选攻克癌症这个选择,李明表示,“个体性免疫治疗在改变传统制药业的轨道,也是一个巨大的科学和工程问题。人工智能技术和时代的进步,一定要靠理论的进步,其次要用工程的思维找出一些有价值的应用方向。”

在他看来,与传统制药业相比,个体化制药是中国实现弯道超车的机会,将人工智能与个体化癌症免疫治疗相结合,是完成这个目标的关键。

2020年,BSI公司落地中国武汉和上海,李明取意诗经中的“桃之夭夭,叶之蓁蓁”,将其名为“百蓁生物”。百蓁利用BSI在软件和AI上的优势,在国内开始服务高端蛋白质学CRO市场。

基于BSI的软件,为制药公司、科研院所,提供高端蛋白质组学、糖基化分析、新抗原,蛋白质从头测序,抗体表征等一系列高端CRO服务。随着公司的落地,他们的新抗原测序和鉴定管线已经完成并开始服务。

李明表示,从BSI到百蓁生物,如果能够为生命科学做出一点推动,我的工作就算没有白费。

2021年4月,李明院士办公室落成郑州

去年四月,李明促成了一件大事,与郑州中原科技城、中科院计算技术研究所大数据研究院联手,将自己的实验室落成郑州。

落地这家“院士办公室”,它的意义不仅在于人才引领示范,还是郑州乃至中国的科技转型缩影。李明希望未来能够打造大数据抗体和抗原库,将人工智能与个体化癌症免疫治疗方法应用到临床治疗,实现癌症治疗的突破性进展。

在暂时的黑暗中,也最先看到黎明

历史的尖峰时刻,都需要太长的酝酿时间,每一桩影响深远的事件都需要一个发展的过程。就像避雷针的尖端汇聚了整个大气层的电流一样,那些不可胜数的事件也会挤在最短的时间内发作,但它们的决定性影响却超越时间之上。

所以,回想2020年AlphaFold 2的横空出世,以及如今AI制药等创业行业的火热,我们很难承认,这是一个人或者一个团队的灵感成果。李明与他的前辈、后辈,与他所在的数个时代——身在暂时的黑暗中,也最先看到黎明。

他们,是持炬者。


]]>
生物医药 //m.drvow.com/category/shengwuyiyao/lJUFs9WEtqR8Er4i.html#comments Wed, 19 Oct 2022 16:04:00 +0800
对话碳硅智慧CEO邓亚峰:我为什么放弃互联网公司高管职位,来做AI制药? //m.drvow.com/category/shengwuyiyao/4ibIJcennncFKOQs.html 辞去360人工智能研究院院长一职、投身AI制药,对于邓亚峰来说是不是一个不后悔的决定?

2012年,AlexNet深度卷积神经网络在ImageNet分类比赛中大杀四方,深度学习革命就此发轫。

一年后,邓亚峰加入了百度深度学习研究院,成为一名资深科学家。

2016年8月,邓亚峰离开百度加入格灵深瞳,半年后成为CTO,职业角色从一名技术专家,转变为一个百人技术团队的管理者。

2020年,邓亚峰加入360集团。

他的近三段职业生涯,以四年为一个节点,但却一直围绕AI切换赛道和角色。

在一个偶然的机会下,邓亚峰认识了现任公司首席科学家侯廷军,后者是浙大药学院教授,在计算机辅助药物设计领域有二十多年的积累。

当时,邓亚峰已经是360集团副总裁、人工智能研究院院长兼搜索事业部总经理,管理着400人左右的产品技术团队。

但两人深入交流之后,邓亚峰毅然决定进入AI制药行业。

2022年自然语言处理峰会上,邓亚峰以碳硅智慧创始人兼CEO身份公开亮相,并且在近日完成了5000万人民币天使轮融资,由联想创投、联想之星联合领投。

对于邓亚峰而言,一切重新开始。

撕掉身上的旧标签

对于自己做AI制药,邓亚峰给出了三个理由。

首先是,技术“迁移”的可行性。

细细算来,邓亚峰在CV(计算机视觉)领域做了近20年,这是他身上的一个标签。

在百度深度学习研究院的三年里,邓亚峰参与提出了第一个基于深度学习的端到端的一阶段物体检测框架DenseBox,和团队一起将LFW评测的准确率做到了第一,成绩是接近极限的99.77%;

在格灵深瞳他担任CTO ,主要负责人脸识别、人体再识别、车辆识别等算法和软件产品的研发工作。

“不过,我不想只做CV,因为我不想给自己人生设限。”

所以到了360之后,除了CV之外,邓亚峰开始做NLP、多模态表示学习、机器人等方向。

在以深度学习为特征的AI技术跃迁下,不同研究方向的迁移、融合已经渐成趋势。

“2002年左右,做车牌识别和人脸识别是两拨人,因为大家的技术栈非常不一样。想要转行,得花上两年时间学习。但是,二十年后的今天,借助CNN/Transformer等模型,CV领域内部、CV和其他领域间,都可以比较轻松地实现跨界。”

和其他AI落地的领域一样,药物研发需要领域知识,不仅仅涉及到药学,还包括物理、化学、生物、医学等,这是一个非常跨学科的交叉领域。

对邓亚峰而言,不可能在短时间内学好所有的生物医学知识。

但是在他看来,有了一定的领域知识,将具体场景的需求抽象成AI建模问题后,会非常考验团队的AI算法建模能力和软硬件产品开发能力。

“我们团队已经有比较多药学背景的同学,所以,我们最近一段时间花精力招人,更侧重于AI算法人才。我们希望找到深度理解深度学习,并且对生命科学感兴趣、有使命感的人。这些算法同学,初期需要学习一些领域知识,之后就可以在团队配合下去解决新药发现各子任务的建模问题。实际上手项目的时间,只需要一两个月就好。”

其次,是人生规划的必要性。

在格灵深瞳2016年到2020年的3年半时间里,邓亚峰是一个技术管理者,但他把内部团队和业务梳理清楚之后,也对这一角色产生了疲态。

邓亚峰坦言,离开格灵深瞳,是不想一直做重复的事情。

“今年格灵深瞳也上市了,我离开时还是放弃了很多的。如果我一直在格灵深瞳待下去,从财务角度会好很多,但我还是想做一件让自己更有激情的事情。”

到了360之后,邓亚峰已经变成一个实际意义上的业务负责人,无论是在人工智能研究院还是搜索事业部,都要对预算负责,要考虑项目的投入产出比。

所以,选择加入360本身就是邓亚峰有意实现自我转型、从技术管理者向业务负责人的规划使然。

最后一个原因是,是时代给他的机遇。

这一波AI的创业浪潮,本质上属于技术者。互联网和移动互联网的创业草莽氛围,决定了创业者本身不需要精通技术,洞悉人性、营销裂变、花钱拉新,就能做好一个创业项目。

但这种粗放的创业路径,放在当下的创业环境下早已难以为继。

所以,我们能发现一个趋势:AI行业里的CEO,尤其是在创业初期的CEO,多是技术出身。

当然,在一家公司成熟之后,出于商业化的考虑,技术管理者可能会让位于销售、渠道见长的商业人才、抑或是职业经理人。但是,技术管理者的思维、组织框架,已经给公司打上深深的烙印。

一个很明显的现象是,无论是“深度学习预测蛋白质结构”第一人许锦波、亦或是华深智药彭健、百奥几何唐建、燧坤智能曾建阳等等一系列AI制药公司的创始人,均是技术背景出身,也陆续拿到千万级别的融资,这说明资本认可这条赛道。

AI制药,是一个属于邓亚峰这类人的机会。

AI制药,能否避开影像的前车之鉴?

AI行业的创业,缘起10年前。直至2016年的AlphaGo之后,医疗AI的创业大幕正式拉开。

早期的医疗AI以医学影像AI为标志,但坦白而言,医学影像AI的前期创业门槛不算高:基于开源的数据库和算法,就可以做成很好的“实验室”效果,轻松拿到融资。

同样的情况,也发生在AI制药身上。

2021年,全球AI+制药产业共发生77起融资事件,累计融资额达45.64亿美元,融资事件数和融资额共同刷新了历年融资纪录。对比2020年,2021年融资额增长率达152%。

邓亚峰认为,技术角度,医学影像AI是CV的垂直应用领域,有现有的图像检测、分割算法模型可以借用,技术壁垒并不高;

商业角度,医疗影像服务,一直都没有找到一个合理地从消费者身上额外收费的模式,同时,也难以处理与医生的伦理关系,即最终还需要医生签字,无法真正代替医生。

所以,最终医疗影像算法变成了医疗器械的附属,难以创造非常高的商业价值。

相比而言,AI制药有着与医学影像AI不同的处境。

从AI制药的痛点而言,目前的新药研发效率很低,失败率很高。邓亚峰透露了一组数字:“目前手工试验是非常低效的,一个博士5年期间只能合成约100种化合物,效率并不高。”。

在新药发现的各个环节中,都有AI算法发挥的空间,AI是解决新药研发领域痛点的钥匙。谁掌握了基于AI平台开发新药的能力,谁就会脱颖而出。而药品市场是一个十万亿市场,具有非常大的想象空间。

另一方面,AI制药领域的技术门槛非常高,没有如计算机视觉、自然语言理解领域那样成熟的框架和模型可以直接使用,现有的算法需要持续打磨才能产生价值,这就需要团队有非常强的算法建模能力。

新药发现领域的AI技术分为两个层次:

第一个层次,从微观、底层的角度进行建模,例如围绕分子和靶点的相互作用或分子的性质预测,基于Transformer或者图神经网络对底层物理化学规律进行建模;

第二个层次,就是从宏观层面对化合物、蛋白、基因、疾病之间的数据关联性进行建模,这里会用到多模态预训练、知识图谱等技术。

“在生命科学领域,必须要有原创的模型和方法,去真正解决掉研发环节中的某个具体问题,目标客户才会付费。而且,AI制药的目标客户不同于医院,少了很多政策、伦理上的掣肘。”

如其他“AI+”赛道,AI制药的核心在于制药,需要具备深厚药学背景的人才,这就要提到碳硅智慧的另一位联合创始人侯廷军教授。

侯廷军教授本硕博均从北京大学毕业,作为国家“万人计划”科技创新领军人才,曾获得Elsevier中国高被引学者、药明康德生命化学研究奖、英国皇家化学会"Top 1%"高被引中国作者,SCI学术论文400余篇,ESI高引和扩展ESI高引论文30篇,总引次数 (google)> 20000 次,H因子70,软件著作权19项,发明专利43项,并已授权23项。

作为浙江大学药学院特聘教授,侯廷军拥有长达20余年的药物设计方法学和应用研究经验,在2022年刚刚发布的全球学者学术影响力排行榜上,他位列国内药学学科领军人物榜单第三位。

他所带领的研究团队也是国内人工智能辅助药物设计领域最好的团队之一。

两人的分工则是:邓亚峰作为董事长兼CEO,负责公司的战略规划、运营管理以及人工智能软硬件产品研发;侯廷军作为首席科学家,专注公司在药学领域的研发和布局,以及前沿方向探索。

2022年9月,侯廷军团队、浙江大学谢昌谕团队、武汉大学陈曦团队、中南大学曹东升团队及碳硅智慧团队联合在《药物化学杂志》(Journal of Medicinal Chemistry)发表了论文。

药物发现中的一个问题是,如何有效地寻找具有所需特性的新分子,例如生物活性、成药性和安全性一直以来都是药物发现中亟待解决的难题。

一个主要困难是类药物化学空间中分子的估计数量在10的三十次方到六十次方之间。如何从如此庞大的集合中智能地生成或识别有用的分子结构一直是从头药物设计的长期障碍。

基于遗传算法(GA)的分子生成方法不需要模拟训练数据集的分布(因为它们根本不需要训练),因此它们表现出更高的探索能力。

因此,上述5个团队联合提出了两种分子生成算法ChemistGA。模型在单靶点(DRD2)与多靶点(GSK3β与JNK3)分子生成任务中,对比现有的传统GA与DL分子生成模型,ChemistGA 不仅保留了传统GA分子生成算法的优点,而且大大提高了具有所需特性的生成分子的可合成率以及生成效率。

这样的案例也表明,碳硅智慧在AI制药的原创研究道路上,已经正式起步。

做服务还是做管线的路线选择

仅有AI制药的模型和算法策略并不够,还需要形成一个完整的流程。

药物设计需要一个像芯片设计领域的EDA工具,帮助药物设计专家看到药物设计全貌,且能形成数据和模型闭环迭代的设计平台。

近期,不少AI制药团队都陆续提出类似概念,例如智峪生科、天壤智能等。

据邓亚峰介绍,目前,碳硅智慧已建立了业内领先且完全拥有自主知识产权的一站式新药发现平台 DrugFlow,包括靶标评估、虚拟筛选、先导化合物优化、成药性预测等模块,可以帮助药化专家更高效、便捷地找到潜在成药分子。

这类似于芯片设计领域的EDA软件,帮助专家更好地决策和判断。其中的成药性预测、分子生成优化、AI打分等模块都是行业里面其他软件不具备的独特功能。

除此之外,碳硅智慧内部的药化及计算专家,基于DrugFlow平台,总结出基于AI计算的最佳药物设计实践,并对外提供药物分子设计服务。

在美国国家生物技术信息中心工作多年,目前担任夸克资本合伙人Leo 韩涟漪曾向雷峰网《医健AI掘金志》表示:“在谈AI前景前,药学家和医药从业者,会先关注AI制药企业的业务逻辑是什么,核心竞争力在哪里,最终影响哪一类赛道,无论是晶型预测,还是小分子药物筛选,AI怎样找到药物研发的服务关系才是关键。”

邓亚峰表示,碳硅智慧没有将自己定位成一家Biotech公司,而是想做行业AI基础设施和服务赋能者,通过构建基于AI和物理计算模型、数据驱动、干湿实验闭环的药物设计平台和设计服务,最终让客户自己决定是使用软硬件设计产品,还是直接使用碳硅智慧的药物设计服务。

在雷峰网此前的报道中,据2020年6月发表于Drug Discovery Today杂志的文章显示,21家头部跨国药企在2014-2019年共发表398篇与“AI药物研发”相关的论文,同时启动了73项内部AI研发项目、61项与外部AI公司合作的项目、以及11项投资/收购初创AI企业。

这里涉及到一个核心问题:既然AI技术对药企而言很重要,那么药企不能通过自建团队来实现?

类似的事情是,安防公司海康威在摄像头业务之外,专门设立AI事业部,做边端算法;或者飞利浦、西门子等器械厂商去做扫描环节的图像重建、增强等AI算法。如此而言,AI制药团队就会面临不小的挑战。

“我觉得(药企自建AI团队)很难做起来。AI制药不同于AI安防,安防本质上是一个硬件生意,考验的是供应链以及售后体系的构建。”

邓亚峰给出了自己的观点:“传统药学专家亦或是内部的IT工程师,对于AI的理解是不一样的。生命科学领域的AI,不是拿一个开源软件就可以做起来的,有很高的门槛,需要顶尖的团队才能真正做好。而成熟企业,想建立这样的团队,目前看并不容易,核心原因是顶尖的AI人才不会选择特别传统的平台,两种团队的文化氛围差别很大。即使建立了AI团队,在巨大投入下,AI的价值也很难评估,团队会面临巨大的压力。”

除此之外,企业内部的关键决策人,其思路和视角仍不可避免地聚焦在传统业务的“价值链”上,新业务的投入产出比也会屡受内部争议。

因此,邓亚峰认为,对于药企来说,借助外部团队的AI能力,对自身而言是一个最具备“性价比”的选择,也是不可或缺的补充剂。

结语

从6月18日离职到正式运营碳硅智慧,邓亚峰只花了三个月的时间。目前,公司已经建立起近60人的团队。

而碳硅智能的第一要务,是基于AI和物理计算模型以及软件流程和硬件自动化,去搭建一个真正提高药物发现效率的设计平台。无论是卖软硬件产品,还是做药物设计服务,抑或是与战略合作伙伴联合做药,都可以基于效率去谈价值实现。

过去两年,国外先后有Schrodinger薛定谔、Exscientia、Relay多家AI制药企业完成了上市。从找到临床前候选化合物,到接踵而至的药企合作;从持续不断的大额融资,到斩获百亿巨额订单。

AI新药研发企业的攻城掠地速度,刷新了各个药企、投资人、AI圈人的认知。

“AI对新药研发领域的价值毋庸置疑,但是能否成长为一个千亿规模的大平台,还有待验证。关键在于,你相不相信制药的固有模式会被AI改变。只要你创造了价值,就会有获得回报的方式。” 

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/4ibIJcennncFKOQs.html#comments Fri, 30 Sep 2022 23:44:00 +0800
AI制药公司百奥几何完成融资:创始人唐建来自图灵奖得主Yoshua Bengio实验室 //m.drvow.com/category/shengwuyiyao/1prYCKHRrfhIednh.html 雷峰网消息,2022年9月21日,百奥几何宣布完成千万美元天使轮融资,投资方为高榕资本。团队也发布了首个针对大分子药物研发的开源机器学习平台TorchProtein,致力于通过AI加速药物研发的进程。

图表示学习领域顶级科学家唐建创办,下一代AI技术加速药物研发进程

百奥几何由加拿大蒙特利尔大学算法研究所(Mila)的副教授、终身教授唐建博士于2021年创立,致力于开发几何深度学习、深度生成模型等下一代人工智能技术,用于大分子药物研发。公司也获得了图灵奖获得者、深度学习三巨头之一、加拿大蒙特利尔大学教授Yoshua Bengio的认可和支持,将担任公司的科学顾问。公司正打造人工智能大分子药物设计和高通量大分子药物湿实验验证两大基础平台,通过干湿实验闭环,快速完成候选药物设计以及提高候选药物在临床阶段的成功率。

计算能力的持续提高,加上高通量生物数据生产的指数级增长,为科学家带来了药物发现和开发的新时代。从分子、蛋白质到医疗知识图谱,透过海量的图结构数据,AI模型和数据集在不断改写着生物制药的格局。 

百奥几何创始人唐建博士毕业于北京大学信息科学学院,曾在微软亚洲研究院担任研究员,并在美国卡耐基梅隆以及密歇根大学进行博士后研究。唐建博士在图表示学习领域做了诸多开创性的工作,也是国际上最早把深度学习运用于图结构数据的少数几名学者之一。

唐建博士曾获得机器学习领域三大顶级会议ICML’14的最佳论文(国内唯一)以及数据挖掘领域顶级会议WWW‘16的最佳论文提名。他在图表示学习领域的代表性工作LINE 2015年发表以来已经被国内外高校、工业界广泛认可,引用超过4500次。他多次担任机器学习顶级会议ICML、NeurIPS的领域主席,并且多次获得包括亚马逊、腾讯等公司的教师科研奖。 

早在2018年,唐建博士在图表示学习研究中意识到,最杀手级的应用或将诞生在生物医药领域。唐建博士开创性地把图表示学习和几何深度学习技术运用到药物研发领域,在分子性质预测、结构性质预测上,进行了大量创新性的研究工作。唐建博士领衔团队开发了第一个专门针对药物研发的开源机器学习系统TorchDrug,旨在推进人工智能在药物发现方向的开源共享,加速整个药物研发的进展,引起了广泛关注。

AI大分子药物设计平台完成建设,抗体优化、抗体结构预测取得国际领先技术

目前,百奥几何已基本完成人工智能大分子药物设计平台建设,在抗体结构预测、抗体优化、抗体序列设计、酶活性预测等任务上都取得了国际领先的水平。

公司的高通量大分子药物湿实验验证平台,也正联合生物医药领域知名高校和实验室展开建设,推进前沿工作。公司希望通过干湿实验闭环,加速药物研发进程。

与此同时,团队也联合英伟达、英特尔、IBM等公司联合发布了首个针对大分子药物研发的开源机器学习平台TorchProtein。该平台开源了深度学习对大分子建模的一个通用框架、基于蛋白质三维几何结构的第一个预训练大模型、以及专门用于评价深度学习对蛋白质建模效果的标准数据集。

团队目前已经与国内外多家著名高校、企业都建立了合作关系,共同推进人工智能在药物研发方向的进展。

唐建博士表示,“当前我们正处在AI以及生物技术革命的交汇点。一方面,几何深度学习技术(如AlphaFold2)在分子建模方面取得了巨大突破;另一方面,以合成生物学为代表的生物技术能够对基因进行快速读、写、以及编辑,给AI创造了大量的数据。两种革命技术的深度融合为生物大分子设计带来了巨大的机会。” 

高榕资本创始合伙人岳斌表示,“计算领域的突破,正在重构药物发现的过程。我们相信,人工智能可以帮助大分子药物研发取得很大的进展。唐建博士将图表示学习和几何深度学习技术运用到药物研发领域,做了非常多开创性的工作,也在抗体优化、抗体结构预测任务上取得了国际领先的技术。期待百奥几何通过下一代人工智能技术,加速药物研发进程,解决重大疾病挑战。”

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/1prYCKHRrfhIednh.html#comments Wed, 21 Sep 2022 15:19:00 +0800
对话天壤XLab负责人苗洪江:如何做一款AI蛋白质设计领域的「EDA软件」? //m.drvow.com/category/shengwuyiyao/1Y7HA3srikgI65BP.html

AlphaFold 近年来展现给世人的惊喜层出不穷,使得向来被称为生物学圣杯的蛋白质折叠问题有了新的解决方法,为整个计算生物领域带来了更大的关注量。

其中,AI蛋白质预测与设计赛道不断吸引着创业者与Meta、腾讯等大厂的加入。

各种算法、模型互相比拼,不断刷新准确度、运行速度与数据库数量。在AI的赋能下,蛋白质结构数据大大增加,使得AI蛋白质从头设计变得可行起来。

相关算法、平台突增,但在追求硬核指标之外,也有其他值得关注之处。

“我们发现,虽然人工智能现在具备了蛋白质从头设计的能力,但要推动整个领域的快速发展,比算法开发更重要的是要解决大家在产业实践中遇到的种种困难。”

苗洪江来自天壤XLab,是该实验室负责人。

他表示,基于上述背景,天壤XLab发布了一款蛋白质设计工作台——CREATOR,试图解决跨领域技术门槛高、工作流程碎片化的问题,在同个工作台上一站式地完成全部蛋白质设计项目。

在赛道发展的早期阶段,这个工作台还需要直面AI蛋白质预测与设计所遭受的质疑,通过降低使用门槛是否能为赛道带来新的气象?

如何实现“人人”都能设计蛋白质?

蛋白质设计有着非常广泛的应用场景,除了新药研发,还能应用在新材料、新食品等领域。蛋白质设计的重要性毋庸置疑,但在AI介入前进展缓慢。

苗洪江认为,蛋白质设计共经历3个阶段,每一阶段的能力提升都与人类对蛋白质结构的理解分不开。

第一个阶段是最早期的20世纪90年代。

这个阶段只有少量的蛋白质结构,对于蛋白质折叠的理解也非常局限,这使得当时完全无法实现功能上的设计,只能通过手动拼接出很简单的二级结构片段。

第二个阶段,随着蛋白质数据库中的结构信息增加,研究人员得以从这些信息中总结出理性经验以及更为复杂的蛋白质能量函数关系,通过实践设计出越来越多功能的蛋白质。

但在这个阶段,蛋白质设计的流程很复杂,落地也非常困难。

而第三阶段,也就是当下,借助AI的技术能力,研究人员已经能够从头设计蛋白质,蛋白质设计的产业化应用也变得更加容易,标志着蛋白质设计已经进入了全新的时代。

在AI算法的加持下,蛋白质结构预测与设计赛道结束了“无人问津”的状态,逐步收获了巨大的关注。

但在实际的产业实践中,仍有各种困难阻碍推广。在苗洪江看来,在这个阶段,要推动整个领域的快速发展,比算法开发更重要的是要解决一些难以避免的困难。

首先,蛋白质设计本身就是一个门槛超高的交叉领域,串联着非常多的学科知识。

苗洪江介绍,在这个领域的研究人员不仅需要具备生物计算的能力,可能还要具备结构生物学、计算化学、物理学等多方面的知识背景,高门槛导致了整个领域的推广很难进行。

其次,现有平台的能力过于单一。

苗洪江毕业于伦敦帝国理工学院计算生物系,在校时,他就曾参与开发Phyre2蛋白质结构预测及分析平台,该平台是目前全球最常用的模拟工具之一。

他注意到,即使平台相对开源算法已经大大减轻研究员的使用门槛,但平台依然掣肘研究工作。

在AI+蛋白质设计工作里,需要调用多种算法能力,而单个平台往往难以满足所有需求。因此,一种很普遍的研究流程出现了——研究员需要在不同的算法平台之间切换。

“在这个平台上做计算,然后下来再去另一家平台上做计算,把结果拿下来后,还要对不同平台的计算结果进行对比分析,整个流程就非常乱套,严重阻碍了工作效率。”

CREATOR 要解决的正是这些痛点。

CREATOR工作台集成了市面上优秀的算法,包括天壤XLab自研的算法与所有外部开源和合作伙伴的算法。

研究员可以自由地选取算法,在CREATOR 上完成结构预测、蛋白质设计、特性分析优化的工作,省去繁琐的切换步骤。

工作台采用可视化呈现,在使用过程中,研究员无需了解算法及其背后的原理,只需进行简单的输入,建立任务并运行,就能得到结果。

在工作台上,研究员还可以对历史任务进行跟踪查看,以项目的方式对原本零散的任务进行分类、串联和管理,一站式地完成从项目规划到结果分析的整个流程。

CREATOR 适用于多肽、酶、抗体和各类功能蛋白质,使用时无需安装软件,在线登陆账号就能启用核心功能。

苗洪江这样形容CREATOR 的作用,“当跨进门要上楼的时候,我们就是一个电梯,而不是需要一步一步走的楼梯。”

如EDA出现后,复杂的芯片功能设计、验证与物理设计都能交由计算机处理,大大节省了时间及人力,推动芯片设计不断往高精方向发展。

下一步,天壤XLab 将继续扩充CREATOR 工作台的功能和算法,建设蛋白质知识图谱,并扩展已有的功能motif库,以进一步赋能研发人员。

能否破除对AI蛋白质设计的质疑?

天壤XLab成立于2019年。

到目前为止,团队已推出了单链蛋白质结构预测平台TRFold2、蛋白质设计平台TRDesign,专注复合体结构预测的TRComplex,以及不依赖MSA信息就能预测蛋白质结构的TRFold-single。

在这些单点能力上,天壤XLab 的TRFold2成绩比较理想,去年在基于CASP14蛋白质测试集内测中,获得了TM-score 打分82.7/100的成绩,今年经数据增强和模型参数扩增后得分达到90.2/100,仅次于全球第一名AlphaFold2的91.1/100的成绩。

今年6月,天壤XLab宣布基于TRDesign成功设计了新冠刺突蛋白结合剂,意图证明AI不仅能准确预测蛋白质结构,还能主动设计蛋白质。

但这些天壤XLab引以为傲的成绩,在圈子外的人看来还不足以令人信服。实际上,整个AI蛋白质预测与设计赛道都面临这样的尴尬境地。

就在不久前,DeepMind宣布,AlphaFold 已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构,以后确定科学已知的蛋白质预测模型将像用“谷歌搜索”一样简单。这一消息引起信徒们的狂欢,但遭受外界诸多质疑。

潘毅、周耀旗、许东等几位生物信息学领域的学者在接受《医健AI掘金志》采访时表示,AlphaFold蛋白质结构数据库新更新的海量数据中存在着部分结果结构不稳定、不能应用于研究中等问题。

美国一位有着30年资深药企从业经历的专家也发文抨击:AlphaFold的作用纯属媒体夸大,靠结构预测做药“纯属自嗨”。

苗洪江坦承,由于研发人员的背景经历不同,对事物的理解也存在差异,大家对于AI预测蛋白质结构的准确度和实用性尚有较大分歧,现在就让大家理解并相信AI可以实现蛋白质设计及应用更是难上加难。

这是还处在年幼阶段的赛道必须面对的现实。正是基于这些认知,天壤XLab选择此时推出CREATOR工作台,希望能通过降低蛋白质设计的门槛,推动技术普及。

据《医健AI掘金志》了解,CREATOR工作台将于10月1日正式上线,面向高校师生免费开放。到后期,天壤XLab也将推动CREATOR工作台面向企业用户的合作。

苗洪江表示,企业级的应用对于后端算力的压力会更大,且相比高校,企业的需求也会偏向个性化,面向企业的服务还需要更完善的团队来支持,公司正在积极筹备。

“这个工作台能帮助我们解决很多问题,比如说,试用并了解这个领域后,会加深大家对AI设计蛋白质的认知,兴趣会不断增加,也能帮我们开启更多合作。”

AI大分子药物研发何时迎“春天”?

AlphaFold 取得突破性进展后,整个蛋白质计算领域十分火热。尽管热度已持续一段时间,但针对蛋白质计算领域的探索其实才刚刚开始。

在苗洪江看来,目前这个领域还远远算不上竞争激烈。

“这是因为之前蛋白质计算领域,特别是在国内,是很冷门的领域,在这个领域有足够积累、了解需要做什么、应该怎么做、对如何将技术落地应用有足够思考和布局的团队其实非常的少。”

比如,最近国内一些高校才逐渐增设计算机加生物学的专业来培养复合型人才,作为根基的人才储备都跟不上,这个领域很难谈得上竞争激烈。

目前,虽然国内外都有不少公司围绕着AlphaFold 算法做商业化,但苗洪江认为,真正属于前沿的探索并不多。

苗洪江介绍,在这些商业化路径中,“有用AlphaFold 做预测服务收费、售卖算力的,也有用AlphaFold 预测结果来做大范围靶点搜索的,像美国的Cyclica,还有借助AlphaFold 辅助小分子药物研发的,像英矽智能今年的一个试验性管线就是借助了AlphaFold。”

而更前沿的探索,如蛋白质的从头设计,以及把设计蛋白开发成大分子候选药物,即发明(create)而不是现在AIDD更集中赋能的发现(screen)药物,所面临的技术难度和商业周期都要更困难、更漫长。

一个明显的信号是,近年来AI制药赛道狂奔,但更多的应用与赋能都是集中在小分子药物研发中。

相较之下,大分子药物数据稀缺,且技术壁垒更高,参与大分子药物研发的AI制药公司寥寥可数。

苗洪江表示,蛋白质从头设计的关注热度在国内要冷清不少,但在全球范围,美国头部的biotech,如Amgen、Genetech已经有所布局,来自这些美国公司的成功经验,能够给予国内创业者信心。

天壤XLab初期也以新药研发为切入场景。

苗洪江提到,在蛋白质计算领域,学术和业界都非常关注的技术方向包括,如何以计算赋能药物的靶点发现、如何设计优化特定功能蛋白质、如何计算检测蛋白质的各项理化特性等,CREATOR 工作台将逐步上线相关的算法和能力支持。

“我们希望蛋白质设计在国内也能得到大范围应用,但这项技术推广的难度很大,所以我们开发了CREATOR 工作台,希望能降低技术门槛,让更多人进入这个领域做研究,从而更快地推动应用落地。”雷峰网 雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/1Y7HA3srikgI65BP.html#comments Wed, 21 Sep 2022 10:38:00 +0800
百图生科发布新型药物「免疫机器人」,CEO刘维:制药不是零和游戏 //m.drvow.com/category/shengwuyiyao/MZJL5G6Szh5gx8qr.html “制药行业并不是零和游戏。”

9月9日,百图生科北京中心实验室落成暨免疫机器人发布战略沟通会在京举办。

在沟通会上,百图生科CEO刘维回答雷峰网提问时表示,“相反,创新药企和主流药企是合作关系。”

作为由百度创始人李彦宏、百度副总裁刘维发起成立的一家企业,百图生科出身自带光环。

然而,百图生科也不可避免地被贴上“百度系”的标签。但刘维向雷峰网介绍,百图生科独立于百度系之外,是一家创新药企,而非互联网公司。

值得注意的是,作为“造药新势力”的百图生科,在成立近2年之后终于对外详细阐述了其造药思路。

据雷峰网了解,2021年,百图生科与海淀区政府达成战略合作,在海国投贝伦产业园区建设5000平米的百图生科北京中心实验室。

这也是百图生科自苏州工业园区研发中心6000平米实验室之后,建设的又一个大型研发中心。

会上,百图生科发布了自主研发的免疫机器人产品“ImmuBot”。这是一种通过生物计算引擎de novo设计的全新蛋白质药物。

据刘维介绍,它可以实现传统抗体药物无法实现的复杂作用机制,从而为大量未被满足的临床需求提供新的解决方案。

在此前的媒体沟通会上,刘维就曾对ImmuBot免疫机器人下过定义——它既是一个平台,也是一种药物。

他表示,“每种药物都是一个免疫机器人,进入人体后碰到不同的靶点能够发挥不同的功能,同时,各种不同的免疫机器人药物都是基于这一技术完成,相当于是一个研发平台。

我们希望作为一个造药新势力寻求架构级的变革,通过整合、利用新技术,为患者带来新的希望。”

百图生科的自我定位

作为具有18年前沿技术风险投资经验的资深AI投资人,刘维自2011年起系统布局人工智能底层技术和行业应用,天使投资了旷视科技等上百家中美AI企业。

从2014年起,刘维即开始布局生物数据和计算产业,并在2017年担任BV百度风投CEO开始,将生物计算作为BV的核心布局方向,在中美欧各地早期投资了40余家生物计算企业,涵盖了3D病理、纳米孔测序、单细胞测序、CRISPR、脑机接口等诸多前沿技术。

通过多年来投资前沿技术公司的经历,刘维发现,主流药厂的药物研发流程不一定能发挥这些技术的最大价值。

“虽然有了前沿的技术,但如果我们作为CRO把这些技术卖给药企,药企不一定会做那么先进的药物研发,生物计算等技术也很难触达到药企原有的药物研发流程中。”

这是涉及到企业定位的问题,也是百图生科决定自己做药的逻辑所在。

换言之,百图生科要走的,是一条和主流药企完全不同的研发道路——生物计算驱动的药物研发。

而百图生科做的创新药物并非是单个的药物,而是平台化的药物,由此产生的药物研发组合多达几十、上百个,能够实现更高的价值。

然而,国际知名药企都是“百年老店”,从研发经验和团队建设等诸多方面,已经形成了成熟的模式。

作为一家成立近2年的公司,百图生科靠什么来做药?答案是AI。

从2016年以来,以深度学习为代表的AI,已经充分证明了自身在医疗领域的潜力。Alphafold的出现,也让生物学家更愿意接受计算机和理论的研究方法。

然而,先进的AI技术应用到药物研发链条上也存在很高的门槛:不论是数据的获取,还是数据计算与分析,都需要投入大量的成本。

长期以来,高昂的生物实验费用、漫长的试验周期以及数目庞大的数据计算量一直是企业进行AI制药过程中的阻碍。

对主流药企来说,这条路意味着不成正比的风险与收益。

因此,百图生科要做的,是试图将互联网行业快速迭代、快速循环的组织方法和系统工程能力,以及AI模型快速迭代的能力融合进生物制药当中,加速探索未知世界的过程。

过去十余年来,基础的半导体、新材料等行业的快速发展,使生物行业出现了许多经过单点验证的先进技术,这正是百图生科切入这项业务的时机。

在刘维看来,这些单点技术很多都已成熟,但还缺乏一个真正的整合者。

“我们整体的定位还是做药物的early discovery。百图生科参与完成药物的早期研发后,当进入临床申报阶段时,就会将药物授权给其他企业,与国内外大型药厂的临床、市场渠道优势互补。”

这并不是一件容易的工作,制药是一个系统性的工程,从靶点发现到药物设计的全链条,要围绕前沿的生物技术、数据技术、计算技术整合起来,“这是一个十项全能的游戏”。

为了实现这一目标,过去一年中刘维组建起了强大的研发团队,成员中包括十余位中国科学院、中国工程院、美国工程院的院士或者会士,以及近一百名博士出身的科学家。

团队成员参与过一百余种新药物的研发,发表过两千余篇高质量论文。

除了自身在产业链中的定位,百图生科还做了一件重要的事情:确定一个具体的发力方向——免疫性疾病。

从建“朋友圈”到聚焦免疫疾病

本次发布会上,免疫机器人“ImmuBot”不是一个仓促上马的项目。早在其2021年5月主办的首届中国生物计算大会上,百图生科就发布了“免疫图谱卓越计划”。

会上,百图生科宣布将与合作伙伴共同开发免疫图谱,为生物计算行业生态搭建基础设施。

彼时百图生科就已经规划,依托自身生物计算平台和新药发现能力,通过技术+投资,与主流药厂和创新药厂进行合作,共同开发新药。

百图生科的投资版图覆盖国内外多家生物制药企业,如Abintus Bio、Atomwise、百奥智汇、宸安生物等。

百图生科生态投资版图

从患病群体看,全球范围内免疫系统疾病患者人数超10亿。

其中有数千万的肿瘤患者,由于免疫系统无法有效激活,导致肿瘤疾病发生发展和加速;还有数亿名自身免疫性患者,由于免疫细胞错误地攻击人体正常组织,深受溃疡性结肠炎、系统性红斑狼疮、1型糖尿病等疾病困扰。

这是一个庞大的市场。在国内,2020年仅系统性红斑狼疮和类风湿关节炎患者分别高达103万人和600万人。

预计国内自身免疫性疾病2025年整体市场规模将达到87亿美元,2030年市场规模将达到247亿美元。

“这个市场本质上是同一种作用机制,即都是由于人体免疫系统的失调。”刘维介绍,“这也是过去十年间肿瘤免疫治疗快速发展,PD1类药物产生非常好的市场效应的原因。”

目前的抗体药物多是以单一或者两三个靶点,在全身范围内寻找细胞上的蛋白,让药物与蛋白做亲和,以简单的抗体机理为主。

然而,由于人体免疫系统的复杂性,仅靠单一靶点的调控通常难以治愈疾病。

“在免疫治疗这一整个非常有前景的市场中,药物的实际有效性并不足1%,很多患者无药可用,或者只是延长几个月的生命,就会产生耐药性。”

人体的免疫系统中包含数十种免疫细胞,在不同的微环境中会表现出不同的状态,每个免疫细胞含有上万种不同的蛋白质,其复杂的变化与相互作用关系共同构成了免疫细胞的功能,进而决定了免疫系统的功能。

所以,“当我们谈到解码免疫时,面临着上万亿种复杂空间。百图生科要做的,就是破译这一复杂场景。”

AI制药的核心是数据

如上文所言,数据是AI研究的核心。致力于免疫系统疾病药物研发的百图生科如何解决数据问题?

刘维称,这是一个“悖论”,更早进入药企视线的小分子药物虽然积累了更多的实验数据,但建立在他人数据上的药物研发,进入市场后其竞争力与患者价值将非常有限;做创新药物,则要面临没有数据的问题。

百图生科选择了第二条路。

为了解决数据难题,百图生科成立以来花费了大量精力,为数据的采集与处理做准备。

百图生科实验室自有设备拍摄的高内涵细胞视觉数据

首先,百图生科引入新的多组学生物数据的采集手段,获取数量更多、更加精准的数据。

例如在靶点发现领域使用单细胞技术、在蛋白质领域使用各种高分辨率的蛋白观测和性质测定技术、通过基因编辑技术对细胞进行扰动以产生更精细化的数据。

其次,百图生科引入新型生物专家,确保应用的新生物技术正常产生与处理数据。

第三,百图生科通过新技术的应用与改造,对多根数据轴所产生的数据进行叠加和验证。

在百图生科的免疫模拟系统中,不仅使用传统的生物的手段去测免疫细胞,同时还引入了机器视觉的方法对免疫细胞进行观测,通过多种叠加的生物传感的手段,来获得更精准的生物数据。

最新的北京中心实验室落成以后,百图生科已经在北京、苏州、硅谷建立了三个研发中心和上万平米的高通量实验室。

“我们做的是在世界上、在生物领域首创的大规模人体类免疫系统或器官,具有非常大的领先性。”刘维介绍,百图生科通过大量先进的生物技术实现在体外对于人体免疫系统的复制。

利用基因编辑技术对人体免疫细胞进行编辑,将多种免疫细胞混合,模拟人体免疫系统的情况,形成高通量人体免疫模拟实验系统。

该系统产生的实验数据是百图生科高通量干湿闭环实验的核心。

“生物计算的核心不仅是要创造新的生物数据,还要用计算将这些生物数据利用好。”刘维介绍。

利用生物计算引擎,百图生科将药物研发的传统流程进行了优化,大部分的研发步骤通过AI引擎在虚拟空间内进行,提高研发效率。

高通量试验系统做药物研发,首先要进行干实验,通过空间设计研发出免疫机器人的弹头、传感器等构件,选定免疫机器人构型,将构件与免疫机器人进行不同组合,形成多种免疫机器人药物。

在湿实验环节,通过生物计算引擎对组合出的候选免疫机器人进行药物功能、药物可开发性等多参数评估,从中筛选出成功率最高的免疫机器人,再以蛋白打印的方式将这一虚拟预测的序列变成实体蛋白,回到实验室中进行高通量实验,通过多个轮次的循环,最终选出拼接最好的免疫机器人药物。

以百图生科目前的技术能力,可以支撑数十个药物研发项目同时进行。

按照刘维预期,百图生科北京中心实验室未来每年将产生上亿组数据,为高通量干湿闭环提供重要回路。

用大科学装置建模免疫系统

解决数据难题后,百图生科的药物研发工作日趋完善。那么如何理解这次发布的免疫机器人?

刘维将免疫机器人比喻为乐高积木,具体而言,把已预置好的免疫调控弹头、传感器、控制器、不同功能的“底座”等进行构件组装,尝试通过多构件开发、多构件复用的方式,降低药物开发成本,平衡精准药物与开发成本间的矛盾,为小病种免疫疾病带去更多可能。

百图生科希望通过免疫机器人创新药物重编免疫系统,治愈那些令现有抗体药或小分子药物束手无策的免疫系统疾病。

当lmmuBot免疫机器人进入人体后,所携带的药物构建在遇到不同的对应靶点时将分别发挥作用,可以进行精准调控。

这款药物具有四个典型特点。

首先,其药物弹头具有突出的高性能。

人体内的蛋白质具有多种不同形态以及不同的可结合表位,药物在以不同方式与同一个靶点结合时会触发不同的功能,药物弹头不但能与目标靶点结合,并且能够精准有效地调控靶点及其发挥的功能。

其次,lmmuBot免疫机器人是一款组合多靶向的药物。

在疾病治疗过程中,仅仅用少数几个靶点区分疾病组织与非疾病组织或是调控免疫系统时,其准确性往往不足,而lmmuBot免疫机器人目前每款药物能够兼容四个、六个或八个以及更多数量的靶点,未来将扩展至兼容数十个不同靶点。

通过数十个靶点组合使药物具有更加精准的特异性和有效性,覆盖与免疫系统疾病相关的大部分靶点。

第三,lmmuBot免疫机器人是编程式控制。

目前的蛋白质、抗体类药物具有一定的精准性,进入人体后针对相应的某个靶点进行作用,但这样的程度对于疾病治疗来说远远不够。

通过机器人技术平台,lmmuBot免疫机器人实现了更复杂的编程式控制。

人体内的靶点在疾病微环境或肿瘤微环境中时,除蛋白质外还存在某些特有的细胞因子和酶,机器人药物通过传感器感知和响应这些靶点的特异性,遇到不同的靶点时激活不同药物,兼容不同病人的病情。

第四,lmmuBot免疫机器人是构件式组装的药物,通过组装不同的药物构件完成不同的功能预置。

免疫机器人常用的特异性弹头Seeker,能够精准地找到疾病特异性组织。按照功能设计,激活不同免疫细胞的调控弹头,或是多个免疫调控弹头相组合,共同对不同的免疫细胞进行功能调控。

“我们正在全力以赴地做一种突破创新性的药物。”刘维打了个比方,“像SpaceX造新型可回收火箭一样,它能够实现的功能与传统的火箭不同,我们的ImmuBot与传统的药物也不尽相同,因此往往需要很新技术和很长的研发周期。”

对于免疫机器人的研发和应用,百图生科的实现策略,刘维称之为“百图之道”。

百图生科利用免疫机器人这一技术平台,构建了一个大型的创新药物资产组合“Denove Portfolio”,包含靶点发现、构件仓库、药物管线三个环节。

在“Denove Portfolio”的背后,是百图生科的构建的AI大模型驱动的生物计算引擎。

而大模型的燃料,正是百图生科通过收集、加工以及与临床机构、药企合作产生的数据,构建出的上万亿关系的多组学免疫图谱。

百图生科利用AI大模型消化大量数据,推演人体免疫系统的运作规律,并通过实验进行验证,从而对免疫系统进行大规模精准建模,找到复杂的靶点规律。

生物计算引擎的负责人、百图生科首席AI科学家宋乐在沟通会上介绍,这一体系的核心是千亿级大规模的生物预训练模型——xTrimo免疫大脑,“不但能够精细化整理免疫知识图谱中的信息,还可以与高通量闭环进行交互迭代提升模型。”

宋乐介绍,生物计算领域有蛋白质单序列、蛋白质相互作用、细胞层面、细胞系统层面四层不同的信息,而该训练模型内部同样具有四层嵌套大规模训练模型体系。

百图生科首席AI科学家宋乐

最内层的模型吸收蛋白质序列信息,对蛋白质的结构、性质进行预测;

第二层模型吸收蛋白质与蛋白质、蛋白质与其他分子之间相互作用的数据,进行蛋白质相互作用复合物结构预测、抗体抗原结合表位预测以及结合的亲和力预测等问题;

第三层是更大尺度的细胞层面的建模,同时考虑蛋白质相互作用、蛋白质对基因表达调控的功能关系,预测细胞在扰动以及组合扰动的情况下发生的变化;

在单个细胞建模之上,最外层模型要考虑复杂的免疫系统以及免疫系统和肿瘤或其他环境的相互作用,需要引入大量细胞之间的相互通信、细胞和环境之间相互作用的数据,从而更好地预测免疫系统对扰动的响应。

这也正是生物计算的特殊之处。

互联网大规模训练模型通常是自然语言模型,而生物计算模型的四层系统是嵌套体系,预测出的结果可以嵌套使用,下层的预测和产生的表征可以帮助提升上层模型的预测。

在免疫机器人技术平台、生物计算引擎等的支撑下,百图生科的创新药物资产组合“Denove Portfolio”版图不断扩大。

据介绍,目前百图生科已有十余个靶点挖掘项目、三十余个构件项目、十余个药物研发项目正在进行,其中包含中国高发的胃癌、肝癌、结直肠癌等多个病种组织的特异性弹头,以实现更精准的靶向治疗。

此外,百图生科还研发了近十种创新的免疫细胞弹头,除常见的T细胞品类之外,还有大量的NK等比较有特点的免疫细胞。

利用开发者平台,百图生科与国内外的多家大中型药企联合开发了多款疾病品种药物。

刘维总结,百图生科在做的,就是“用大科学装置建模免疫系统,de novo设计全新的蛋白质药物”。

“百图生科的大科学装置,不仅能够服务于自身的模型训练,我们也希望它能够作为一个平台,为行业中众多药物研发伙伴提供帮助。”

如今,百图生科已经构建起大规模创新药物组合,背后依托大规模AI生物计算引擎和卓越开发者生态平台,“我们希望这些东西联合起来,能够变革first in class药物研发模式。”

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/MZJL5G6Szh5gx8qr.html#comments Sat, 17 Sep 2022 15:38:00 +0800
AIMBE Fellow 潘毅:少年状元、九年学术荒,拒做生物信息学的「工具人」 //m.drvow.com/category/shengwuyiyao/kYTSdGilPivzKu4T.html 6月28日,中国科学院深圳理工大学(筹)(以下简称“深理工”)一支特殊的小分队从深圳赶赴安徽,看望一位“扭扭车”男孩张亮。

因患“脆骨症”无法独立行走、只能依靠扭扭车代步的张亮,在今年的高考中取得了535分的成绩,超过安徽省理科一本线44分。在接受央视采访时,张亮曾提起自己的理想志愿——深理工大学的计算机专业,他希望在沿海城市上大学。遗憾的是,深理工的计算机专业今年尚未开始招收本科生。

深理工计算机科学与控制工程学院院长潘毅听闻后,决定与学校工作人员一同前往安徽看望张亮。虽然最终因公务而未能成行,但学校小分队带去了潘毅的书信,潘毅也与张亮现场连线,鼓励他未来报考学院的研究生。

2022年,深理工的首届联合培养硕士研究生毕业,100%实现就业升学。

潘毅是深理工计算机学院的首任院长。2020年,潘毅应深圳先进院院长樊建平之邀加入深理工,主持计算机学院的建设工作。这是潘毅第一次在国内全职任教,却不是他第一次从零开始打造一个全新的计算机团队。

在美国亚特兰大的乔治亚州立大学任教时,潘毅曾先后担任乔治亚州立大学计算机系和生物系系主任、文理学院副院长等职位,带领该校的计算机系从一个相对冷门的专业,成长为生物信息领域世界第22名。

凭借生物信息学领域的贡献,潘毅被评为乔治亚州立大学终身教授、大学杰出教授、州校董教授,当选美国医学与生物工程院院士与乌克兰国家工程院院士。

耳顺之年,功成名就,潘毅却将自己的“进度条”拨回起点,选择回国任职。

自2005年担任佐治亚州立大学计算机系主任以来,潘毅经历了生物信息学发展最迅速、技术迭代最快的十几年,他研究了大半生的计算机技术与生物学结合后焕发出新的生命力。

“这是一条非常崎岖的道路。”潘毅这样形容自己从计算机转型做生物信息学的选择。

但他也说,“我可以干到八十岁再退休。”

清华计算机高材生转行“天坑”专业


和不少生物信息学领域的学者一样,潘毅也是一位计算机专业出身的跨学科研究者。

作为国家恢复高考后的第一届考生,潘毅以江苏省理科状元的成绩进入清华电子工程系就读,也就是改组前的计算机工程与科学系。

中国最早一批的生信人,在1960年前后出生。1978年,恰同学少年。

佐治亚大学生物化学系教授徐鹰,正在念吉林大学计算机本科。后来与徐鹰一起在橡树岭国家实验室做研究,并一起获得2001年美国“最杰出研究与开发100 人奖”的密苏里大学许东教授,此时还在读初中,直到五年后就读北大。和潘毅是苏州同乡的深圳湾实验室系统与物理生物学研究所副所长周耀旗,一年之后也将会去中科大读化学。

潘毅在清华大学度过了八年半的时光。

硕士期间,潘毅在由金兰、郑纬民、沈美明和王鼎兴几位老教授组成的教研组内学习,导师金兰教授是清华大学计算机专业最早的一批老师,亲历了计算机专业的创建。

右一为金兰教授

1956年,清华大学开设电子计算机专业,从莫斯科留学归来的金兰教授被任命为教研组副主任,负责模拟计算机方面的工作。

潘毅回忆道:“金兰教授已经年迈,但他每年都要发几篇英文的文章,随时记录自己的想法,这种认真刻苦的作风让我印象十分深刻,也给了我很多的鼓励,让我养成了好的学术作风。”

在金兰教授的帮助下,潘毅在1985年读硕士期间就已经在海外顶级会议ICDCS上发布了论文。在当时那个年代,很多教授难有在海外发布文章的机会,而ICDCS更是只有不超过20%的录用率。

2019年当选中国工程院院士的郑纬民教授,曾在实验室里手把手教导潘毅开发软硬件、做分布式系统。

2017年 潘毅与郑纬民院士参观毛主席故居

2018年清华大学英文杂志《大数据挖掘与分析》创刊时,潘毅邀请了老师郑纬民与他一同担任主编。这本杂志如今已位列全球计算机领域前4%,进入世界一流期刊的行列。

同样在2018年,郑纬民院士到苏州出差时,还专程前往潘毅的故乡苏州吴江区参观,在他以前的居所与上大学前工作过的工厂拍照留念,可见他对自己这位徒弟的喜爱。

郑纬民院士在潘毅老家胡家弄拍照留念

沈美明教授对潘毅更是慷慨解囊。潘毅表示,“我出国留学前手头没有美金,还是沈老师借了钱给我解燃眉之急。”

当时的清华大学计算机系主任,同样出身吴江区黎里镇的王鼎兴教授,与潘毅的来往要更密切一些,“王老师的父亲和我的外公是朋友,我们两家是世交。”

潘毅进入清华读书后,王鼎兴教授在学习上和生活上都给予了他非常多的帮助,潘毅回忆,“我读大学时常去王老师家中做客,和王老师一家人成为了很好的朋友。”

刚进入大学时,周围优秀的同学和紧张的学习环境使潘毅面临着空前的压力。这个时期,王鼎兴教授在学业上的指导和精神上的鼓励都使他获益匪浅,也逐渐建立起为人处世上的原则。

“直到现在我和王老师还经常交流,偶尔提起家乡黎里镇的变化,王老师都会很高兴。”

在清华大学这个“红色工程师的摇篮”中学习成长,年轻的潘毅和他的同学们都以能进入国企成为一名工程师为荣。

“那时候没有出国的机会,要去国外做教授几乎不可能,(大学时)包括我在内同学们都觉得在一个大企业里做到总工程师,就已经很了不起。”

但是,身处国家风云巨变的时代,继成为恢复高考后的第一批大学生后,又赶上了国家放开出国留学政策,潘毅走上了一条意料之外的道路。

攻读了两年博士后,由于导师决定定居国外,潘毅最终放弃留校,并于1986年经清华大学的允许前往加拿大卡尔加里大学。1987年1月份,潘毅转到美国著名高等学府,也是美国最早的十所大学之一——匹兹堡大学计算机科学系重新开始攻读博士学位。

这时的生物信息学尚且处于早期的萌芽阶段,大名鼎鼎的人类基因组计划也要在三年后才正式启动。

人类基因组计划启动一年后,1991年,博士毕业的潘毅通过竞争激烈的面试,进入俄亥俄州的私立天主教学校戴顿大学工作。

与潘毅同年出生、同年高考,又同年博士毕业的徐鹰,则选择留校做了助理教授,并于1993年进入橡树岭国家实验室后,偶然加入到人类基因组计划的工作中,比潘毅早一步触摸到生物学的边缘。

而1991年才刚刚开始攻读博士学位的许东,恰好选择了计算生物物理的研究方向,比前辈徐鹰还要早两年接触生物学。

戴顿大学是一所教学型学校,注重学生教育,为教授们提供的科研条件并不算好。因此,在戴顿大学工作的九年里,潘毅只能一点点艰难推进自己的研究。

这种情况直到2000年潘毅进入佐治亚州立大学工作才得以好转。在佐治亚州立大学,潘毅偶然发现蛋白质序列的对比需要用到并行计算,这正是他所擅长的计算机领域的知识。

他决定投身于此。然而,最大的难题在于生物信息学的交叉性,了解计算机知识的人没有生物学背景,而生物学专业的人又不懂计算机编程,这两门学科之间存在着非常大的鸿沟,令很多研究者望而却步。

潘毅开始更加深入地学习生物学专业知识。

2005年,潘毅升任佐治亚州立大学计算机系主任。这时的佐治亚州立大学的计算机系才刚刚设立,系里只有十五六个教授,不论资金还是人力都十分紧缺。

对身为系主任的潘毅来说,如何利用眼下有限的资源使计算机系脱颖而出是个难题。

他想到了自己前不久开始进行的生物信息学研究。

21世纪初,生物信息还是一门新兴学科,不论是美国老牌名校还是刚刚成立的佐治亚州立大学计算机系,都没有历史积累,站在同一个起跑线上。只有这样,才有“弯道超车”的机会。

作为生物学和计算机学两门学科的融合,生物信息利用计算机技术解决生物学的问题,这就要求从业者必须同时具备两门学科的知识背景。

那时候计算机背景的学者中,鲜少有人愿意选择跨行到生物这一高难度的领域,潘毅却觉得这或许正是佐治亚州立大学计算机系突围的机会。别人不想干的事情他来干,并且一定能干好,他要成为最早一批“吃螃蟹”的人。

于是,他与一位对计算机领域较为了解的生物学教授合作,申请了一笔一百五十万美元的科研经费,组建起佐治亚州立大学生物信息学研究的初始团队。

潘毅将经费分配给其他教授,要求他们与生物系的教授合作,在自身研究方向的基础上结合生物学知识,在一定期限内产出一批新的科研成果。比如,将人工智能用于生物数据分析,将计算机可视化用于蛋白质和分子可视化,将算法、数据库等技术全部融入生物学领域。

潘毅探索生物信息学的研究就此走上正轨。

用AI,可以挑战哪些生物学难题?

潘毅开始建设佐治亚州立大学的生物信息团队时,徐鹰正担任佐治亚大学生物信息研究所的首任所长,两人一个在亚特兰大,一个在雅典市。

此前,徐鹰与雷峰网《医健AI掘金志》交流时,曾提出一个划分,生物信息学作为生物学与计算机科学两大学科的交叉点,这一领域内不同学者所做的研究在两个学科所占比重上通常有所不同。

例如,徐鹰本人的研究中90%是生物,10%是计算;许东的研究中20%是生物,80%是计算;潘毅的研究中5%是生物,95%是计算。

同样是学计算机出身的学者,徐鹰的研究更加偏向生物,潘毅则是更加偏向计算;而分别是物理、化学专业出身的许东和周耀旗,研究内容则更加偏向生物物理和化学物理。

“许东老师是计算生物物理的博士,要比我们更加了解生物的性质。我们作为计算机专业的教授,强项是算法的分析和系统的开发。”

潘毅说,他所研究的内容是如何将生物的问题转化为计算的问题,并开发出相应的工具,高效、高质地解决这一问题。

在生物学领域的研究中,AI技术的应用是必不可少的。但对于不懂计算机的生物学家来说,如何将先进的AI技术应用到研究中也是一大难题。

潘毅所擅长的正是制造并利用先进的AI工具,并用其解决生物学难题。

“我始终对学生讲,研究问题不仅仅要关注AI,还要将AI的算法与实际问题相结合,从实践中来到实践中去,这样的算法既有理论的高度又有落地的基础,才有顶天立地的效果。”

而在接触生物信息领域早期,潘毅与徐鹰、许东的研究内容曾有过重合。

1997年,徐鹰进入橡树岭国家实验室生命科学部担任课题组长,次年许东加入课题组,两人合作进行了蛋白折叠与蛋白结构预测的相关项目,又于2003年先后离开橡树岭,分别前往佐治亚大学和密苏里大学担任教职。

就在徐鹰、许东两位教授回到学校不久后,潘毅也开始探索生物信息领域。

潘毅最初接触的问题是蛋白质、DNA、RNA等的序列对比。

进行序列对比的目的是寻找不同序列之间的相似性。相似的序列往往起源于共同的祖先,可能有相似的结构和相似的生物学功能。

因此,对于一个已知序列但是结构和功能都未知的蛋白质,如果与它相似的序列的结构和功能是已知的,就据此可以推测出未知蛋白质的结构和功能。

为了迅速在存储量巨大的数据库中找到相似的序列,相应的算法和工具必不可少。

序列比较的指标之一——序列相似度(similarity)就需要使用替换积分矩阵(subsitution matrix)进行统计。

潘毅最初进行序列对比工作时,最常见的DNA替换积分矩阵和蛋白质替换积分矩阵是等价矩阵(unitary matrix)。

等价矩阵是最简单的替换积分矩阵,相同碱基/氨基酸之间的匹配得分为1,不同碱基/氨基酸间的替换得分为0。

潘毅发现,等价矩阵在工作中并不考虑碱基或氨基酸的理化性质,也无法区别对待不同的替换,准确度存在很大问题。

于是,他选择了准确度相对较高的BLOSUM-62矩阵,但依旧无法满足生物学研究中的准确度需求。

对别的生物学家来说,在研究中没有合适的工具或许是无法逾越的难题,但学计算机出身的潘毅却可以自己制作工具。

在当时,应用广泛的多序列对比工具CLUSTALW,仅仅能找到序列中六个基序中的两到三个,而潘毅自制的打分系统能够精准地找到全部六个基序。

“这才是真正有生物学意义的工具。”

他带领两个博士生将这一研究成果整理成册,出版了《Multiple Biological Sequence Alignment: Scoring Functions, Algorithms and Evaluation》(《多生物序列对比:打分函数、算法、评价》)一书。

随着研究的深入,潘毅逐渐意识到简单的算法无法处理数目庞大的生物数据,下一步的研究必须要利用人工智能技术。

他开始尝试使用AI算法进行蛋白质结构预测,先后将聚类算法、支持向量机、正则化算法、决策树、关联规则等多种算法运用到生物信息学的研究中,但无一例外都存在精度差、速度慢等问题。

直到2014年前后,生物信息领域的研究者们集体转向深度学习技术,潘毅也是其中之一。

“GPU等硬件的发展让机器速度大幅提升,深度学习技术也成熟了,这时候用在生物信息上如鱼得水。”

生物信息学进入了深度学习的时代。区别于生物学家所做的深度学习,潘毅的研究既包括深度学习在生物方面的应用,同时也在改进算法的精度、速度以及架构,将生物学知识融入进算法中。

比如,将传统生物学知识中神经网的联络方法取代深度学习常用的线性连法,改进深度学习中梯度消失的问题。

在技术发生变革的同时,潘毅的研究也逐渐进入第二阶段。

2010年前后,他开始尝试将计算机与生物学知识相融合,比如,在进行多序列对比时,将碱基或氨基酸之间变化的概率也加入计算之中,从而更加精准地描述生物学问题。

这个阶段,潘毅的研究重心逐渐从蛋白质结构预测转变为生物网络分析,这也是潘毅的生物信息学研究生涯中占据精力最多的基础研究。

在生物网络分析的研究中,要通过生物实验数据挖掘出生物网络的潜在变化,以系统的方法研究生命现象的热点和难点,主要包括蛋白质调控网络与基因调控网络。

基因调控网络的研究如今已被广泛应用于疾病基因预测、药物靶标的筛选等领域,并对疾病早期诊断、个性化治疗、药物研究产生了深远影响。

对生物网络分析的基础研究也为多年后潘毅转向应用研究打下了坚实的基础。

在潘毅的带领下,佐治亚州立大学的生物信息研究团队飞速成长起来,潘毅带领团队开始组织生物信息领域会议、创办学术杂志、出版系列丛书。

潘毅与李明、王建新两位教授以及图灵奖获得者John Hopcroft共同出席ISBRA 2014  

他与徐鹰、许东、周耀旗,以及加拿大滑铁卢大学终身教授李明、弗吉尼亚大学教授张爱东等生物信息领域的诸位华人学者们,也是在这个时期相识。

2005年,潘毅创办生物信息学研究与应用国际研讨会(ISBRA)后,曾多次邀请李明、徐鹰等教授参加并进行主题演讲;他与张爱东分别担任着IEEE/ACM计算生物学和生物信息学学报(TCBB)的副主编和主编;还曾邀请同为系主任的许东,以及彼时仍在印第安纳大学工作的周耀旗,前往佐治亚州立大学演讲。

“我和这几位老师在工作上经常相互学习,向他们请教问题,也会邀请他们在会议上做主题演讲。我也很感谢这些年他们对我和我学生们的帮助。”

即便做了16年的系主任,行政工作繁忙,潘毅依旧时常与生物信息学领域的华人学者们互相交流学习。

2007年,IEEE生物信息与生物工程国际大会授予潘毅杰出成就奖。根据相关网站排名,2011年至2021年间,佐治亚州立大学计算机系生物信息领域世界排名22名。

“现在的佐治亚州立大学计算机系四十多位教授中,有十几位教授专攻生物信息学方向,这样规模的生物信息学研究团队在美国如今的大学中仍是十分难得。”

被生物学家当作“工具人”

对潘毅来说,1986年出国读博是人生中的重大分水岭。

出国以前,他是江苏省的理科高考状元,是恢复高考后的第一届大学生,是国内顶尖学府清华大学的天之骄子,即便面A临着优秀的同窗们带来的竞争压力,但他未来的人生仍是清晰可见的一片坦途。

选择出国留学,则使他的人生增添了许多的不确定性。

1991年,潘毅从匹兹堡大学获得博士学位。按照计划,他应该进入一所研究型高校担任教职,一边从事教学工作一边推进自己的学术研究。

但彼时的美国正深陷新一轮周期型经济危机的泥潭,工业界不再需要大批的高学历人才,毕业的博士生们只能涌向教学岗位,使得就业竞争加剧,很多人陷入了毕业即失业的窘境。

潘毅还算幸运,在人生地不熟的美国以亚裔的身份拿到了戴顿大学的offer,获得了自己的第一份工作。

虽然这个offer解决了潘毅的燃眉之急,但作为教学型学校,戴顿大学提供给教师们的研究资源实在有限,潘毅的学术研究进入了长达九年的艰难时期。

直到2005年开始担任佐治亚州立大学计算机系主任时,潘毅已经45岁,此时距离1978年他走进清华校园学习计算机已经过去27年,人生中五分之三的时间都在和计算机打交道。

人到中年,进入一个完全陌生的领域并不是件容易事。

首先是专业知识上的欠缺。为了进行生物信息学研究,计算机出身的潘毅只能开始从头学习生物学的背景知识,像刚入学的大学生一样看教科书、读论文、听报告,终于将自己从单一学科背景打造成交叉学科的研究者。

其次是心理上的落差。在计算机行业内已经成名的潘毅,要进入生物信息领域,只能和所有新人一样从底层开始一步步向上走。

“又要做一个小字辈,从头开始干起,这样的感觉是很不好的。”

那时已经常在并行计算领域大型学术会议上作主题演讲(keynote speech)的潘毅,进入生物信息学领域后,反而连在一些低级别研讨会(workshop)上的演讲机会都时常争取不到,无人问津。

“人家都不理你,也会感觉很心寒。”潘毅这样形容当时的感受。

除此之外,还有研究中遇到的最重要的难题:与生物学家合作中的矛盾。

最初进入生物信息学领域时,由于计算机出身的潘毅等人不懂生物,只能与生物学领域的学者合作,针对对方已经提出的问题进行研究和改进。

但生物学家往往也不懂计算机技术,对方总是将计算机专业的学者当做写程序的“工具人”,而非真正的合作伙伴。

“有时连申请到的经费也不给我们,在科学研究里只把我们当做technician(技术员),这是很让人伤心的事情。”

潘毅介绍,生物学家们无法体会计算机学者在改进程序中付出的时间和精力,因此双方在合作中常常产生误解。“只有克服了这些问题,我们的研究才能继续朝前走,这也正是很多学校做不成生物信息学的原因。”

只是,作为团队的领导者,潘毅面临的难题还远不止如此。

在美国密苏里大学担任了多年系主任的许东对雷峰网《医健AI掘金志》说:“潘毅教授是一位非常成功的管理者。”

许东在密苏里大学担任系主任时,曾几次前往佐治亚州立大学交流访问,与同为系主任的潘毅交流颇多。

谈及过往,许东表示潘毅不论是担任佐治亚州立大学计算机系主任期间,还是后来升任文理学院副院长后,都展现了出色的管理能力,“潘毅教授的活动能力很强,善于交往,他主持的杂志也做得非常好。”

但是,作为华人外来者,想要融入美国当地圈层并不是一件容易的事情。即便获得了与白人同样的工作岗位,也很难获得同等的尊重和重视。

“华人面孔有时候只被当做点缀。如果是白人先接触到的某项工作,我们就很难再加入其中了,只有那些没被白人选中的工作或是一些临时任务,我们才能接手。”

成为一个优秀管理者的背后,是无数不为人知的苦功。

干到80岁再退休

潘毅就这样一路升级通关,从初到美国时“水土不服”的华人留学生,成长为生物信息学领域的中流砥柱。

到2020年回国时,潘毅已经获得了乔治亚州立大学终身教授、大学杰出教授、州校董教授、AIMBE院士等诸多荣誉,在生物信息学波澜壮阔的三十年里书写了浓墨重彩的一笔。

2021年,潘毅入选全球前2%顶尖科学家榜单与世界顶尖1000名计算机科学家榜单。

潘毅的诸多科研成果对后来者的研究也有很大影响,他为生物学领域开发的许多工具至今仍在广泛应用。

近年来在世界各地受到广泛关注的可解释性AI的研究,早在2004年潘毅就已经将其应用于生物信息领域,指导生物学家进行有选择性的生物实验。

潘毅在佐治亚州立大学参加学生毕业典礼

多年来潘毅培养的学生中,很多人毕业后也选择了从事学术研究和教学工作,在美国、中国、韩国等世界各地将生物信息学这一学科传承下去。

在科研中,潘毅最看中学生勤奋刻苦的品质,能够在生物信息学领域坚持下去并取得一定成果的研究者,一定具有这一品质。

“我带过的博士中有一个专科毕业的学生,钟卫,到美国后重新读了本科。他的天资并不是最高的,但十分勤奋,读书时花费了很多时间去做研究,现在也已经是美国南卡罗来纳大学的终身正教授,还拿到了学校的杰出研究奖。”这是潘毅教学经历中印象最深刻的一位学生。

潘毅与学生钟卫毕业合影(左一为钟卫)

上文中《多生物序列对比:打分函数、算法、评价》一书的作者之一,潘毅的博士生郭炫,目前在美国北德克萨斯大学做助理教授,即将升任终身副教授,已经两次拿到美国国立卫生研究院的基金。

另一位曾在潘毅门下学习的学生,中南大学计算机学院的李敏教授,如今也已经成为了国内生物信息学领域的中流砥柱,获得了2022年度国家杰出青年科学基金。

2018年,ISBRA会议在北京召开时,潘毅与李敏这对师生曾同时作为特邀嘉宾出席并做报告,徐鹰同样也在受邀之列。

在今年7月颁布的吴文俊人工智能科学技术奖中,李敏以“面向复杂生物数据的模式挖掘与智能算法研究”项目获得吴文俊人工智能自然科学奖。

谈及当初在佐治亚州立大学学习的时光,李敏回忆道:“我刚到亚特兰大时,潘老师刚出差回来,一大早赶到办公室带我熟悉系里的环境、安排办公室,事无巨细,像一个大家长,让我在异国他乡的陌生感一扫而空。”

潘毅在科研上更是大力支持学生。直到李敏完成学业回国,潘毅还时常关心她的个人发展,积极推荐她担任国际期刊的编委等。

陕西省政协常委、陕西师范大学计算机学院副院长雷秀娟教授,也曾在潘毅的团队中访问学习。

“潘老师不仅是我的学术导师,更是人生导师。”雷秀娟向雷峰网《医健AI掘金志》介绍,她前往佐治亚州立大学学习时,潘毅已经是全球知名的科学家、院士,依旧会花大量时间指导学生的科研工作,从论文思路到框架、内容、表达、图表等等,精益求精。

“潘老师对我们的关心不仅在科研上,也在生活上,隔三差五就询问大家是否有困难,并全力帮助。”雷秀娟回忆。

潘毅在美国任教期间,共培养了二十个博士、五十多个硕士,其中十几人一毕业就拿到了美国大学的助理教授职位。这些学生中目前已经有两位担任系主任,五位升任正教授。

学生们取得的成就让作为老师的潘毅无比骄傲,“我愿意不遗余力地帮助他们成长,希望未来他们的成就都能够超过我。作为老师,应该有这样的胸怀支持学生、托举他们。”

正如四十年前,清华大学的诸位师长对潘毅的帮助与期盼。

潘毅向雷峰网《医健AI掘金志》描述了他的教育理想:为政界培养出一名省部级的官员,为学术界培养出一名院士,为产业界培养出一名千亿资产的企业家。“如果能达到这个境界,我的人生就圆满了。”

2020年12月,潘毅回国赴任深理工计算机科学与控制工程学院担任第一任院长,开始筹建这个全新的学院。

他将目光放在了人工智能在疾病预测以及药物研发中的应用,回国以来先后进行了利用人工智能完成新冠病毒药物的小分子筛选、通过多模态数据融合技术进行自闭症早筛方案研发等多项研究工作。

谈及回国原因时,潘毅表示:“和白人打交道的场合待腻了,想换个环境,回家乡来。留在美国每天和十几二十个白人系主任聊天对我来说是一件不太轻松的事情,反而是回到国内再创一个学院,继续做我的研究更有意思。”

2020年,潘毅回国时整60岁,这是一个大多数人准备退休的年纪,而潘毅在生物信息学世界的新征途却刚刚开始。

“我可以干到八十岁再退休。”

作者注:

1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。

在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。

目前,雷峰网启动《生物信息学的三十年往事》专题,将陆续推出徐鹰、潘毅、周耀旗、许东、唐建等新老学者的人物故事,记录光辉岁月,以照后人之路。

关于生物信息学的更多故事,欢迎与本文作者乔燕薇交流,微信号:qiaoyw186

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/kYTSdGilPivzKu4T.html#comments Tue, 13 Sep 2022 15:49:00 +0800
许东的「AI生命科学」进化史:从90年代泡沫繁荣,到深度学习复兴 //m.drvow.com/category/shengwuyiyao/YGKSsxbQmxHMhix4.html

命运攸关的时刻充满戏剧性,在个人的一生及历史的进程中都是难得出现的;这种时刻可能集中在某一天、某一时,甚至常常发生在某一分钟,但它们的决定性影响超越时间。对于许东来说,这一分钟,可能在志愿填报单上、在出国的飞机上、在1995年的那一场会议上。

许东在密苏里大学哥伦比亚分校生活了二十年。

2003年,38岁的许东来到该校计算机科学系,开始了他第一份教职。这也是他近二十年来唯一一份教职。许东在这所学校安了家,做起科研,2007年成为了该校最年轻的系主任。

这所学校坐落在美国密苏里州的第四大城市哥伦比亚。因为所处土地广阔,农业发达,被称为美国中部大农村,得名“哥村”。

许东总说,自己是被这座小城留住,研究了半辈子的生物信息学。

这些年里,许东主动投入到跨学科研究风潮中,先后为蛋白质结构预测、单细胞数据分析、DNA序列、蛋白序列分析、系统生物学建模、图像文本分析、中医舌相、分子动力学模拟等,做出了每个时期好用的算法工具。

2001年,许东凭借蛋白质结构预测工具——Prospect,与好友徐鹰(现任佐治亚大学校董事会教授)共同获得《R&D》100奖。该奖项由《R&D Magazine》1963年创设,被国际科技领域誉为科技界的“创新奥斯卡奖”。

此后,许东又在2015年和2020年接连当选美国科学促进会(AAAS)会士和美国医学与生物工程院(AIMBE)会士,并成为了密苏里大学的校董事会教授。

这些高光时刻,映射了他人生中的黄金三十年。

二十五年前,他趟过生物信息学泡沫期;十五年前,他成为密大最年轻的系主任;十年前,他先于大多数人换到深度学习赛道。

在那些时刻,许东大放异彩。正如茨威格在《人类群星闪耀时》的第一章“巴尔博亚发现太平洋” 中写到:人生中最大的幸事,莫过于在富于创造力的壮年发现了自己的使命。

18岁的决定:宁选北大,不去清华

“教育是一个很特殊的行业,很难高质量地批量生产,培养一个人效率低、成才的确定性也不高。”

站在父母的高起点上,许东对这句话深有体会。

新中国成立后四五年里,许东父母考入清华,就读于电子工程系。

随后,父亲留在了本校,在工程力学系(现航天航空学院)任教,并于1981年在国家支持下赴丹麦读博,成为了中国最早出国研究流体力学的一批人。母亲则去了北京灯泡二厂、灯泡总厂担任厂长,并在八九十年代担任了十多年的北京电光源研究所所长。

这是一个标准的知识分子家庭,许东称,虽算不上大户人家,倒有机会从小接触到教授级的叔叔阿姨。

回忆起来,许东觉得那是一种无差别的人际交往,”绝想不到其中一个人就是某一领域的领军人物。”

但许东没去清华,而是选择了北大。

相比于清华的工程师气息,北大要更加自由,尤其是北大没有校训,没有校歌,甚至北大校园中的标志性湖泊,也被钱穆先生带头唤为“未名湖”。

在许东看来,这代表了北大上上下下的一种求学态度,要敢于不合群,不听话、既要批判,也要兼容,做中国维新图强的“先锋者”。

1983年,十八岁的许东走进了北大物理系。

这是在中国高校中设立的第一个物理系。许东入校时,北大物理系已经走过70年岁月,期间还诞生了四个首创学科,如我国第一个原子能人才培养基地——物理研究室、我国第一个半导体专业、我国第一个地球物理专业、我国第一个计算机系微电子专业。

而与北大颇有渊源的西南联合大学物理系,也走出了李政道、杨振宁、朱光亚、邓稼先、黄昆等一大批杰出科学家。

这是许东第一次感受到国内学科的昂扬姿态,“原来中国人在物理方面做得很好,我也跃跃欲试。”

一进大学,许东被各种“奇奇怪怪”的研究吸引住。大一上学期快要结束时,他无意中看到学生宿舍里贴着一个告示——“自然之谜研究会,研究气功、特异功能等人体科学现象”。许东对这些神奇现象特别好奇,加上告示中写到能够去北京师范学院(现首都师范大学)做研究特异功能的实验,当即报上了名。

大一寒假,许东都泡在了实验室。尽管没有研究出什么名堂,但许东却产生了非常多的奇思妙想,还写成了一份挺长的实验报告,全文论证人体特异现象的真实性和其中的问题。

1983年寒假,许东(前排左二)在北京师范学院和部分研究人员及特异功能人士合影

为此,许东还担任了一届的自然之谜研究会会长。

80年代前后,人体特异现象研究方兴未艾,时任国防科委科技委副主任的钱学森和主任张震寰两位,都是特异功能现象的支持者与参与者。

尤其是钱学森,他认为,人还没有能动地去发掘人体的潜在能力,今后应该用现代科学技术进行研究,对中医理论、气功、特异功能等,都要科学地进行研究。

那段时间,各种人体特异功能研究会成立,从科学界到医学界,一场关于人类生命现象的研究开始风靡全国。

北大加入了这场研究中,由许东所在的协会协助承办了人体特异功能的表演,钱学森到场观看。

这之后,许东对生命现象的研究热情更加高涨,他对很多同学讲到,“我跟钱学森握过手了,虽然没说过话。”

1983年钱学森成立人体特异功能研究所,与90年代的气功热

但许东没想到,到了90年代,“气功热”出现神论倾向,冒出了气功治病、灭火、拦截核武器等言论,学术研究也受此波及,被视为伪科学研究。1994年,国家下达《关于加强科学普及工作的若干意见》,一部分尝试用现代科学做出解释的科学家就此偃旗息鼓。

给许东讲授固体物理课的严守胜教授,也曾劝大家不要研究这个方向。他讲到,布赖恩·约瑟夫森三十岁出头就拿了物理学诺贝尔奖,之后专注于超自然神秘现象研究,却一生没有实质性的进展。

这也让许东决定留在北大继续做物理研究。他被保送硕士研究生,选择了固体物理方向,师从磁学研究的导师周文生教授。

在周教授的指导下,许东将研究放在了固体物理中一个基础问题——自旋玻璃。

简单来说,自旋玻璃理论研究的是物理学中的复杂系统,对于理解无序自旋相互作用系统发挥了非常重要的作用,近年来该理论框架为约束满足、组合优化、统计推断、神经网络等理论研究提供了众多启发。

但在当时,自旋玻璃更多体现在陶瓷、高温超导等应用领域,需要用到大量的实验研究,记录不同陶瓷所用的配方,测量陶瓷的属性。

许东将其描述为“工匠型”研究,每天就是烧炉子、测材料属性。他发现自己的动手能力不强,实验做得不好,还把老师的仪器弄坏了。

回忆起那段经历,许东称,“我最大的实验结论,就是我不适合做实验。”

既然实验不成功,许东也不再硬着头皮做,他开始想着兑现自己的理论天赋,经常在硕士论文中顺着几个实验结果自我发挥,写出十几张纸的理论猜想。

在导师看来,这些猜想毫无根据,多次提醒许东不需要写进毕业论文,许东就在草稿上继续写。

现在看来,尽管那些猜想称不上科研,甚至没什么价值,却在无意中锻炼了许东举一反三、触类旁通的能力。这是一种天赋,冥冥之中决定了他将终生与理论研究打交道。

一生中最重要的导师

许东博士就读于美国的伊利诺伊大学厄巴纳—香槟分校(University of Illinois at Urbana-Champaign,UIUC),但前面还有段小序曲。

1990年,许东硕士毕业后,来到美国纽约市立大学皇后学院读起了物理博士。但因为当时女朋友(现在的妻子)读研选在了UIUC,许东果断转校。次年5月,许东向西出发,跨越千里与爱人会和。

他与妻子在北大结识,妻子就读于化学系,比他小三届,两人从相恋时就约定去更远的地方,从北大到UIUC,两所学校成了二人从相识到婚姻的重要见证。

这段经历有一位见证人——许东的博士导师Klaus J. Schulten教授,也是许东一生中最重要的一位导师。

Klaus J. Schulten教授

Klaus是一位理论物理学家、也是一位计算生物学家,博士师从诺贝奖获得者Martin Karplus(从学术脉络上看,现在深圳湾实验室周耀旗的博士后导师也是Martin Karplus,与许东一脉相承)。

早在1978年,Klaus就较为完整地描述了磁感应和动物迁徙的Radical Pair假说(也称为化学指南针假说),此后便投身到生物学领域。

1991年许东加入时,Klaus实验室已经非常活跃,他本人是UIUC里最抢手的导师之一。许东的导师首选是Klaus。

但进入Klaus组里,许东觉得多少沾了些运气。

UIUC有一个重要的导师双选机制,学生可以和许多导师单独见面,由学生提交5个导师的排序志愿,导师也排序选择5个和他(她)见过面的学生交到系里,由系里协调分配。

所以,这份实力和运气兼具的选择机制总会伴随意外和惊喜。

谈到被选的原因,许东猜测,或许是自己初到UIUC时一次性通过了博士资格考试,一下子让Klaus注意到了。但其他同学就没有这么幸运了,很多美国同学在这场入学考试中表现吃力,或者没有参加,两次补考也有一半的博士生没有通过考试,被降为了硕士。

时至今日,谈起选择导师时的经历,许东还深有感慨,“我们是选择了彼此,夸张点说,师生关系对职业的发展可能不亚于配偶关系。”

许东博士毕业时和Klaus J. Schulten教授的合影

进了Klaus组之后,许东在校内的贝克曼研究所(Beckman Institute)做研究。

这是伊利诺伊大学里一栋专门为跨学科研究而建设的大楼,主要集中在工程和物理科学、生命和行为科学方面的研究,超越了当时众多传统大学在组织和结构方面所存在的众多内在局限性,一切服务于跨学科交流。

在那里,许东第一次同时运用起“生物、计算机、物理”三门学科的知识。

对许东来讲,最难的还是补上生物的背景。组里的同学一起成立了“学习小组”,一起读沃森等人写的《细胞分子生物学》一书,每人轮流负责主讲一章,相互交流学习笔记。只用了半年,许东连同组的同学,都补上了生物知识。

从事交叉学科研究仍不轻松。那个年代的学术界有一种说法:只有在本领域做得不好的人,或者在本领域做到了天花板,才会转向交叉学科。90年代初,生物信息学甚至不能被看作一门学科,Klaus所领导的小组对外也是自称为“理论生物物理研究组”。

许东谈到,他所认识的物理系同学中,转向生物物理的人并不多,甚至有人不理解许东的转行。但许东相信自己的选择,导师Klaus就是一颗定心丸。他也曾在父亲多年的流体力学研究中,感受过交叉学科的魅力。

对于走上生物信息学这条路,他只做出过一次解释,“就像在计算机上设计波音777飞机,可以先根据数据建立模型并预测结果,等确定设计无误,再实际建构飞机,既省力、省时,也省钱。

同样的道理,生物信息学刚刚起步,主要结合生物、计算机、统计三门学科的知识,发展计算软件,用来分析生物数据、建立模型、预测结果,从而辅助设计药物,或者改良农作物。”

这种说法遭到嘲笑,许东确实遇到了一些问题。

他研究的是当时最火的蛋白质结构的分子动力学问题,简而言之就是研究蛋白质怎么运动。由于蛋白质的生物功能与结构动力学特征紧密相关,并且其研究对象为蛋白质分子个体,所以也是一门与分子生物学互补的研究。

但在90年代初,计算机内存容量太小,用计算机模拟分子运动常常受限,算力局限导致能做的事情也不是特别多。

许东称,“当时最好的机器才一个G,学生们都要抢着用,这与现在用云平台模拟出来的效果不能相提并论。”

在那个环境下,但他与导师做的第一个工作——《光合反应中心蛋白质运动与电子转移的耦合:在自旋玻色子模型框架下研究低温行为》,发挥理论研究优势。

许东借鉴了系里另一位教授安东尼·莱格特(2003年诺贝尔物理奖得主)的自旋波色子理论,在量子力学的知识体系下做出了一个新的理论模型,细致解释了光和反应中电子在蛋白质里电子传递的现象,在领域内得到了高度认可。

直到许东毕业十几年后,Klaus还会经常提到许东的这项研究。此后,在与导师的合作中,许东接连发出了9篇论文,其中6篇发布于1995年,与当时最火的分子动力学、活细胞中超分子系统等领域相关。

回忆起那段时光,许东称,在学术上对他影响最大的人就是Klaus,在遇到Klaus之前,他的理论天赋被隐匿以来,甚至不能写在论文中,他一度质疑什么才算是真正的科研。直到遇到Klaus,许东才有种找到了科研大门的感觉。

许东至今对一个场景印象深刻:半夜两点钟,Klaus为了一篇论文把许东叫到家里改稿,尖锐的点评与详细的建议劈头盖脸般地过来,一直改到他满意为止。

“我就是在批评中成长起来的“,许东称,”世界上有一些领域可以自无师自通,但在科研上,我还没有见过谁是自学成才的,每一个真正会做科研的人,至少是被另一个科研高手口传心授、精心调教,才能入得了科研的门。”

Klaus属于那种“严父型”的教授,但他对学生却不乏真诚的关心和骄傲。在他的实验室里有一面特殊的墙,上面挂满了学生们的论文封面,一一做了装裱。

在许东的印象中,Klaus每天只睡4个小时,从不锻炼、从不养生,却能每周高效率地工作上百小时。

2016年,Klaus去世。许东回到那所实验室,对墙感叹,“或许我一生都到不了Klaus那样的高度,他完全是用生命做科研。”

葬礼那天,在西式的吊唁中,欢声笑语与掩面拭泪同步进行。Klaus在遗言中留给大家的最后一句话——“我不喜欢你们这样消沉,打起精神,还是像过去那样想起我。”

回顾起与导师相处的那四年,许东说到,Klaus是最感染自己的是他对自然与生命之美的洞察与挚爱。Klaus把自己大分子模拟的工作当成“分子显微镜”。他告诉朋友,生命之大美不仅仅在春天欢快的小鹿身上和秋天斑斓的落叶里面,也在我们肉眼看不到的生物大分子中间。他虽然不在了,他的学生们会继续他的事业,去探索更多的生命之美。

直到现在,许东也坚信,Klaus是他人生中最重要的一位老师。

90年代的生信研究“寒武纪”

1990年10月,经美国国会批准的人类基因组计划正式启动。

这项大约耗资30亿美元来测定30亿个碱基对的国际计划,从美国迅速席卷到英、日、法、德、中等国家。

与此同时,这项研究也从多国政府间的合作小组,分散到诸多私营性质的基因研究机构中。

其中,最具代表性的就是文特尔(J. C. Venter)创立了塞莱拉基因公司,并用1991年提出的“散弹法”新型测序技术,多次走到“国际人类基因计划”的前面。

一场公私之间的科研赛跑,在三十年前拉开帷幕。

1994年,由美国科学家约翰·莫尔特(John Moult)发起的全球蛋白质结构预测竞赛(CASP),召集科研界所有人士,开始了真正的较量。

这个两年举办一次的竞赛,一亮相便吸引了计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测中。在那个年代,基因测序和蛋白质结构预测如火如荼,生物信息学(Bioinformatics)也成为了一门正式学科。

贝克曼研究所大楼

那是波诡云谲的90年代,一段即将进入生命科学时代的“寒武纪大爆发”。许东所在的贝克曼研究所,就站在了浪潮最前沿。

1993年,在那所大楼第五层的国家超级计算机应用中心(NCSA)中诞生的Mosaic浏览器,迅速在整栋大楼中传开。这样一个纯粹好玩儿的作品,成为点燃后来互联网热潮的火种之一。

后来,网景导航者浏览器的开发工作,聘用了许多原有的Mosaic浏览器工程师,但是没有采用Mosaic网页浏览器的任何代码。传承网景浏览器代码的后裔为Firefox浏览器。

在计算机技术的支持下,生物信息学迎来第一次黄金期,成为当时的前沿学科之一。

1995年,许东博士毕业。他来到美国国立卫生研究院的国家癌症研究所,拿到了一份博士后工作。“在美国走学术这条路必须要读博士后,Ruth Nussinov做的是蛋白的相互作用,我就进了她的组。”

许东在博士后办公室里

工作测序工作与生物信息学大火,带动了工业界对人才的渴求。

在拜师Ruth门下时,许东曾看到一个制药公司一口气招了80多个生物信息学背景的人——全职。甚至一家公司猎头打电话找到许东,开出了他博士后的三倍薪资,“会写C(语言)就够了,你还会用BLAST工具(生物大分子序列比对搜索工具),明天就来上班。”

许东至今仍对那段时期印象深刻,尽管已经走上进了学术的大门,但依旧有不少公司想让他加入。

去公司拿高额薪水,还是只拿三分之一做博士后?这个问题,事关内心最真实的选择。

帮许东做决定的,是一场会议。

这场会议由美国国立卫生研究院举办,邀请知名学者做分享,其中三位就是后来的2013年诺贝尔奖得主——Martin Karplus、Michael Levitt、Arieh Warshel。

当天,许东赶到现场。他忘了那三位学者说了什么,但他对台上三个人侃侃而谈的样子记忆犹新。那种感觉让他心动,有几秒钟让他好像看到自己未来的样子。

那一晚从会议里走出来,许东心里有了答案。许东把希望放在了新的研究领域。

此前在分子动力学领域,他经常受限于动力学的模拟时间,只能做小部分的生物学问题。现在跳出来后,他想试试能不能做一些更广谱的问题。

谈起导师Ruth,许东称她是一位极具科研情怀的科学家,并且身为一位以色列女性学者,科研道路十分奇妙:Ruth在硕士毕业后做了八年的全职母亲,而后跟随丈夫来美国伴读,突然萌生了对生物化学的兴趣,才再读了博士、博士后,走上了学术道路。

许东表示,许多科学家对科研都有真爱,但Ruth对科研的钟爱与专注程度相当罕见,她对RNA、毒物蛋白的工作精益求精,要求极高。

Ruth Nussinov教授

Ruth曾在1978年提出了用于RNA二级结构预测的动态规划算法(Nussinov Algorithm),迄今该算法及其变种仍在业内广泛使用,是生物信息学课程中常谈到的方法。

另外,她挑战了生物化学教科书中长达半个世纪倡导的生物大分子识别理论(诱导拟合机制),许东读研究生时学的就是这一理论,那时被告知生物大分子就像变形金刚一样可以粘到别的分子上,至于怎么变形及如何被驱动一直众说纷纭,没有靠谱的解释。

直到九十年代后期,Ruth用构象分布与选择替代的理论成功解释了许多分子识别的现象,并得到同行越来越多的支持,一举改写了教科书。

回忆起和Ruth相处的那两年,许东能想起很多场景。一天,许东做了一个小工作,想找个低端点的杂志草草发了。但和Ruth讨论好,并迅速写好文章交给她后,Ruth并没有像以往一样马上给许东改文章,而是直接退了回来。

Ruth找到许东说,不能因为低分杂志就不认真。接下来的日子,她和许东一起反复推敲科研细节,文章也是改了又改,最终那篇文章(《蛋白质相互作用界面的氢键和盐桥》)没有少花时间,却成为了一篇高被引的论文(被引五百余次)。

还有一次,许东和Ruth一起到香港一所大学做大会主题报告,许东提议两人出去转一转,以尽地主之谊,却遭到了Ruth的一口回绝,“我没时间,做完讲座要马上返程了,有太多的工作等着我呢。”

此后多年,许东慢慢跳出了分子动力学和生物大分子的研究范围,与Klaus以及Ruth的研究渐行渐远,但要说从Klaus和Ruth身上传承到什么,那就是想象力和精益求精。

“他们从不想着自己要老了,无所谓了,总觉得还有非常多的未知要解开。你会看到,他们的学术生命都很长,一生都未退休。”

博士后结束的二十多年后,许东仍对导师充满敬佩,他在朋友圈历数Ruth过往,并在最后写下了一段话:对于基础科学工作者来说,最高的成就莫过于把自己的学说写在教科书上,或者将自己的姓氏冠名于某个定理、算法,能做到其中之一的在学术界都是凤毛麟角,Ruth却把两件事都做到了。

1997年6月,许东博士后工作结束,注意到橡树岭国家实验室的一份招人广告——需要生物背景,从事蛋白质结构预测。“这份工作很合适我,虽然不是一份教职,但也不是去了工业界,算是找到了一份折中又适合的工作。”

把许东招进来的,正是担任蛋白质折叠项目组长的徐鹰。

彼时,徐鹰刚刚从橡树岭的数学与计算机科学部转到生命科学部。他们一拍即合,徐鹰偏数学计算背景,许东偏生物物理背景,而橡树岭的另一位研究员——俄国数学家Victor Olman博士,则具备统计学背景。

1997年,他们组成了橡树岭的“三剑客”,在此后的6年时间里合作了40多篇论文,在蛋白质结构预测领域打出了名堂。

许东、徐鹰2001年在R&D100的领奖仪式上

那段时间里,许东和徐鹰还一起做出了那个时代中最好的蛋白三维结构预测工具——Prospect,在人类基因组测序中刻下了重要一笔。2001年,两人以此拿下R&D100奖,在新世纪初拿下开头彩。

橡树岭实验室坐落在山沟沟里,偏僻冷清却环境优美,是个安心做学问的好地方。“在那里,收获的不仅仅是科研论文,更是一种经历,对国家实验室如何运作,科研水平有了更深入的了解。实验室提倡科研合作,也逐渐学会与他人相处、共同进步。”

2003年实验室改组后,限于经费问题,原生命科学部大部分人去了工业界,许东和其他人也各自踏上了教职之路。

当最年轻的系主任遇上深度学习

许东一行人是幸运的,这群从橡树岭出来的人在美国高校大受欢迎。

新世纪初,几乎所有高校都在建设生物信息研究所,徐鹰最终去到佐治亚大学,成为了该校生信研究所的首任所长,并拉去了Victor Olman,两人继续共事。许东则去了密苏里大学的哥伦比亚分校(University of Missouri,Columbia,下称“密大”)。

2003年8月,许东以计算机科学系副教授、James C. Dowell讲座副教授,以及Christopher S. Bond生命科学中心研究员的身份,被正式引进到该校。

而他将在这个被称为“哥村”的地方,一待近二十年。

2007年底,42岁的许东担任该校计算机科学系的系主任,成为了密大所有系主任中最年轻的一位。这是许东人生中的一个重要时刻,也是在美国高校管理人员中为数不多的华人面孔。

2007年,许东任职系主任时留影在这个非母语环境中,许东不善言辞,但这次任职,却收获了全院的支持。

许东说到,“如果要说我有什么合适的地方,或许是我学问做得还不错,文章比较多,更重要的是,大家觉得我不会借机给自己谋什么福利。”

上任第一件事,就是设计课程。许东在橡树岭这所千人实验室的经历派上了用场。他考虑了系内近20名教授的专长,准备将研究方向集中于三个领域,分别为网络、多媒体、生物信息。许东认为,计算机学科领域太广,必须专精才能突出。

”当时的密大计算机系有50名博士生,人力资源丰富,如果善加整合,提供明确研究方向,必能协助教授,做出量多质佳的研究,提高计算机系的整体素质。”

许东将学术机构则比作私人企业,学术合作的关键在于最后的产值,而系主任就是拉拉队鼓舞士气,让团队有最好表现。

那些年里,许东也长期奔走在国内高校,一边做学术讲座,一边推动国内大学与密苏里大学3+2、2+2等联合培养项目。

许东回忆,他跑遍了中国几十所双一流高校,回国次数不计其数。特别是吉林大学,他每年都去讲学,并担任过大约十年的唐敖庆客座教授,和许多的老师同学建立了深厚的友谊,合作发了几十篇论文。比如,时任吉林大学计算机学院副院长的梁艳春教授,也有十年每年到密苏里大学许东的实验室访问、合作。

2015年许东到西安电子科技大学访问交流(右四),近年许东和梁艳春教授在密苏里河畔

在担任系主任的那段时间,许东参加了很多的领导培训课程,看到课件上将领导人打上四类标签:冒险型、守成型、改革型和善后型。

许东没想那么多,“天底下很多东西都有专业,但做领导是没有专业的,没有谁见到哪个系科是专门培养领导的,就算是MBA,教的也是金融的东西。”他反而觉得,不如从过去的经历中找养分,看看能不能把一个系管理得井井有条。

直到2016年,密大计算机系与电机系合并,许东十年的系主任正式卸任。

2022年8月的Digital Biology Lab

这十年里,学校资源没有大幅扩大,许东所在的计算机系师资稳定在16~18人,学生人数却增加了一倍(从2007年的279人到2016年的700多人),科研经费也增加了一倍。

而他自己的实验室(Digital Biology Lab),也从2003成立初的七个人,到如今他直接指导13个博士生,还有一些职员和不少的硕士、本科生,在实验室待过三个月以上的成员前后有两百多人,其中三十几位目前在中国国内任教职。

2018年,许东(右五)实验室15周年庆祝活动留影

此外,许东的一个重要工作,是2012年密大的BS-CS课程通过了美国工程与技术认证委员会(ABET)的正式认证。如此一来,国内外的密大访学人员便获得了中美两国的双向学位认证。

去年,许东与儿子骑行到密苏里州最大的毛刺橡树那里,在那棵哥村的地标大橡树下,许东回忆起过去的点点滴滴。他对儿子讲到,“过去十几年,密大接待了很多国内的学生和学者,许多人在神树下打卡纪念,这棵树陪伴了他们的重要时刻。夸张点说,这棵树就是中美友好的见证,我希望越来越多的人到这棵神树下打卡。”

2012年,是许东学术生涯中的一个重要转折。此时,距离Alphafold运用深度学习算法在生物信息学领域一炮而红还有6年。

这一年,学术界发生了一件大事。

在李飞飞号召的ImageNet竞赛中,多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构:AlexNet,夺得了ImageNet冠军,成绩比当时的第二名高出一大截。

竞赛结束后,一场关于深度学习算法的讨论在学术界传开。

业内有种声音,如果这种使用大规模数据集所做出的决策结果是真实的,那么它将走出计算机视觉、神经语言处理和语音识别等子领域的研究困境,就连生物信息学领域的蛋白质结构预测、基因测序等问题也都迎刃而解。

但在当时,大多数人对此持强烈的怀疑和批判态度,“深度学习无非是大号的神经网络,换个马甲而已,结果也是作弊来的。”

这种想法不无道理。许东称,当时深度学习在决策准确度上一举增加了10个点。在此之前,无数学者在十几年的研究过程中,每年几乎都是0.1%式的、非常微弱的进步。

因此,对于辛苦钻研的学者来说,深度学习的碾压式进步会让他们产生一种深深的“无力感”,甚至会产生一种难以言说的愤怒。

两股思潮的碰撞,许东身在密苏里州也听到各种声音。

密苏里州一直以来都因为“show me state”出名,意为“索证之州”。许东把所有的细节都看了一遍,也让组里的人也测试深度学习。结果不出所料,深度学习在几个生物信息学的问题上有很大的提高。

2012年,许东不顾所有人的质疑转向了深度学习,这是他人生中第二个重要时刻。

此后,许东的课题组把深度学习在生物、医学上的应用作为第一研究方向,合作对象也从本系扩大到美国、中国高校。

在深度学习的影响下,许东关注到农业植物作物、中医研究、单细胞数据分析、蛋白的分析、修饰、定位,结构预测等其他领域的课题。

过去三年,许东第一大合作对象是俄亥俄州立大学的马勤教授,基于深度学习做单细胞基因测序的问题上发表了7篇有影响的文章。

许东的课题变化依然有,但主线已放在了深度学习上。

许东最直观的感受是,跳出原有的分子动力学模拟的框架后,反而做的东西更多了,合作对象也更多了。一个显著特点是,过去二十多年,许东所发表的论文中,作者少则四五人,多则十几人,合著期刊论文近300篇,会议论文和著作章节共计超百篇。

在不同时刻,许东与不同人结成战友,迅速冲到科研落地最前线,而他自己,也从一名物理学者,逐渐蜕变为生物物理学者、再到生物信息学者。

许东坦言,“我们做交叉学科,谁都无法把一个问题的方方面面都解决,所以需要很多合作,在我身上就非常明显。”

许东的老友徐鹰也讲过,许东做出了非常多的计算工具,如果没有他的生物物理背景,是做不出来的。

在许东的理解里,他并不觉得自己成了“工具人”,而是在那些合作中,和别人一起成就更多的事,而不是把研究仅仅当作饭碗或工作量。

同是物理出身,后转向理论生命科学研究的郝柏林院士也曾讲过,“要想做生物,不能当票友,这是一个义无反顾、全心全意研究生物的“中心” ,而不是出身物理学的人参与一些生物学的问题。”

给18岁的许东一个答案

在密大做研究,许东已经不知不觉做了二十年了。

他每天七点起床,十二点前睡觉,每周都要审一篇稿,并且花大量的时间(包括周末和晚上)和组员及合作者讨论科研,这是许东二十多年来的常态。

这些年来,许东好像没什么变化,他依旧同样对外界充满新鲜感。

他爱拍照,出门时常带着一台相机,习惯将镜头对向自己之外的人。在他那里,好像随时能将视角切换到其他人,永远都有一种置身事外的能力。

对于许东个体和科研总体而言,时常的“局外人”身份具有重要的意义,科学研究不能总以自己的位置作为参照,要时不时跳出来,在复杂多变的现象中看清最深刻自然的本质。

许东所摄:仰望日食的阿米什人,拉斯维加斯羚羊谷

正是如此,在过去三十多年的时间里,许东趟过了生物信息学的泡沫期,与导师在那栋交叉研究大楼一起拼搏、与橡树岭同事们组成了生物信息学三剑客、又在密大亲身推动了交叉学科的建设、最后在漫长的科技长河中,找到了深度学习这对船桨。

人过半百,许东还在做着他最喜欢的交叉学科研究。或许这也是即将58岁的许东,要给18岁的自己的一个回答。

最后,许东谈到自己,说到,“或许我永远做不到Klaus、Martin Karplus、Ruth那样的顶流。”

他停顿了一下,“但我会延续他们的学术热情,抻长我的学术生命,始终站在科研的一线。”


作者注:

1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。

在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。

目前,雷峰网启动《生物信息学的三十年往事》专题,将陆续推出徐鹰、潘毅、周耀旗、许东、唐建等新老学者的人物故事,记录光辉岁月,以照后人之路。

关于生物信息学的更多故事,欢迎与本文作者吴彤交流,微信号:icedaguniang

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/YGKSsxbQmxHMhix4.html#comments Thu, 08 Sep 2022 14:41:00 +0800
美国版「医保谈判」要来了,中国药企的出海之路也走不通了? //m.drvow.com/category/shengwuyiyao/8RCEuifv8hstcldG.html

随着一项法案的签署和落地,美国也即将迎来“医保谈判”时代。

8月12日,美国众议院以220票对207票通过《降低通胀法案》(Inflation Reduction Act,简称IRA)。8月16日,IRA由美国总统拜登签署正式生效。

这是一项具有里程碑意义的法案,打破了美国一向的药物定价自由。IRA通过后,美国公共医保Medicare下最贵的数十种药将被纳入价格谈判,面临被降价的局面。

为保护药物研发创新,IRA设置了较高的药物入选门槛,规定只有未受到仿制药冲击,且上市时间达到7年的小分子药物,或者上市时间达到13年的大分子药物才被纳入谈判范围,对刚上市的创新药留有价格保护空间。

但这还是让美国制药业叫苦不迭,关于价格谈判是否会就此限制美国创新药研发的争论不停。

对于近年来争先布局美国市场的国内药企而言,IRA的通过,则为本就不易的出海竞争增添不确定性。

未来,在美国成功上市的国产创新药价格恐怕会有所回落,这个市场或许不那么“香”了。

温和版“医保谈判”

根据IRA的规定,美国卫生和公众服务部将被允许就公共医保Medicare承保的数十种药物与药企进行价格谈判,以降低处方药成本。

虽然这是一项在美国医疗领域具有里程碑意义的法案,但从Medicare覆盖的人群、药物以及降价幅度来看,执行力度相对国内的医保谈判要温和不少。

据了解,Medicare是美国公共医疗保险体系中的重要组成部分,主要面向65岁以上的老年人群和符合一定条件的65岁以下残疾人或晚期肾病患者。

Medicare分为4个部分,而IRA瞄准的是B部分以及D部分中价格最昂贵的药物,覆盖医院和零售药店两大渠道。目前,美国有超过6300万人通过Medicare投保,大约4900万人参加了Medicare的D部分。

价格谈判将分为4个阶段进行。

第一阶段谈判的药物价格将于2026年生效,主要针对D部分的10种小分子药物处方药价格。

第二阶段谈判价格于2027年生效,继续针对D部分的15种药物。

第三阶段谈判价格于2028年生效,覆盖药物范围扩大到B部分,针对更广泛的生物药,届时将有15种B或D部分的药物参与谈判。

第四阶段谈判价格于2029年生效,针对20种B或D部分药物;在这一年之后,每年谈判范围都将覆盖20种B部分和D部分药品。

具体的药物将从MedicareD部分或B部分中总支出最高的50种药物进行筛选,不包括孤儿药,且只有未受到仿制药冲击,上市时间达到7年的小分子药物,或者上市时间达到13年的大分子药物才被纳入谈判范围,对刚上市的创新药留有价格保护空间。

降价幅度方面,对于批准年限在12年及以下的短期垄断的创新药,谈判价格上限是平均价格的75%;批准年限在12至16年之间的创新药,谈判价格上限是平均价格的65%;对于长期垄断药物,即批准年限超过16年的创新药,谈判价格上限是平均价格的40%。

目前,价格谈判的药物名单尚未公布,但美国银行已根据Medicare 2020年对各大药物的支付金额给出了预测名单。

在D部分,美国银行预测的候选名单包括百时美施贵宝的阿哌沙班、强生的利伐沙班、默克的西格列汀、艾伯维的伊布替尼,2020年Medicare在这些药物上分别支出99亿美元、47亿美元、38亿美元、29亿美元。

在B部分,入选的药物包括默克的K药、再生元的阿柏西普、安进的普罗力、百时美施贵宝的O药以及罗氏的利妥昔单抗,2020年Medicare在这些药物上分别支出35亿美元、30亿美元、16亿美元、15亿美元、13亿美元。

美国银行预测,2026年及以后,价格谈判可能会令Medicare花费最多的25种药物价格降低25%。

除了建立一套药物价格谈判规则,IRA还规定,从2023年开始,Medicare投保人每月为胰岛素支付的费用上限为35美元。

同样从明年开始,IRA将严厉打击药物定价上涨幅度超过一般通货膨胀的行为,药企若违规抬高药物价格,将被迫向政府缴纳差额。

美国将守不住创新药研发全球第一的地位?

IRA被认定为一项具有里程碑意义的法案,是因为自2003年颁布《医疗保险现代化法案》以来,美国政府就一直被禁止与药企谈判药品价格。

尽管美国民主党在过去30年来试图通过允许Medicare谈判药品价格来降低处方药的成本,但得到的成果屈指可数。

如今,这项禁令终于被打破,但围绕在这起法案背后的争议不少。

美国虽然是世界上拥有创新药数量最多的国家,但代价却是需要忍受高昂的药物支出费用。美国白宫曾披露,美国人支付的处方药费用是其他国家公民的两到三倍。

当药品被纳入价格谈判,是否会打击美国的创新药研发,是争议的焦点。

据美国国会预算办公室(CBO)预估,若不受IRA法案影响,美国在未来30年内将批准1300种药物。在IRA法案下,2023年~2032年期间,引入美国市场的药物数量将大约减少2种,在随后的10年时间里则大约减少5种。

但随即,制药业针对该预估发了猛烈的抨击,认为CBO的预估并未考虑新政下商业投资减少带来的影响。

两名分别来自生命科学投资公司RTW Investments, LP 与Pura Vida Investments的投资人以小分子药物为例,分析IRA新规如何挫伤新药研发的积极性。

他们提到,小分子药物在达到上市9年时间后就面临被纳入价格谈判的风险,但9年的时间并不足以激发药企和投资人投入更多去探索已上市药物在其他适应症中的可行性。

在药物研发领域,一种药物最先获批的适应症通常只是一个热身,更大的市场可能蕴藏在其他适应症中。如果有足够的获得收入的时间,药企和投资人愿意在药物上市后继续投入药物对其他疾病的适用效果,即使研发失败,原有已获批的适应症也能填补后来的投入。

而多种小分子抗癌药物的获批时间数据显示,这些药物从首次获批到最近获批需要历经7~14年时间。

多种小分子抗癌药物从首次获批到最近获批经历的时长 图片来源:rapport.bio 

以由GSK研发的激酶抑制剂达拉非尼为例,该药物于2013年首次获批用于黑色素瘤患者。在接下来的9年,GSK和诺华继续投入探索Tafinlar和现有药物的联合疗法,先是成功将其应用于肺癌治疗,后来又扩展到预防癌症复发,最终证明其可用于BRAF-V600E(超过20种不同类型的癌症)特定突变的所有类型肿瘤,并在今年再度获批上市。

如果药物在上市7年后即被纳入价格谈判,将大大缩短药物的回报期,很有可能抑制药企和投资人在药物上市后继续投入研发的积极性。而一旦缺少在药物首次获批后继续研发并获利的可能性,药企和投资人在最初的药物研发选择上也就更为慎重,不能“一炮而红”的药物就不值得投入。

药企利益的捍卫方美国药品研究与制造商协会主席兼CEO Stephen Ubl 曾多次批评IRA。

他表示,新政策将导致更少的新疗法,并且在解决患者真正面临的负担上做得还远远不够,“这对患者来说是一场悲惨的损失。”

出海美国市场“不香了”?

也有观点认为,IRA的通过对药物价格的影响很有限。

首先是能够入选谈判的药品不多,即使是今年预测的热门候选药品在2025年后也很有可能就迎来仿制药竞争。

其次是覆盖的范围有限。美国国会议员伯尼·桑德斯批评,绝大多数年龄在65岁以下的人都被IRA完全排除在外。

“如果你未满65岁,这项法案根本不会影响你,制药公司将能继续他们的快乐之路,并将价格提高到任何他们想要的水平。”

另据瑞银集团出具的研究报告,IRA的通过反而是为市场释放了政策明确的信号。自2015年以来,药物定价问题一直成为美国的政治焦点,悬而未决的政策风险一直打压着生物制药的估值,范围有限的IRA消除了更严格的药物定价威胁。

距离价格谈判真正落地生效还有4年时间,现今的猜测其实都无法准确预料新政的威力。当药物价格管控的大门开启后,触手还将伸向何处,也尚未可知。

对于国内意向出海的药企而言,IRA的通过也算不上是则好消息。

近年来,随着国内创新药研发迎来政策利好期,国内获批上市的创新药数量大大增多。2021年,共有44个国产创新药(不含中药、疫苗)上市,同比增长175.0%;共有27个国产创新药获批,总数超前五年的总和。

在该背景下,受国内价格体系和市场空间的压缩,头部药企争先布局创新药出海。

据莫尼塔投资统计,截至2022年1月9日,在国内42家有创新药临床II期以上管线的公司中,其中30家公司或有海外临床,或已向美国、欧洲、日本等国家递交上市申请。

因多年宽松的药物价格管控政策而成长起来、为全球最大医药市场的美国,更是国内药企出海的首选之地。

在上述30家药企中,大多数都在美国市场有布局,包括传奇生物、信达生物、君实生物、和黄医药、百济神州、百奥泰、荣昌、恒瑞医药、复星医药等。

出海本就不易,IRA的通过,再为这些药企的出海竞争增添不确定性——如果竞品被降价,国产创新药也就不得不就定价让步。

美国市场一向独具的高回报吸引力,在未来是否还会奏效?雷峰网 雷峰网

参考资料:

https://mp.weixin.qq.com/s/LpEa9FHbDRq8xbmBkFqY7g

https://www.cnbc.com/2022/08/12/drug-prices-passage-of-inflation-reduction-act-gives-medicare-historic-new-powers.html

https://rapport.bio/all-stories/post-launch-pre-cliff-rd-congress-ignores

https://www.forbes.com/sites/joshuacohen/2022/08/02/critics-decry-drug-pricing-provisions-in-inflation-reduction-act-say-they-will-stifle-innovation/?sh=5e782431222d

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/8RCEuifv8hstcldG.html#comments Mon, 29 Aug 2022 10:53:00 +0800
三十年资深药企人Derek Lowe抨击AlphaFold:媒体夸大,靠结构预测做药「纯属自嗨」 //m.drvow.com/category/shengwuyiyao/vD79NDPhXKxeOwId.html DeepMind近日公布了AlphaFold的最新进展:已预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质,再次刷新了我们对它的期待。

AlphaFold 2横空出世时的热烈场景重现,再次在国内外的社交媒体上引发热议。但作为“圈内人”的生命科学领域研究者们,对AlphaFold此次公布的成果却褒贬不一。

在此前雷峰网《医健AI掘金志》发布的文章《预测2.14亿个蛋白质结构!AlphaFold 新成果再次引爆生命科学界,业内专家却褒贬不一》中,潘毅、周耀旗、许东等几位生物信息学领域的学者曾表示:AlphaFold蛋白质结构数据库此次更新的海量数据中存在着部分结果结构不稳定、不能应用于研究中等问题。

加拿大蒙特利尔大学MILA实验室唐建教授也向医健AI掘金志表示,AlphaFold预测出的蛋白质对药物研发的影响有限。

近期,美国一位制药行业的资深专家Derek Lowe博士发文,对外界尤其是媒体热捧的AlphaFold进行了一番吐槽。

Derek Lowe博士毕业于杜克大学,在大型制药公司工作了三十余年,从事治疗精神分裂症、阿尔茨海默氏症、糖尿病、骨质疏松症和其他疾病的药物发现项目。

Derek Lowe

上周,Derek Lowe在英国皇家化学学会(Royal Society of Chemistry)的网站上发布了一篇文章。

他旗帜鲜明地指出:AlphaFold不会带来药物研发领域的革新。

以下为Derek Lowe的文章,雷峰网做了不改变原意的整理。

长期以来,蛋白质结构预测一直被认为是计算生物学中最困难的问题之一。

但是在过去的一两年中,AlphaFold在这方面的工作上取得了显著的进步,预测出绝大部分人体蛋白质的组织结构。

如果放在十年前,这样的成果就像科幻故事一样。

我并不想否认AlphaFold取得的成果,但是一些新闻报道错误地理解了AlphaFold这一成果的意义。

我们并没有在理解“蛋白质为什么会这样折叠”方面取得巨大飞跃。

蛋白质结构通常情况下以线圈、环或片状的形态存在,但为什么不继续深入其中进行研究?

如果只在目前的层面上进行研究,将无法发现许多隐秘的答案。

我们早就拥有成千上万的新蛋白质结构预测结果,绝大部分是正确的。而且,尽管有一些例外,它们似乎确实大部分是正确的。

AlphaFold的算法在面对无序的蛋白质区域时会无法正常工作,AlphaFold的整个计算技术都建立在寻找已知结构的类比上,在没有可比较结构的情况下,AlphaFold也无计可施。

一部分无序的蛋白质在各种蛋白质的影响下能够进行有序排列,但也有一部分蛋白质在任何条件下都从未出现过有序的结构。

当蛋白质无法形成有序结构的时候,就超出了AlphaFold的计算能力。

AlphaFold提供了其结构预测的置信度。深蓝色结构的置信度更高,而黄色和橙色结构的置信度较低

需要强调的是,通过AlphaFold,我们得到的是蛋白质结构的预测,而非真正的蛋白质结构。

AlphaFold是很实用的蛋白质预测方法,但通过X射线、核磁共振或冷冻电镜等方式获取蛋白质的实际数据,才是确定其准确性的唯一方法。

但由于构象的灵活性,即使是实际数据也无法完全代表其准确性。

这正是媒体报道中夸大AlphaFold蛋白质结构数据库对药物研发影响的地方。

在小分子配体的存在下,蛋白质结构会发生变化和滑动,有时细微有时剧烈,但AlphaFold还无法预测这些变化。

也许最终能够找到这些问题的算法解决方案,但到目前为止,还没有足够多能够与小分子配体结合蛋白结构。我们需要的数量非常多。

有大约20种不同的蛋白质侧链需要考虑,但小分子结构的数量如此巨大,相比之下几乎是无限的。

还有一点,听起来很刺耳(尽管这是真的):在药物研发的过程中,对蛋白质结构的了解,鲜少影响研发进度。

因为研究者们通常在使用纯蛋白或活细胞进行检测的基础上运行项目。检测数据则代表着化合物是否符合研究者的要求,以及是否随着新化合物制造而表现更好。

蛋白质的结构可能会对研究者们下一步制造什么化合物有所启发,但也可能没有任何帮助。

归根结底,来自真实生物系统的真实数字才是最重要的。

随着药物研发项目的进行,这些数字涵盖了药代动力学、新陈代谢和毒理学的检测,这些都无法真正从蛋白质结构水平上处理。

激流之后往往才是最终的瀑布。

新药在最后的临床环节失败,往往是因为我们选择了错误的靶点或其他难以预料的原因。

而蛋白质结构预测对减轻这两种风险都无济于事,这就是药物研发的临床失败率高达85%的原因。

蛋白质结构预测的确是一个非常棘手的问题,但药物研发中面临的风险明显难度更甚。

Derek Lowe这篇文章发布后,也引发了两派读者的讨论。

支持他的读者认为,在研究中的确应该考虑到柔性蛋白质的影响,因为构象状态的变化需要逐案理解。蛋白质-蛋白质和蛋白质-核酸相互作用对了解该系统也很重要。结构本身无法解决所有问题,在取代实验数据之前,人工智能还有一段路要走。

也有读者不同意Derek Lowe的观点,认为“良好的结构预测将大大加快获取经验数据集的过程。”

一位读者表示,“基于结构的设计将是一个限制因素——在一个难以获得结构的环境中。在一个有 AlphaFold的世界中,情况不再如此。此外,可以再次运行AlphaFold,将一个小分子放入并重新折叠它周围的蛋白质。20年前,在我攻读博士学位期间,我们曾经使用sybyl 和autodock来做同样的事情——坦率地说,这些软件工具完全是垃圾。传统的药物设计就像盲人拄着拐杖一样颤颤巍巍,通过基于结构的设计,我们现在可以看到。它(AlphaFold)以前不是药物设计的重要组成部分,这一事实与未来如何发现新药无关。”

有读者认为,基于结构的药物设计活动大大有助于降低失败率。在AlphaFold缺乏实验结构的情况下与分子动力学模拟等其他计算方法相结合,远比传统方法要好得多。

不论国内还是国外,学者们对AlphaFold的评价均是褒贬不一,对其在药物研发中将产生的影响看法也不尽相同。

Derek Lowe的这篇文章,代表的是主流或者传统药企技术专家,面对新技术时一种“本能性”的抵触。

这种现象,和医学影像AI出现时,医生对AI的吐槽并无区别,本质上是两种专业背景的碰撞和对抗。但是,现在的放射科医生也逐渐接受了AI帮他们找肺结节。

得到这个问题的答案也很简单,从什么角度对AlphaFold所代表的深度学习技术进行价值评估?

AlphaFold能否为药物研发领域带来革新性的变化,你会站在哪一边?

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/vD79NDPhXKxeOwId.html#comments Mon, 15 Aug 2022 15:35:00 +0800
预测2.14亿个蛋白质结构!AlphaFold 新成果再次引爆生命科学界,业内专家却褒贬不一 //m.drvow.com/category/shengwuyiyao/xJ4iS0jJRDpAuBgX.html AlphaFold蛋白质结构数据库向公众免费开放一年后,上周,它再次刷新了我们对它的期待:已预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。

此次数据库更新的蛋白质三维结构涵盖了涵盖了植物、细菌、动物和其他微生物等多类别,并且能通过谷歌云公共数据集下载。

在可预测的2.14亿蛋白质结构中,约35%的结构已达到了实验手段获取的结构精度,80%的结构可靠性足以用于多项后续分析。

而且,以上数据将继续免费向公众开放,DeepMind的CEO Hassabis博士说,“这是我们送给人类的礼物。”

AlphaFold 2横空出世时的热烈场景重现,再次在国内外的社交媒体上引发热议。

作为“圈内人”的生命科学领域研究者们,又是如何看待AlphaFold此次取得的成果?

美国密苏里大学哥伦比亚分校Shumaker讲座教授许东向雷峰网《医健AI掘金志》介绍,DeepMind此次发布的成果中,依旧沿用此前的AlphaFold工具,在技术上并无大的创新。

但其预测出的2.14亿个蛋白质结构将起到非常大的作用,借助这些蛋白质结构,生物学领域的诸多问题可以从全新的角度进行解答。

许东教授是AAAS和AIMBE会士,曾因为蛋白结构预测的工作获得2001年美国“最杰出研究与开发100人奖励(国际2001R&D 100 Award)”。

从1997年开始,许东教授就开始了蛋白质结构预测这方面的研究。

“我们过去做蛋白质结构预测只能通过序列对比的方式进行,那时候大部分蛋白质的结构都还没有发现,预测的准确率也不高。AlphaFold出现以后蛋白质结构预测的相关研究都可以再上一个新台阶。”

通过挖掘已发现的两亿多蛋白质结构数据观察蛋白质整体折叠的分布规律,可以更清晰地认识蛋白质的进化、功能和分布。

但是,这两亿多的蛋白质结构数据可以全部应用于研究中吗?

深圳湾实验室系统与物理生物学研究所副所长周耀旗教授,同样进行了多年蛋白质结构预测的研究。

在AlphaFold出现之前,他和他的团队就发展了神经网络回归预测蛋白质真实二面角的方法,为端对端的蛋白质结构预测提供了基础。

周耀旗指出了此次公布的海量数据背后隐存的问题:AlphaFold蛋白质结构数据库中的数据虽然庞大,但其中部分蛋白质由于同源序列较少,AlphaFold并不能准确地进行预测,仍需补充更多的进化信息。

此外,有些蛋白质本身结构不稳定,需要靠与其它分子结合来稳定化,其结构也难以准确预测。

“AlphaFold使用信任度量pLDDT描述各个氨基酸在结构内的可信度,当pLDDT指标过低时,蛋白质结构就是不可用的。”

许东也指出,此次AlphaFold预测出的蛋白质结构中有部分结果结构不稳定,不能应用于研究中;

此外,当两个结构在序列上变化较小时,例如蛋白质中一两个氨基酸发生变异的情况,AlphaFold无法区分其差异。

中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长潘毅教授也有类似的顾虑。

计算机背景出身的他表示,“人工智能有一个学习的过程,要通过大量的训练来提升其准确性。如果AlphaFold预测的蛋白质结构是不常见的结构,AI无法通过已有的知识学习到这个结构,预测时就容易产生偏差。”

潘毅向《医健AI掘金志》介绍,AI是一个能够利用现有的知识预测将来的工具,如果连现有的知识都是缺失状态,自然无法预测新结构。

“除非把世界上所有的蛋白质结构都预测并验证过了,否则是不可能达到100%的准确率。”

虽然对部分蛋白质结构的预测不完全准确,但AlphaFold蛋白质结构数据库在开放数据的同时也提供了相应结构预测的准确度报告,为使用者提供参考。

数量庞大的蛋白质结构为生命科学研究带来的影响仍是毋庸置疑,尤其是在结构生物学的领域。

“已预测出的蛋白质结构,可以更好地帮助研究者解析人体蛋白质的功能,”加拿大蒙特利尔大学MILA实验室教授唐建表示,“但是对药物研发的影响有限。”

唐建如今正集中精力研究图表示学习在新药研发中的应用。

对于AlphaFold给制药行业带来的作用,潘毅的看法却更为积极。

他告诉《医健AI掘金志》,AlphaFold预测出的蛋白质结构对生物制药将有很大的帮助,尤其是在小分子筛选的工作上。

自2020年回国后,潘毅的研究逐渐从理论转向应用,药物研发也是其研究的重点落地方向之一。

他认为,这些已经预测完成的蛋白质结构将为生命科学领域内的研究者们节省颇多精力与资金,可以直接从数据库中查找相应的结构进行研究,不必再自行解析。

总结而言,AlphaFold蛋白质结构数据库中的结构虽然有不足之处,不能全部将其应用于研究中,但数量庞大的蛋白质结构对生命科学各个领域的研究,仍有着不可忽略的意义。

虽然诞生只有只有短短四年的时间,但AlphaFold在蛋白质结构预测上的影响几乎翻天覆地。

2016年,DeepMind公司开发的AlphaGo击败韩国传奇围棋选手李世石后,其先进性与潜力受到认可,DeepMind决定成立团队开始研究“蛋白质折叠问题”。

2018年12月2日,AlphaFold横空出世,在第13届国际蛋白质结构预测竞赛(CASP13)上预测出了43种蛋白质中25种蛋白质的最精确结构,力压其他参赛者取得第一名 (在条目A7D下),其研究团队再次扩大,开始研究创新的新系统。

两年后的2020年11月30日,DeepMind率AlphaFold2再次参赛,在CASP14上一举夺魁,预测结构达到原子精度,中值误差 (RMSD_95) 小于1埃,比次优系统准确3倍,可与实验方法媲美。

CASP的组织者曾表示,AlphaFold2破解了有着50年历史的“蛋白质折叠问题”的重大难题。

2021年7月15日,DeepMind通过一篇Nature论文开源了其基于深度学习神经网络的AlphaFold2模型;

一周后的7月22日,DeepMind再次发表Nature论文,推出AlphaFold蛋白质结构数据库,向公众免费开放人类蛋白质组以及另外20种模式生物的总共超过350000种结构,并且对98.5%的人类蛋白质结构进行了准确预测。

在此之前,科学界解析的蛋白质结构仅仅覆盖了人类蛋白序列17%的氨基酸。

时隔一年,AlphaFold再次引起轰动,它对生物信息学领域的研究历程又将会产生多大的影响?雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/xJ4iS0jJRDpAuBgX.html#comments Wed, 03 Aug 2022 17:39:00 +0800
90年代「最好基因测序算法」发明人徐鹰:AI生命科学的30年快意人生 //m.drvow.com/category/shengwuyiyao/uzRGbRN8yor2ycp9.html

“我父母都是化学家,在学校教了一辈子书。父亲今年已经90岁了,照片上还挺健康的。这些年的研究,我从一个计算机科学老师,慢慢成了生物化学老师,终归是和父亲越来越像了。”


7月17日7点50分,上海还没出梅,温度徘徊在35度,闷热阴沉。

徐鹰透过舷窗看着机场入口处,因为24小时核酸报告折腾了自己两个小时的安保还站在原地,但自己却仿佛去了一趟魔幻现实主义世界。

他没想到的是,自己研究了一辈子的生物学,几乎每天都和蛋白质、核酸打交道,如今却要被一份有时效性的核酸报告急得团团转。

徐鹰坐在航班座位上,这是他在国内隔离14天后,第一次放松下来看看外面的世界,“谢天谢地,现在没人能再拦住我了。”

两个半小时后,他将和父亲一起在家乡长春见面。

从1993年起,过去的30年里,徐鹰每年这个时候都会回国住上一个多月,期间主持生物信息学领域的研讨会,开展青年学生的暑期课程。

但在2022年隔离期结束后,徐鹰的时间被压缩到只剩下22天。相比于去年夏天“14+7+7”的隔离政策,徐鹰反倒觉得时间还有很多,有足够时间开展今年的安排。

第二天,徐鹰发了一条朋友圈,把在上海隔离的半个月仔细整理出来,像是一篇纪实小记,最后一句话是“希望疫情能快点结束,大家都少遭点罪”。

配图是他和父亲站在长春的家中,蓝天白云,天气清爽。

梳理过去的工作,是徐鹰多年来一直保留的习惯。这个习惯也让徐鹰做成很多开辟性的工作,比如在橡树岭国家实验室和田纳西大学,共同建立美国最早的生物信息学博士点、创建佐治亚大学生物信息学研究所、发起国内两项生物信息学领域的国际研讨会——IBW与ICSB。

去年,徐鹰当选IEEE Fellow。在学术科技界,它被认定为权威的荣誉和重要的职业成就,每年由同行专家在做出突出贡献的会员中评选出,当选人数不超过IEEE会员总人数的0.1%。

这是徐鹰继2007年当选AAAS Fellow(美国科学促进学会院士)后的又一个重要荣誉。

多年的研究和奔波,让徐鹰亲历了生物信息学发展的三十年。很多人来了又走、走了又来,但徐鹰却逐渐从一个计算学者,蜕变一个生物化学学者,始终透着一股不知疲倦的兴奋。

一个25岁青年转行的故事

1985年,25岁的徐鹰刚到美国,人类基因组计划在美国被正式提出。

“生物信息学”在这一计划的推动下,成为一门新学科,迅速吸引到从生物学、化学、物理,以及数学和计算机科学领域而来的年轻人。

徐鹰从未想过,有一天会与生物信息学结缘。

从本科到博士,徐鹰一直读的是计算机系。1978年进入吉林大学计算机科学系(7年本硕课程),随后进入了美国科罗拉多大学博尔德分校,继续攻读博士学位。

其中一个重要的小插曲是,因为一直对数学感兴趣,当时徐鹰想要报考的是吉林大学数学系。但身为计算机学者的叔叔徐如镜建议,“(学数学)不如学计算机软件”。

徐鹰连这个专业名称都没有听说过。但听到能用计算机研究数学问题,决定改报计算机科学系。他的父母是该校的化学系教授,在学什么这个问题上,他们秉持“放养”模式,从未干涉过儿子的个人选择。

当时,吉林大学计算机科学系刚刚建系第三年,是国内最早从事人工智能研究的单位之一。

1976年,在王湘浩院士的带动下,一批有着深厚数学背景的吉林大学教授,如管纪文、刘叙华、姜云飞等教授,纷纷从拓扑学、数学转向了代数和计算机。

七八十年代,吉林大学的计算机学者群星璀璨,扛起了国内人工智能研究的大旗,也为徐鹰等后辈们从事计算机研究,打下了极好的数学底子。

尤其是本科阶段,徐鹰深受教过他一年半《离散数学》的刘叙华教授影响,第一次发现了“数学的美”。这也让他坚定了,自己更擅长数学理论研究。

让徐鹰没想到的是,数学和计算机背景的他会在来到美国的八年后,成为人类基因组计划的亲历者,并在接下来的三十年里,一直扎根在生物信息学领域,成为一名(计算)生物化学学者。

1993年,是徐鹰在科罗拉多矿业学院任教的第二年。在这所工科见长的学校,他正苦恼自己的理论研究与学校有分歧,思考自己究竟擅长什么。

那段时间,徐鹰看到了橡树岭国家实验室(下称“橡树岭”)计算与数学部招人的消息。

凭借着数学背景,徐鹰顺利进入该实验室。

橡树岭,几乎可以用“科研圣地”来形容。

这家成立于二战期间的实验室,曾参与到美国陆军部研制原子弹计划中,与新墨西哥州的一所实验室共同制造出两颗原子弹,其中投放到日本长崎的这颗,就是橡树岭所研制。

二战结束后,原来橡树岭的管理部门——美国原子能委员会改名美国能源部,橡树岭的使命也变为能源研究。

位于田纳西州以西30公里处的克林顿小镇,坐落在山沟里

徐鹰参与的项目,正是当时大火的“人类基因组计划的测序工作”。

徐鹰回忆,实验室想找一个做统计的人,帮着他们在DNA测序序列中寻找蛋白编码基因,从而弄清楚每种基因制造的蛋白质及其作用。

那时候,徐鹰从并没有正经学过统计,但在研究员Ed Uberbacher的指导下,开始第一次尝试用统计方法写程序。

这也是徐鹰第一次将计算机、数学、生物这三门学科联系起来。

Ed Uberbacher

由于这一次的尝试,徐鹰似乎找到了门路和感觉。

1993年到1995年期间,徐鹰所研发的计算机程序GRAIL,成为那个时代最好用的基因测序工具。直到2000年代中期,这一程序依旧是该领域的研究“标配”,文章引用次数超1000篇。

此后,徐鹰在橡树岭的工作更加顺利。

1995年,徐鹰有了独立实验室,开始独立培养学生及博士后学者,也将基因组测序的工作逐渐交到学生手中。

1997年,徐鹰看到了新的机会——蛋白结构折叠——一个编码基因蛋白折叠成的三维形状将决定这个蛋白的功能。他要研究的是使用生物统计及计算方法,预测出蛋白质的三维结构。

徐鹰觉得,这项工作会涉及到更多的数学,也会涉及到一些物理,“或许可以做得很长久”。

1997年,徐鹰换到蛋白质折叠的项目也从原来的数学与计算机科学部,转到了生命科学部担任这一课题的组长,一点点从生物信息学的边缘走向中心。

一年后,徐鹰和许东(现任密苏里大学校董事会教授)第一次见面。

徐鹰说到,自己想找一个有生物物理背景的人,正好许东申请了橡树岭。

许东教授

1998年,许东从美国国家癌症研究所读完博士,拒绝了一个工资翻了几倍的生物制药公司。

当时这个专业有多吃香?

据说,只要候选人会用特别简单的BLAST工具(生物大分子序列比对搜索工具),就是最抢手的人才。

许东称,1995年测序工作大火后,他看到一个制药公司一口气招了80多个生物信息学背景的人——全职。

“那真是一段泡沫期,很多人都挺动心,我当时也想去工业界,后来还是放弃了,我更喜欢做学术。”

此后的三十年里,许东与徐鹰轨迹几乎一致。如今他们都已卸任行政职务,成为各自学校的董事会教授。

时间回到1998年。许东的加入,让徐鹰的团队多了生物物理学(Biophysics)的背景。

他们一起做了一个蛋白结构预测程序Prospect,在蛋白三维结构预测上反响不错,二人也在生物信息学领域里小有名气。

2001年,人类基因组测序的工作草图完成,成为人类基因组计划中的重大里程碑,徐鹰和许东就是其中功不可没的两个人。两人共同获得了R&D100奖——《R&D杂志》颁发给世界上每年度最重要的100项发明创造奖项。

当时的李明(现任加拿大滑铁卢大学计算机科学系教授),已经是领域内人尽皆知的“大学者”。

他和堵丁柱教授在1995年在中国创办的COCOON会议(计算与组合学会议),如今已成为世界知名的理论计算机会议。

1997年,他曾运用信息距离理论以及自然语言理解,开发出新一代的搜索引擎,论文成果也在世界顶级会议KDD-07上发表。

李明教授

机缘巧合之下,李明与徐鹰、许东两位成了好朋友,还拉着两人到自己公司Bioinformatics Solutions Inc(BSI)担任技术顾问。

被业界誉为“AI预测蛋白质结构全球第一人”的许锦波,那时候还在滑铁卢大学,跟着李明念博士。

经由李明的介绍,许锦波也参与到蛋白三维结构预测项目中。后来,徐鹰和许东将所有的源代码交给了李明和许锦波。在此基础上,许锦波也将这一程序发展得更好,打造出端到端模型及计算程序 Raptor。

许锦波教授

时间来到21世纪。2002年年底,已经在橡树岭待了十年的徐鹰萌生出新的想法,动心再回学校。

一则橡树岭改为能源研究后,80%的经费都来自美国能源部。尽管不用愁钱的问题,但是研究方向成为了能源。

另外,从寻找蛋白编码基因到蛋白结构折叠,徐鹰也发现,自己对生物学具有极大的兴趣。

“或许,我不用再为别人做计算工具,完全可以用别人的工具,解决自己关心的生物学问题。”

2003年4月14日,人类基因组计划的测序工作全部完成,徐鹰的这一想法也更加坚定。

徐鹰和许东一同离开橡树岭,分别去了佐治亚大学和密苏里大学,一个成为学校首个生物信息所所长,一个成为最年轻的系主任。

2003年,李明也计划换个环境。因为不喜欢美国教学系统的条框束缚,他正准备离开加利福尼亚大学圣塔芭芭拉分校(UCSB,离洛杉矶1.5小时车程,号称全美最美大学)。

李明从朋友那里辗转听说了徐鹰的消息,主动联系后者。他表示,只要徐鹰想去UCSB,他就给系里写推荐信,接替自己的位置。

多年后徐鹰回忆,那时候,生物信息学领域中的华人学者会有一种“抱团”意识:不管是自己的“老大哥”李明、和自己“同窗”六年的许东,还是后辈许锦波,大家时不时聚在一块,互相扶持,一起钻研学科里的新问题。

不过,徐鹰并没有去UCSB。

当时,还有两所学校向徐鹰抛来了橄榄枝。

一所是纽约州立大学石溪分校(位于长岛),核物理学家、诺贝尔物理奖获得者杨振宁,曾在该校执教37年。

另一所就是徐鹰最终的决定——佐治亚大学。

徐鹰是东北人,东北人疼媳妇也是全国出名。当时,徐鹰的夫人在考察了三所学校后觉得,长岛和圣塔芭芭拉两地的生活费用太高,最后选择了位于雅典市的佐治亚大学。

就这样,徐鹰开始了在佐治亚大学的教学之路。

“来佐治亚吧,就是你了”

2000年初,生物信息学科红极一时。佐利亚大学的一批教授向学校联合提议,希望学校建立一个生物信息研究所。

囿于没有合适的所长人选,这件事一直拖了两年。

2002年年底,佐治亚大学的一位华人学者汪必成(现任生物化学与分子生物学系教授),听闻了徐鹰回归学校的想法,主动联系徐鹰到佐治亚大学做了一场报告。

报告结束后,两个人一起吃晚饭。推杯换盏中,汪必成提了一句,“这两年我们一直在物色一个生物信息研究所的所长,你有没有兴趣?”

见徐鹰还在犹豫,汪又称,“我们可以帮你拿到佐治亚州的科学协会(Georgia Research Alliance, GRA)著名学者讲习教授 (Eminent Scholar Chair)的位置,GRA是一个以招收世界级杰出学者的州政府项目。”

这份“就职礼”特别贵重。

具体来说,就是佐治亚州政府每年拿出3000万美元的启动资金,帮助州里的6所主要的公立大学面向全世界招生。美国《时代周刊》还为此做过报道。

徐鹰听闻,汪当初就是以这种形式,被从匹斯堡大学引入佐治亚大学。

2002年左右,佐治亚州里共有大概有三、四十个杰出学者,那些人起码都比徐鹰大20岁。徐鹰才40出头,自觉这份新工作“诚惶诚恐”。

汪多次对徐鹰表示,他是最合适的人选,并保证徐鹰来了可以挑一个自己最喜欢的系。

汪也建议,徐鹰选择治亚大学里最强的系--生物化学与分子生物学系(生化系)。随后,在徐鹰访问期间,当时生化系的系主任David Puett教授赶来,与徐鹰见了面,鼓励他申请生化系。

David Puett教授

徐鹰回忆,“在佐治亚大学,对我影响最大的一个人,就是David教授。”

从1969年开始,David就开始了在新陈代谢和内分泌学等领域的研究,是一位具有物理和生物化学背景的学者,而他本人也极具绅士气质。

从他那里,徐鹰不仅学到了传统的肿瘤生物学研究方法,自己豪爽、健谈的心态也变得更谦和。

也许是徐鹰连获五年“橡树林国家实验室重要成就奖”,也许是见了一面后发现徐鹰特别敢想,这位老教授看到了徐鹰身上更多的可能。

Just You! ”(就你了)

转眼要到新年,徐鹰终于答应下来。

很快,徐鹰拿到了佐治亚大学的正式聘书:校董事会教授、佐治亚科学协会著名学者讲习教授,佐治亚大学生物信息研究所首任所长,以及一份他当时觉得高的邪乎的工资。

徐鹰讲起来这件事,有些感慨:“从零开始建设一个研究所,会有很多的工作要做,但这件事本身就是一件很荣耀的事。”

新官上任,情况真如徐鹰所料,只有一个光秃秃的生物信息研究所,紧接着就是招老师、建博士点、招学生,什么都是从零开始。

佐治亚大学的科研副校长只给了徐鹰4个教职名额。徐鹰想扩大师资,就想了一招——和其他系合招老师。

不管学校里有没有人知道这个新成立的研究所,徐鹰逛遍了学校,把所有与生物信息相关的系都拜访了下来。

他与其他系主任约定:研究所出一半工资,系里面出一半工资,合作招聘老师。

用这个办法,徐鹰的研究所一口气招了8位老师。

万里长征终于迈出了第一步,徐鹰还想建一个生物信息学的博士点。

不过,这件事有点麻烦。

学校要成立一个新的博士点,首先要争取已经设了博士点的相关系的同意,保证不会抢他们的生源。

其次是到州里,拿到Board of Regents(董事会)的批准,保证不会从州里其他学校的博士点抢生源。

这层审批相当于进入了国内的省级高等教育局那里盖章。

徐鹰一共拜访了本校的32位系主任。每到一个系就讲,为什么建生物信息博士点是双赢的事情、为什么我们不会抢你们的生源,为什么只会扩大我们共同的生源。

最后,32个系主任都同意了,学校层面就算是批了。徐鹰趁热打铁,又去了佐治亚州唯一有生物信息博士点的另一所学校佐治亚理工学院。

很巧,徐鹰和佐治亚理工学院生物信息中心主任是朋友。一顿饭后,那位主任表示,“没有问题,我完全支持你。”

从进入佐治亚大学到招到8位老师,成功设立博士点,徐鹰用了不到一年。在不断的奔走中,徐鹰也接触到很多志同道合的人。

徐鹰称,当时微生物系的系主任帮着他写申请材料,跑各种机构,“他们也愿意看着新机构变大。”

随着系里和其他学校里越来越多的人支持,2005年的春天,佐治亚大学生物信息研究所招到了第一批博士生,17个人。

这个成绩在佐治亚大学里还有点小轰动。

作为研究所的所长,科研副校长给徐鹰涨了工资。

徐鹰觉得,自己担任所长本可以拿到一份相当于一个月工资的补贴,于是他跟科研副校长说:我的工资已很高了,这份补贴我就不拿了。

同时,他还把入职佐治亚大学后的第一次涨工资的份额,全部捐给了系里的几个秘书。

徐鹰想起二十年前的那段时光,他说,“那时候不是特别自信,总觉得我怎么有这么好的位置,别弄错了。”

但他至今对自己曾产生的推动力感到欣慰。

徐鹰还做了一个工作,首创了实验室系列讲座的传统。

一般来说,学校里会以系的名义举办各种系列讲座,但徐鹰来了之后,每周都会从外面请一些学者到自己的实验室。开始请的是本校不同系的人,渐渐的是学校附近的人,一两年后又变成了车程4小时范围内的人。

徐鹰称,每次请来的人都是他和学生“精挑细选”过的。

如果某一段时间他们需要对肿瘤代谢系统有个了解,就一起查文献,看看哪些人最厉害,再从中筛选出4个小时车程圈的人。

用这样的方式,徐鹰带着学生一起,啃下一门又一门的新学科。徐鹰也年轻过,他知道年轻人需要参与感、存在感。

他还喜欢徒步,每逢周末能一口气走12公里,平时就去其他系的办公室“溜达”。

当时,时任佐治亚大学物理系主任的Bernd Schuttler教授,就是徐鹰主动搭讪来的好友。

徐鹰听闻他做了多年天体物理方面的计算,走进他的办公室,上来就问,“你能给什么东西建模?”

Bernd看着这个刚入职就要建设生信所的中国人,回了一句,“只要能动的东西,我就能建。”

在佐治亚大学的日子里,他们从此相识,成为了长期合作者,也在多年后一同来到中国讲学。

Bernd Schuttler教授

徐鹰爱social的个性也曾闹出过笑话。

初到佐治亚的那年,徐鹰走进了化学系主任Bob的办公室,很随便地问:“Bob,你这小黑板上的分子式是什么?”

Bob以一种“见鬼了”的眼光看着徐鹰:你不是做蛋白结构计算的吗?这是20个氨基酸呀。

好在那时还年轻、反应快,徐鹰赶紧找补,“哦,对做数学的人来讲,每个氨基酸就是一个特定的几何结构,而不必关心其化学结构。”

徐鹰自认为自己的学问很少,对生物信息学的研究有一个漫长的“学徒”过程。

“我从来没有系统地学习过生物学方面的东西,所以都是需要什么,就去学什么。”

在橡树岭时,徐鹰也从同事那里“偷学”了不少东西。

徐鹰提到,当时橡树岭中有一位人称“行走的微生物百科全书”的同事,名叫Loren Hauser。

徐鹰对微生物特别感兴趣,总是中午拉着他一起在会议室吃饭,每天吃饭前都准备几个问题,一边吃饭一边闲聊。基本就靠那四、五年时间,徐鹰就把微生物基因组进化理论“偷”来了。

Loren Hauser

徐鹰讲起这段故事来眉色飞舞,“他并不知道我有意识地在学习这个东西。所以你看,偷艺,也是一种学习方法。”

而凭借这股伶俐,徐鹰还顺利把一位同事“拐”进了佐治亚大学。

这位同事就是Victor Olman博士,两人从1995年就在一起工作,直到2013年Victor退休,共事了18年。

徐鹰称,Victor是标准的俄国数学家,师从苏联科学院院士,坚信要从统计学的角度看生物问题。

Victor有一个“交友标准”,每见到一个新同事就出一个数学问题,“如果没解答出来,那么以后他就对你的就兴趣不大了。”

意料之中,徐鹰通过了他的考试,并在2003年一起去了佐治亚大学。

在多年的交往中,Victor一直告诉徐鹰要“be accurate”(要准确)。

徐鹰也一直保持着这点科研要求,不断告诫自己和学生,要把生物学中很粗糙的东西,打磨成最底层的、最准确的东西。

Victor Olman

徐鹰回忆,到了佐治亚大学,自己的学科背景,从求学时的数学和计算,橡树岭期间的进化理论、基因组学,进一步丰富到生物代谢、系统生物学以及计算化学等学科。

至2011年徐鹰卸任时,该研究所的博士点稳定在50多名博士生的水平,生物信息学学科当年进入全美前25名。

徐鹰卸任那年,生化系主任David对徐鹰说,“在你来之前,从未有物理系、数学系的人与生化系的人合作。现在这些系及统计系、计算机系的人,因为生物信息研究所的建立,已有了多项与生化系的老师的合作。”

现在来看,徐鹰连续八年担任生物信息研究所的首任所长,靠的不只是善于钻研的劲头。他真正稀缺性的,是他不需要顾虑什么。

他没有想过要建立自己的帝国,也从未建立自己的安全地带,而是不断思考通过研究所来促进生命科学与数理科学、化学及工程的互动,推动生物信息这一新型的交叉科学在校园中迅速成长。

徐鹰的轻松,也来源于此。

质疑、离职与院士父亲的认可

在担任所长的这段时间,由于长期建立起来的合作关系,徐鹰继续参与并推动在橡树岭的系统生物学工作,每年大概跑三四次,组织、指导项目推进。

其中微生物碳循环的项目,就是在2003年后正式着手。

简单来说,就是通过植物或海藻的光合作用,将空气中的CO2以纤维素或其它的碳链的形式高效地回收到地上,以减小空气中的温室效应。

此前从Loren Hauser那里“偷学”来的微生物系统生物学的知识,被全部派上了用场。

他使用读博士时学到的组合数学及算法,来给海藻的代谢网络建立数学模型,分析预测应如何通过基因工程来改变海藻的基因组,以提高其固碳的效率。

徐鹰在这个项目上一直做到2008年。

接下来的五年,他继续与橡树岭的同事们合作,研究碳循环的另一面:如何将通过光合作用存储在植物中的纤维素高效地转化为能量。

这一工作的目的是对能实现这一转化的微生物做基因生工程,大幅度地提高它们能量转化的效率。而指导这类基因工程的信息来自对这些微生物的代谢系统做数学建模、分析。

10年间,他与合作者在这一领域发表了100余篇学术文章、两部专著。

现在来看,微生物碳循环的研究意义十分重要,尤其是2020年9月中国明确提出双碳目标后,能源与环境问题,已经成为一大全球性问题。

这十年的社会议题研究,显然也让徐鹰习惯了用计算方法去解决实际的生物学问题。

2012年后,由于ImageNet的出现,生物信息学领域迎来了深度学习时代,开始迭代出更好用的计算工具,但那时候徐鹰的兴趣,早已转向了更底层的生物问题。

这一转变过程,也早在徐鹰加入佐治亚大学时埋下了注脚——肿瘤生物学。

此时的徐鹰到了知天命的年龄。在中国的“知天命”思想中,这一解释是人不再是听天由命,而是谋事在人。

攻克癌症肿瘤,这一传统认知上“无药可治”的疾病,就是徐鹰给自己提出的新命题。

他卸任所长,又全身心扑到了学术上。

但那一刻,徐鹰觉得自己被各种质疑声音“打败”了。

过去50年,学界对肿瘤的基本观点是:基因突变是肿瘤发病的根本原因。

但这一框架并未给肿瘤的治疗带来突破性的进展,比如目前每10万人的肿瘤死亡率与50年前相比仅有略高于10% 的进步。

同时,这一框架还不能解释一些很基本的肿瘤学问题。

比如,为什么有些器官很容易患癌,而相邻的器官则极少患癌,如大肠与小肠?

为什么有些人的肿瘤有抗药性,而其他体质、年龄、性别同样的患者的肿瘤则没有抗药性?

为什么有些患者的肿瘤很快就转移,而其他有同样肿瘤的患者健康地活了几十年?

徐鹰的目标,就是依据肿瘤大数据,研发一个新的肿瘤演化理论。

他本以为研发新的肿瘤理论,可能会有5年的低产或无产期,但逐渐发现,自己过于乐观了。

一方面,新理论的研发,需要全面扩充他的知识。除了他已很熟悉的分子及细胞生物学,遗传学、进化生物学、及生物化学,他还需要系统地了解免疫学、神经学、组织修复理论、及发育学等知识。

另一方面,但更难的问题是,他需要不断回答来自各个方面的质疑及打击,包括科学杂志的审稿人、编辑、基金会的评审人及官员,特别是一生从事肿瘤突变研究的学者。

终于,经过了此后十年的不懈努力,徐鹰及团队逐渐建立一个全新的癌症发生、发展及转移的演化理论。

其核心思想是长期慢性发炎及局部的铁积累,将导致细胞内持续的酸碱不平衡、这将进一步地导致细胞内的代谢方式发生根本的改变,称之为代谢重编程。这其中的有些改变,将推动细胞的持续增殖、分裂,另一些改变将推动细胞的转移等。

徐鹰说,“过去十年的路走得非常艰苦,说什么难听话都听到了。”

他至今都记得一个场景。

2018年,自己的4个博士生同时从实验室辞职。“他们觉得这个东西做起来很难,而且文献上的观点和徐老师的观点经常都是反过来的。”

当徐鹰试图从一个全新的角度来考虑肿瘤演化,不仅受到了很多学者的怀疑,也受到了整个社会的质疑。如果出现新的肿瘤演化理论,那么以往的教科书上关于肿瘤观点、逻辑分析、甚至一些经典的工作,可能都是错的。

这自然导致徐鹰的科研经费下降。他的研究团队也从2012年的三十多个人,逐渐流失到现在的七、八个人。

他的父亲徐如人,做了一辈子化学研究,也对徐鹰说,“你研究肿瘤,不把相应的化学反应式都写出来,我也不相信你。”

这是徐鹰,以及生物信息学领域都要面对的现实。

而他的选择是,走到生物学的中心,站在里面做研究。

从事肿瘤生物学研究前,他一直被视为计算机圈子的人,擅长研发更多更好用的计算工具。

此后,徐鹰几乎所有的研究课题都围绕生物学中最底层的问题,要比传统的生物学者更能触及到化学及物理水平的研究。

在生物信息学的圈子,他是一个极其标志性的存在。也几乎只有他一个人,转型得如此彻底。

徐鹰自称,“在生物信息学里,自己现在的工作,90%归属于生物学,只有剩下的10%才是计算的范畴。”

好在最近几年,徐鹰团队真正有了突破性的进展。他的团队完成了一系列的肿瘤驱动力及机理的文章,并在主流杂志上发表出来。

此外,徐鹰的最新成果已发表论文,是他和吉林大学、以及中日联谊医院肿瘤系统生物学中心的共同研究,《Cancer is a survival process under persistent microenvironmental and cellular stresses》。

该模型系统地描述了原发性肿瘤发生、发展及转移的推动力及主要机理,建立了一个癌症发生、发展模型。

与传统观念的最主要差别是,肿瘤细胞所做的事儿,都是为了它们自身的生存,是不得不的行为,而基因突变是帮助他们生存的手段,而并非如传统学说所认为的,是肿瘤发生的原因。

目前,这一癌症发展模型已在小鼠肝癌上得到验证。

癌症发展框架

在回国的路上,徐鹰和父亲聊天,他的癌症发展机理也终于获得了父亲的认可。

徐鹰说,“在情感上,我们是父子,在做研究上,我们则是两个独立的灵魂。”

这位父亲是中国科学院院士,并将三名学生也培养为院士。父亲的这次表态,很大程度上也代表了其他学科对他的认可。

只有一个人参加的报告

1993年,与橡树林工作同步进行的,是徐鹰与国内高校进行交流的愿望。

作为土生土长的东北人,徐鹰非常希望向国内高校、尤其是东北地区的高校介绍国外相关学科的进展。

他回到吉林大学的计算机系,和当时的系主任自荐做场报告,讲讲生物信息学。沟通了多次,系主任才松口:“好,你做吧。”

“他也没认真,但我真做了。”

结果到了做报告的日子,只有徐鹰一个人去了,碰了一鼻子灰。

因为没有人重视这次报告,自然就没有人当报告的主持人。更棘手的问题是,到了做报告的教室,徐鹰才发现门都没开。

正好徐鹰的大学同学周春光毕业后留校,做了计算机系的副系主任,赶来做主持人救场。

徐鹰这样回忆那段时光:如果当时自己没有决定继续做下去,也就没有了此后在国内所做的各种交流会。

徐鹰从来没有埋怨过这一点,他的抗打击性比较强。

看到当时计算机系对自己的兴趣不是很大,他又参与到化学系里。就这样,徐鹰一边在化学系里合作一些项目,一边在计算机系里做些报告,同时帮他们带带研究生。

时间就这样一年一年过着,徐鹰依旧每年暑期回到国内。

再往后,当徐鹰在橡树岭与生物信息学结缘,并佐治亚建立起一个研究所,以及在肿瘤研究上开疆破土时,大洋彼岸的中国生物信息学,却发生了一场变故。

谈起那段历史,现如今很多吉大人最感同身受。

85年,管纪文因为一些不顺心的事情,负气出走,去了英国的大学。93年,吉大计算机系和数学系创始人,王湘浩病逝。95年刚刚评上院士的刘叙华教授,在讲坛突发脑溢血,巨星陨落……

从此,吉大计算机系慢慢地下滑,少了王湘浩这个主心骨,人才一个个流失。

老一辈学者,鞠九滨、金成值、周长林、刘大有、孙吉贵、周春光,也终归是要退休。

在2000年来临之际,吉大给自己留下了一个问题:再过十年,吉大计算机系会何去何从?

徐鹰的父亲此时已经在吉大生活了48年,这时候,他在吉大讲学和办公时,经常会在暑假带着儿子徐鹰同行。所见皆父亲辈的人,徐鹰没多说什么,只是照例每年夏天飞回来,继续在吉大做一些项目和讲学。

那时候,徐鹰40岁,正值壮年。

2001年,经院系调整,吉林大学的计算机科学系与另三个单位,合并为吉林大学计算机科学与技术学院。此前大学同学周春光也做了副院长,帮徐鹰申请到了长江学者,徐鹰多多少少有了一个名头。

来和徐鹰走动的人更多。徐鹰也能和更多的单位做合作,为吉大补充一些国内院校的交流。这时候就有北京大学生物信息中心,天津大学生物信息中心等。

而徐鹰真正对国内的生物信息学推波助澜,2002年无疑是最浓墨重彩的一年。

从1993年到2002年,这十年里,徐鹰在橡树岭的基因研究,以及在国内的学科建设,让徐鹰对研究有了一层新的思考:要将研究延续到学校中,以每代人最饱满的状态做学术。

这时候的徐鹰在思考两个问题,自己要去哪所学校任职,国内的生物信息学科如何发展。

就在这时,国内好友传来了一个消息。

2002年,中科院数学所的陆汝钤院士联系到徐鹰,说现在有十万块钱,能不能用这笔钱帮我们请一些国外的生物信息学者来国内讲学。

陆汝钤院士

徐鹰索性就从国内和国外各请了十个人,有国内的陈润生院士、张春霆院士、郝柏林院士、清华大学的孙之荣教授、中国第一个长江学者,当时北京大学力学中心的佘振苏,以及当时加州大学河畔分校的姜涛、哈佛大学的刘小乐,伊利诺伊大学大学的梁杰,等等。

陈润生、张春霆、郝柏林、孙之荣、佘振苏

第一届会议定在了2003年年底,因为非典推后了几个月。正好当时陆汝钤院士在复旦大学兼职,首届会议也就定在了上海。当时参会的主要都来自上海附近的学者,大概有90个人。

这次会议下来,大家都有点意犹未尽。孙之荣教授见状提议,“就把它办成一个系列会议吧,第二年由清华主办。”

系列会议的名字也当即确定下来,——“国际生物信息学研讨会,英文为IBW(International Bioinformatics Workshop)。

佘振苏、徐鹰(中)、孙之荣讨论下一届会议

到了第三届IBW,徐鹰决定成立一个常务委员会,由他、北大的魏丽萍、哈佛的刘小乐,上海的李亦学四人组成,徐鹰任委员会主任。每年的8月初,该会议都会在各个高校轮流主办。

首届IBW会议,徐鹰坐在前排中间,带着墨镜

当时徐鹰还提议,除了老师们互相交流还不行,还要培养学生。

他和首届会议的主持人赵伟(澳门大学第八任校长,现任中国科学院深圳理工大学副校长)提议,有没有可能在每年的会议开始之前,让这些回国的教授轮流给学生讲个5天。

这一提议也被大家广泛采纳,并确定为“永远免费”。

赵伟校长

到了2010年,这个暑假课程开始由中国计算机学会的“龙星”计划支持,至今听课学员已有一万名人。今年的网络授课中,第一天有8800 多人参加,第二天有11000 多人。

“这在过去是不可想象的,这么专深的领域都有这么多人参加。”徐鹰称,学生对这个课程非常感兴趣。线下召开时,报名人数总是超过授课教室的容纳量。

几年前,会议在西安的第四军医大学举办,主会场坐满了400个人,一些报名晚了的学生就主动提议,“我们可以坐在楼道里”。那次会议临时开了第二个会场,在楼上的一个阶梯教室里,又坐了200多号人。

一直到2013年,徐鹰连续主持了前11届会议,年年给学生讲课。

IBW会议也吸引到了更多的生物信息学专家,以及类似Genome Biology 、Genomics、Proteomics and Bioinformatics等全球优秀的生物信息学期刊编辑。

徐鹰回忆,到了2011年,IBW会议已经发展得非常成熟,他就和吉林大学的梁艳春教授创办了另一个会议—— 肿瘤系统生物学国际研讨会(ICSB,The International Workshop on Cancer Systems Biology)。

梁艳春教授

徐鹰刚刚卸任佐治亚大学的生物信息研究所所长,一心一意扑到了肿瘤生物学研究上,在国内的推动工作也有了更多精力。

会议依旧早年的IBW会议的形式。

每年的7月底,在ICSB会议召开前,徐鹰他们都会邀请10名国内及10名海外相关领域的华人学者和医生。

吉大也在多年的交流中,建立起与国内高校的长期学科合作,培养起一批新的人才团队。

目前,吉大生物信息学的学者中,大都是徐鹰过去在吉大带过的学生,其中不少人都曾经到过他在美国实验室,接受过一段时间的训练。

陆汝钤院士、郝柏林院士、北京301医院的顾瑛院士,都对徐鹰的组织领导能力和培养人才的热情大加赞赏。

天津大学生物信息中心的张春霆院士,早在90年代与徐鹰合作过。他这样评价徐鹰的工作,“中国三、四十岁的青年学者,基本上都从这个会里走出来过。作为IBW、ICSB,以及龙星计划的主要发起人,这些系列会议对于促进我国生物信息学的发展,特别是对培养年轻一代生物信息学工作者起到了重要的、不可替代的作用。”

所有的误解、遗憾与重新崛起,因为徐鹰的不放弃而有了最好的结局。

攻克人类最后一个疾病

现在,徐鹰还要每周工作70个小时,与一个年轻人的工作强度相当。

一年半前,他已经开始了在老年痴呆方面的研究。

他认为,在疾病的研究上,老年痴呆将是人类最后一个要攻克的疾病。“一旦攻克了这个疾病,那么人体内部的奥秘,我们就都掌握了。”

迈入六十岁,徐鹰已经历了一个甲子。

他说,“我这一辈子一开始做基因预测,后来做蛋白结构的计算、微生物、肿瘤,我相信一生里最后的科学研究,就会落在老年痴呆上。”

说完这句话,徐鹰爽快地吃了一个果脯,吐出一个果核儿。

他对我们说,“你们要做(回看生物信息学激荡三十年)的文章。我从1993年做起,生物信息学的30年,我才参与了29年。”

这么多年,徐鹰变换了多个研究项目,去年还开了一门生物化学课程,是为全校打算考医学院,兽医学院、药学院等专业的本科生提供的服务型课程。

作为一位从未修过“生物化学”,“有机化学”,甚至“大学基本化学”的人来说,有些难度,但也乐在其中。

“和这些最年轻的学生相处,乱哄哄的,气氛要比和一群同龄人坐在一起好得多。”

徐鹰的世界里,没有那么多条条框框,如果有,只有一个:不能停在过去,要始终站在舞台中央。

徐鹰喜欢徒步,记录餐食,发朋友圈,空闲的时间还爱吃点儿小零食。

他听别人讲话时,上身保持不动,只将视线抬高,穿过咖色镜片的上方看向你。这样能节省好多时间,既能礼貌听别人讲话,也能迅速收回视线继续工作。

只有他讲得兴奋时,整个人才会频繁用胳膊、手指、下巴示意,配合自己说的话。这是一项他多年总结出来的“案头体操运动”。

还有,在国外生活了37年,他的东北味儿,一点没变。


作者注:1993年,中国参与人类基因组计划,生物信息学科迎来大爆发。

在近三十年的时间里,一大批生物、化学、物理、计算等专业的学者,前仆后继加入到学科的产研建设,那是一个灵感迸发、情谊绵长的年代,也是一个走出质疑、迷茫的年代。

目前,雷峰网启动《生物信息学的三十年往事》专题,将陆续推出徐鹰、潘毅、周耀旗、许东、唐建等新老学者的人物故事,记录光辉岁月,以照后人之路。

雷峰网雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/uzRGbRN8yor2ycp9.html#comments Wed, 03 Aug 2022 10:36:00 +0800
「36亿美元市值」基因编辑公司深陷专利纠纷,联合创始人为诺奖得主 //m.drvow.com/category/shengwuyiyao/WeBBLWpjWmVuZUe1.html 编者按:本文译自《福布斯》,作者Aayushi Pratap

Intellia Therapeutics的CEO John Leonard刚刚在公司位于马萨诸塞州剑桥市的总部办公室结束了一个小时的会议,这里距离麻省理工学院的校园仅5分钟路程。

他张开双臂,十指相扣,放在脑后。有那么一刻,这位64岁的首席执行官看上去很放松。

John Leonard

但是当开始解释DNA编辑科学时,他又立刻活跃起来,兴奋地使用记号笔、黑板擦以及他能找到的任何其他东西来解释自己的观点。

“我有时会用我妻子的项链(来做阐释)。”

Leonard建议将人类DNA想象成一条由四种不同颜色的30亿颗珠子组成的项链,“基因编辑的挑战在于如何在30亿颗珠子中准确地找到你所需要的那20颗。”

珠子所代表的就是DNA片段,能够为细胞提供工作所需的指令。

许多公司使用一种叫做Crispr的方式进行基因编辑,即在实验室中将细胞中致病基因剪断,然后再将细胞注射回患者体内。这是一种精确编辑DNA的革命性方法,同时也是2020年诺贝尔化学奖的基础。

Intellia公司也选择了这一技术,但是吸引了华尔街目光的则是这家公司的另一个基因编辑平台——这家市值36亿美元的公司已经研究出如何在实验室外、活体内使用Cripsr技术。

这项技术可能对那些目前治疗效果有限或没有治疗方法的遗传病的新药开发产生重大影响。

证券分析公司Baird Equity Research的高级分析师Jack Allen表示:“Intellia是第一个以系统方式进行体内基因组编辑的公司。对我来说,这才是这家公司真正的与众不同之处。”

尽管Intellia掌握的基因编辑技术很新颖,但这家公司仍面临着巨大的阻力。在过去12个月里,Intellia营收3300万美元,亏损却高达2.77亿美元。

自2020年以来,Intellia各季度收入持续下降,而亏损却持续增大。迄今为止,Intellia一共募集了18亿美元的资金,其中包括2016年上市时的1.15亿美元,这笔钱如今只剩10亿美元。

以Intellia烧钱的速度,剩余的资金将在几年内全部用光。

Intellia确实有一种很有前景的药物正处于早期临床试验阶段,但是处于这个阶段的药物约有90%都不能进入市场。此外,Intellia还面临着核心技术的专利之争。

雪上加霜的是,Intellia的股票也遭受了重创。

自今年年初以来,Intellia股价下跌62%,纳斯达克指数综合下跌23%,纳斯达克生物科技指数下跌24%。尽管形势严峻,Intellia至少还有一张王牌:公司的管理层有足够的经验应对这些挑战。

Leonard是一名训练有素的医生,有着这个行业里有很少有人能媲美的业绩记录。

1992年,Leonard加入了雅培。在雅培工作期间,他带领团队研究的HIV抗病毒药物Norvir和Kaletra获得了FDA批准,对遏制90年代艾滋病的流行有很大的帮助。

2013年,Leonard加入从雅培旗下拆分的生物制药公司艾伯维,帮助开发了药物修美乐(Humira)。这款药品去年销售额210亿美元,是世界上最畅销的药物之一。

“我为修美乐工作了13年,”Leonard说,“在这个过程中我学到了很多机构组织原则,哪些因素让一个组织运转起来,以及哪些因素干扰组织的运转。”

Intellia目前正在与再生元制药公司共同研制一款肝脏药物NTLA-2001,Leonard以往的工作中将多款药物从实验室推向市场的丰富经验,也将会帮助NTLA-2001取得成功。

NTLA-2001是一种可注射的基因编辑疗法,用于治疗一种罕见的肝脏遗传病——ATTR淀粉样变性。

在美国,每10万人中就有1人患病,每年约有850人因此失去生命。

2019年,治疗这一疾病的市场规模为5.85亿美元,然而实际上还有更多潜在患者尚未确诊。根据总部位于伦敦的咨询公司GlobalData的一份报告,如果潜在患者能够及时得到诊断,其市场规模可能在7年内增长至141亿美元。

目前市面上有三种FDA批准的药物可以缓解该疾病的症状,但没有一种药物能够永久治愈该疾病,患者最终往往还是需要进行肝移植。今年2月,Intellia发布了NTLA-2001临床试验的早期数据,数据显示这款药物对参与试验患者的病情有持续性的积极影响,并且没有出现副作用。

尽管从数据上来看前景非常不错,Intellia的未来之路并非一帆风顺。

Intellia从加州大学(University of California)、维也纳大学(University of Vienna)和病原体研究人员、诺奖得主Emmanuel Charpentier(统称为CVC小组)那里获得了用于进行体内基因编辑的Crispr技术的许可。

与Charpentier一起因发现Crispr基因编辑系统而获得诺贝尔奖的加州大学生物化学家Jennifer Doudna则是Intellia的联合创始人,尽管她在该公司的日常职责有限。

CVC小组所持有的相关专利也带来了一些法律上的麻烦,与布罗德研究所(Broad Institute)持有的专利存在纠纷。

布罗德研究所是由已故亿万富翁Eli Broad创办的医学研究中心,隶属于哈佛大学和麻省理工学院。

二者之间的分歧引发了一场始于2016年法律纠纷,事关谁是第一个发明用于人类和植物细胞的Crispr基因编辑工具的人,并涉及数千万美元的专利费用。

包括中国、日本和欧盟27个国家在内的80多个国家,认为Doudna所在的CVC集团最先发明了这项技术。但是在美国,专利审判和上诉委员会(PTAB)最近作出的一项裁决却支持博德研究所。

对此结果,CVC集团正在上诉。

“幸运的是,这项裁决无论如何都不会影响Crispr的发展。”Doudna说,“投资人仍在向该领域投入资金。”她补充道。

当然,即使Intellia在法庭上败诉,他们仍然能够获得这项技术的授权。“任何没有从布罗德研究所获得使用许可的人,以及正在用(Crispr)开展工作的人,可能在某个时候都必须获得许可,我想这其中也包括Intellia,”伊利诺伊大学法学教授Jacob Sherkow说。

Leonard的目光超越了知识产权之战。

他目前的工作重点是拓宽公司的开发渠道,涵盖更多疾病的治疗,如遗传性血管水肿、血友病、血液癌和卵巢癌。但首先Leonard必须解决专利问题,并且筹集更多资金。考虑到Intellia技术的前景,他很乐观。

“我认为,当人们考虑投资方向时,他们要看的是药物开发项目推向市场的真正可能性。我们绝对属于这一类。”Leonard说,“我们已经做好了继续为公司提供资金的准备。”

他对基于Crispr的药物的未来更加乐观,因为这些药物有可能使一大批致命疾病成为历史。“在未来的几年里,限制我们的将不是技术,而是想象力,”他说。

资料来源:https://www.forbes.com/sites/aayushipratap/2022/06/16/gene-genies-inside-the-revolutionary-biotech-that-can-edit-dna-inside-living-humans/?sh=6354aeae2bf4雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/WeBBLWpjWmVuZUe1.html#comments Thu, 30 Jun 2022 16:29:00 +0800
阿斯利康被传的「万人裁员计划」,早有征兆 //m.drvow.com/category/shengwuyiyao/yb86nwS0Yxk9hxSV.html 近日,有消息传出,阿斯利康中国向监管部门上报了一份“裁员一万人”的计划,裁员数量占中国区总人数的60%。由于裁员比例过高,该计划遭到制止,未来将分批进行。

而关于裁员的具体信息,有消息称为销售岗。

6月7日,阿斯利康相关负责人表示信息并不属实,称目前没有人员整体上的变动,但未来不可避免会因为业务结构调整出现人员变化。

无论万人裁员的消息是否真实,裁员情绪已导致阿斯利康股价持续走低。截至昨日,阿斯拉康股价已从6月7日收盘价65.58美元,降至62.83美元,跌幅约4.2%(6月7日至6月22日的股价跌幅)。

阿斯利康的裁员计划,并不像是一次空穴来风。

药企裁员,销售岗首当其冲

实际上,裁员规划一直跟随阿斯利康的业务变动悄悄进行。

今年3月底,阿斯利康曾发布裁员邮件,称2月份合并新成立呼吸、消化及自体免疫事业部,组织精简会带来一定的人员调整。

而在去年年底,阿斯利康公布及县业务调整后不久,县级团队也随即给出了明确的裁员方案,裁员数量约1500人,约及县团队鼎盛期人数的三分之一。

作为从1993年就进入中国市场的国际药企,过去三十年,中国医药行业政策及市场环境的变化,一直影响着阿斯利康的本土化战略。

去年11月以来,阿斯利康在中国区进行了一次较大规模的业务调整和人事任命。

新业务架构划分为四大板块:肿瘤事业部;呼吸、消化及自体免疫事业部;心血管、肾脏及代谢事业部;以及罕见病事业部。

但在组织架构调整之后,阿斯利康多位中国高层离场。

仅在今年,及县团队负责人何树真、阿斯利康中国副总裁,心血管、肾脏及代谢事业部负责人朱彤、阿斯利康中国消化与呼吸雾化事业部总经理陈鹏亘、阿斯利康中国副总裁,肺癌靶向治疗及肿瘤免疫治疗相关领域事业部负责人朱家康,已经离职。

几乎在同期,全球药企十分默契地进入裁员大潮中。

据不完全统计,今年来,海外已有50多家医药企业裁员,包括赛诺菲、葛兰素史克、诺华、艾伯维、默克、梯瓦、渤健等,裁员比例最高达75%。

据雷峰网&医健AI掘金志统计,从国外药企公司的裁员信息看,大致包括以下三个原因:

  • 销售团队与产品团队之间合作不畅,或过去的销售方式被淘汰。

比如创新药药企艾森,今年从外企挖了一批肿瘤代表组建销售团队,产品研发跟不上,遂销售团队解散;去年,安进在美裁员500人,主要是销售代表,原因是未来将采用数字化营销工具。

  • 药物研发管线失败,断臂求生保存现金流。

如今年蓝鸟生物面临多重研发、监管和商业化挫折,计划裁员30%,以期将现金流延长至2023年上半年;去年,Calithera肾癌药物试验失败后,裁员35%。

  • 公司资金紧张,节省经营成本,重点投入转为优势业务。

如今年Zymeworks新上任的CEO,考虑到现金储备较少,成本较高,计划在今年年底前裁撤一半高管,裁员比例也将达到25%。

裁员同样也发生在国内。

据不完全统计,截至4月19日,国内近200家上市医药企业中已有约50家企业的员工总数出现不同程度的下降。

多个消息称,维健医药因心血管产品线或将裁员、复星医药因新冠疫苗延迟上市或导致大区被裁光、绿谷制药也疑似出现大变动,神经产品线临床部门裁员20%,其他部门裁员50%。

国内药企的裁员大幕,早已从去年拉开。根据同花顺iFinD数据,过去一年442家医药上市公司中,有116家药企进行不同程度的裁员,裁员总数为3.965万人,占了上市药企总数的26.2%,而且多为头部企业。

从裁员数量来看,东阳光药、恒瑞医药、誉衡药业、以岭药业、康缘药业、景峰医药、上海医药、国药现代等企业单家裁员就都已超过1000人。

其中,裁员人数最多的前两名为东阳光药和恒瑞,分别裁员4841人和4412人。裁员超过1000人的共有9家;裁员500人以上的18家制剂企业共裁员20851人;另外,有8家中药企业共裁员8485人。

从整体来看,本土药企裁撤的岗位主要以销售为主。其中康缘药业去年减少1407名员工,而销售人员达1285人。上海医药去年净减员1080人,销售人员也达到了625人,销售岗的裁员比重同样过半。

不过,在销售裁员的动作下,部分国内药企的研发岗位却不减反增。

据医药魔方invest统计,截至2022年4月6日,去年在A股、H股员工数量增加的Top20医药公司中,CXO有6家,增加了18300人,占Top20增员总数35489人的一半以上。

其中,药明康德以8501人雄踞增员数榜首,新增研发人员6899人。而百济神州的研发岗增员比重最大,去年增加了2822人,占全年研发人数的96%。即使是减员4412人之多的恒瑞,其研发人数还是增加了16%。

这样的结果,或呈现国内药企“冰火两重天”的独特景象:销售岗遇冷,研发岗遇热。

一定程度上,这也说明在国内医改的大背景下,本土药企走上了重研发的路子。尤其在国内医保降价和仿制药集采的趋势下,缩减销售团队成为国内药企要做的第一件事。

未来,国内药企产业或竞相涌入创新药或首仿药的队伍中。

回过头看,如今阿斯利康在中国区语焉不详的裁员计划,或许也与国内药企的生存环境别无二致。

从2017年起,阿斯利康曾疯狂扩容,销售团队一度从1万3千人暴涨至2万余人。如今,吃过中国市场红利期后,这些销售人员俨然成了“沉舱石”。

集采大潮下,阿斯利康的节节败退

中国区是阿斯利康营收的重要来源之一,2021年实现营收60.11亿美元,同比增长12%,占阿斯利康在新兴市场收入的49%。

这个成绩,也让阿斯利康成为中国市场中的外资药企模板。

但在净收入上,阿斯利康的成绩却出现下滑。

2021年,阿斯利康中国区全年收入由2020年同期的13.62亿美元降至13.12亿美元,全球收入占比从2020年的20%降至16%。

阿斯利康年报中显示,从去年第四季度开始,阿斯利康中国区的营业收入就出现下滑,是5年来的首次下降。同时,年报预计,2022财年中国区业绩可能出现个位数比例下滑。

这种忧虑背后,实则是受国内医保降价、集采压价的种种压力所致。

事实上,阿斯利康呼吸领域的重磅产品布地奈德吸入剂,以及消化系统的艾司奥美拉唑注射剂,都曾经是年销售量几十亿元的大单品

据米内网数据,2019年,前者在公立医院的销售规模是82.5亿, 阿斯利康市场份额占98%;后者在公立医院销售总额超50亿,市场占比63.22%。

但从2020年起,阿斯利康两项产品接连丢标全国第四、五批集采后,整个市场格局发生巨大变化。单单是布地纳德这一产品,市场份额下滑到92%,市场销售额也较2019年下降了32.3%。业内曾估算,阿斯利康每年的销售额损失约为50亿。

除了集采,阿斯利康另一产品--奥西替尼,在2021年3月被纳入医保报销范围。

阿斯利康CEO Pascal Soriot曾透露,虽然奥西替尼在中国的销量正在扩大,但至少目前还不能完全弥补降价的影响。

不过,阿斯利康在2021年度报告中指出,今年3月份生效的新版医保目录纳入了奥希替尼的一线和二线适应症,带来的新增治疗需求基本与降价带来的影响相当。2021年,在包括中国在内的新兴市场,奥希替尼年销售额增长了6%,达到89.69亿。

但远虑是,在医保降价、集采压价的政策开启之后,阿斯利康能否狠下心与国内药企降价竞标?

同时,阿斯利康的药物销售线以及研发管线,能否与国内众药企一样,撑起“由仿制药向创新药转型”的时间窗口?

从销售转研发,阿斯利康的平衡术

一直以来,销售能力是阿斯利康的重要标签。而在中国市场,阿斯利康的销售也毫不褪色,甚至阿斯利康的员工前几个月在社交平台上评论,“阿斯利康在中国区太激进”。

或许这种感受与阿斯利康频繁的架构变动有关。

2021年6月,阿斯利康中国正式合并现有消化和呼吸雾化业务,成立消化及呼吸雾化业务部(GNR)。同时,阿斯利康中国还成立了一家名为“无锡玑钼医药有限公司”的新公司,未来其将承接相关消化和呼吸业务;

2021年9月,阿斯利康中国宣布罕见病业务部正式成立;

2021年11月,阿斯利康中国宣布对部分业务架构进行调整,一方面拆分及县业务,及县肿瘤业务并入肿瘤事业部,非肿瘤业务独立,成为及县慢病业务部;另一方面将心血管及代谢事业部、肾脏业务部合并,成立心血管、肾脏及代谢事业部;

2021年12月,阿斯利康中国宣布将自2022年1月1日起正式成立全渠道事业部,任命阿斯利康中国副总裁刘谦为全渠道事业部负责人,全面领导阿斯利康中国及县慢病业务部、零售业务部、社区业务部、飞鹰业务部及东五县域市场工作。

在内部架构调整后,阿斯利康在中国发展策略也进一步趋向平台化,强化了自身“慢病+基层销售”的资源优势。

但问题是,在新的架构成型后,阿斯利康是否真的一帆风顺?

目前来看,在医保和集采的压力下,阿斯利康在中国区的销售并不顺畅。

今年2月,阿斯利康发布的2021年报显示,中国区的去年营收为60.1亿美元,占全球市场份额的16%,较去年下跌4%。

据医药经济报称,在2014年阿斯利康拒绝辉瑞收购时,向资本市场承诺,“在2023年实现全球每年400亿美元的销售额,按照彼时的业务板块测算,平摊到中国区的销售额数字就是150亿美元。”

但实际上,中国区的市场份额一直在变动,雷峰网&《医健AI掘金志》统计了阿斯利康2014-2022年的部分数据发现,150亿美元并非是阿斯利康在中国区的硬性指标。

目前来看,真正让阿斯利康捏一把汗的是,中国区的销售额增速变慢,或影响到全球销售额目标的实现。尤其是距离目标已不足两年,阿斯利康的400亿目标将更加迫切。

阿斯利康在2014年-2021年的销售数据 | 医健AI掘金志制图

有媒体称,这一承诺实际上是对赌协议。

尽管目前在很难的公开资料中获取更多相关信息,但摆在阿斯利康面前的中国区市场压力,已经不言而喻。

阿斯利康CEO Pascal Soriot在2021年报发布后坦言:阿斯利康在中国遇到了一些不利因素。

如今,阿斯利康还能在中国区做什么?

去年10月,阿斯利康露出风声,在首届上海国际生物医药产业周开幕当天,称已从“支持新药上市向更早期研发拓展”,似乎是阿斯利康要“改基因”的一种声明。

当日,阿斯利康的全球研发中国中心总裁何静博曾表示,2021年,阿斯利康已成立了转化医学团队和数字化与数据创新团队,整体研发人员数量同比增长超过20%。在中国的研发管线已有120多个在研项目,全球管线内同步研发的项目超过了85%。

今年4月,阿斯利康又借博鳌亚洲论坛2022年会,宣布在成都市高新区合作共建中医药创新产业基地,并由泰格医药领投的中成药CRO-广州海博特公司担任园区战略合作共建方,目标是打造“首个中医药现代化真实世界研究标杆案例”。

频繁在公开会议中表态转向研发端,似乎已经印证了阿斯利康要从医疗商务拓展,向上游深耕,加重医药研发。尤其是此次参与医药基地的建设,可以看出,阿斯利康已经不满足于仅仅参与中成药的推广工作,而是进一步深入到中成药的研发过程中。

目前已有专家称,对于阿斯利康来说,未来可能综合考虑独家品种、医保目录品种、基药品种等中药市场特色优势品种,单品种年销售额在5亿、10亿以上的大品种。

在中国的医疗环境中,阿斯利康或许学会了“因势利导”这重要一招。走上“to 医保/集采”的路子,如今的裁员,也成了情理之中的事情。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/yb86nwS0Yxk9hxSV.html#comments Thu, 23 Jun 2022 10:07:00 +0800
AI药企华深智药完成5亿元A轮融资,曾参与新冠抗体研究 //m.drvow.com/category/shengwuyiyao/fMA2IkW1MzVcdFs3.html 近日,AI药企华深智药(Helixon)宣布完成近5亿元A轮融资。本轮融资由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投。据悉,华深智药将继续深耕于AI+新药开发领域,扩大团队与商务开发,完善AI高性能计算能力,拓展高通量实验平台,并同时推进管线自主研发与对外合作。

据雷峰网了解,2021年10月,华深智药曾完成千万美元级天使轮融资,投资机构同样包括襄禾资本、高瓴创投和清智资本。

华深智药致力于打造下一代人工智能科学计算平台,并结合自研高通量生物实验技术,为药物研发人员提供微观世界分子计算、模拟与设计的智能系统。在新药开发领域,特别是大分子药物发现,华深智药正创新性地开发高效机器学习算法以及数据获取技术,重构药物开发流程,从而极大程度上提高新药研发速度和效率。

目前,该公司已开发多种蛋白药物设计与建模的革命性创新算法,并与高通量实验平台进行整合,完成了AI设计/实验验证的高效率迭代闭环。随着平台技术逐渐完善,华深智药已开始布局多条大分子与免疫治疗研发管线。

早在去年年底,华深智药已联合清华大学医学院张林琦教授团队与清华智能产业研究院(AIR),三方共同发布了最新的新冠抗体研发成果。

雷峰网此前报道,利用新型人工智能抗体平台,团队优化和筛选出了新的新冠抗体,该抗体的抗病毒能力,超过了当时所有已经获得紧急批准的抗体:不仅可以涵盖新冠病毒原始株,还对阿尔法、贝塔、伽马,以及最新的德尔塔等变异病毒,达到高效和广谱的中和效果。

图片来源于华深智药

该项目的AI平台负责人,清华大学智能产业研究院(AIR)访问教授、伊利诺伊大学厄巴纳-香槟分校计算机科学系终身教授彭健曾向雷峰网介绍,AI抗体设计平台Helixon Design——Helixon一词由Helix(螺旋)及exon(蛋白质编码区域)组成,背后也代表着编码蛋白的含义。

从去年8月到11月中旬,利用AI抗体设计平台Helixon Design,合作团队在三个半月的时间里就研发出对阿利法、贝塔、伽马和德尔塔等十余种突变株都达到高效和广谱中和效果的新抗体。

彭健教授表示,这一新技术不仅解决了现今的新冠抗体药问题,也为接下来的抗体药研发提供了新思路。

针对本轮融资,五源资本合伙人张斐表示,“彭健博士是我们非常欣赏的有使命感的创业者,他聚集和带领了一批国内外在科学,算法和工程领域的顶级人才,尝试打造人工智能为基础的生命科技平台。五源很高兴能领投这轮融资,祝福彭健博士和华深智药未来取得更多成就。”

高榕资本创始合伙人岳斌表示,“在AlphaFold2出现后,我们很关心人工智能在大分子新药发现领域的进展。期待华深智药打造的技术平台,能帮助科学家更好地解析蛋白质结构与相互作用,助力大分子药物发现,为患者带来帮助。”

华深智药创始人彭健博士表示,“感谢五源资本、高榕资本、Neumann Capital以及老股东对华深智药的全力支持。此次融资再次证明市场对华深智药的技术与业务发展的高度认可。我们将坚定不移地快速前行,加大研发投入力度,全力推进合作与管线开发,用人工智能守护人类健康。” 

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/fMA2IkW1MzVcdFs3.html#comments Wed, 22 Jun 2022 14:56:00 +0800
第一批做「单细胞测序」的人,已经上云了 //m.drvow.com/category/shengwuyiyao/dOIKkgMi0dnOCsLV.html

1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖。在此后的40年时间里,测序技术发生了多次革命。

北京大学的谢晓亮教授曾表示,2007年发生的新一代DNA测序仪的革命,使测序价格的下降速度比半导体工业的指数衰减还快。

“只要1000美元,一天之内就可以完成个人基因组测序,为治疗和预防疾病提供个性化方案参考。”

2009年,单细胞测序技术首次问世。四年后,单细胞测序技术被Nature Methods评为年度技术。2015年,单细胞测序技术再度登上Science 转化医学封面。目前,单细胞测序的全球潜在科研市场体量已经达到130亿美元。

单细胞测序到底有什么好?

简单来说,世界上没有两片相同的叶子,对于多细胞生物来说,细胞与细胞之间是有差异的。传统的研究方法在多细胞水平进行,因此,最终得到的信号值,其实是多个细胞的平均,丢失了异质性信息。

这就好比一场大合唱,比的是平均水平,其中有人浑水摸鱼也不会被察觉。

从2018年起,单细胞基因测序技术就开始飞速发展。作为一项高效的医疗辅助手段,基因测序在预防出生缺陷、检测遗传性疾病、肿瘤用药等领域提供了有效帮助。

但是,这项被寄予厚望的技术,如今却撞在了一堵墙上。

冲破那堵"内存墙"

寻因生物做的,是单细胞基因测序。

这家成立于2018年、驻扎在北大医疗产业园的初创企业,在2022年1月获得B轮融资,从去年开始商业化销售。仅一年时间,已与100多家客户建立科研合作关系,并在上海、广州和成都同步设立地方实验室。

来自寻因生物信息部门的张广鑫说,“单细胞检测技术没有太大的客户偏好性,只要是在单细胞水平上的需求对象,例如制药公司、科研院所等都是我们的客户。”

不过,客户多也会带来更多的挑战。就像早些年双11的高并发会让淘宝app崩溃,同一时刻几千万人同时访问,消费者可能就抢不到限时的优惠等。所以,寻因生物也面临这个问题:超大数据量和分析复杂性,会导致任务并发度低、数据加载速率慢。

张广鑫举了一个例子,仅一个单细胞测序文件的大小可达100GB以上,而随着一个单细胞项目包含的样本量越来越多,细胞数据级别往往达数百GB甚至TB。

其次,单细胞数据的分析复杂,需要反复做数据读取和参数调整,导致处理海量细胞样本的分析任务,通常要数小时甚至数天才能完成。当样品量上来,各个样品之间又要做各种关联或者是更复杂的计算,所以对算力的消耗量就会非常大。现在,逐渐又出了很多多组学的检测,在普通单细胞的维度上又加了很多维度,对算力的需求会来到一个更高的水平。

如果说生信分析行业的本性如此,那么计算机系统架构本身的“阿喀琉斯之踵”才是问题的关键。

生物信息行业缺少一个覆盖全程的开源软件,通常一个生物计算项目需要多个软件配合。因此,第一步的输出往往是是第二步的输入,中间存在大量的I/O(输入/输出)过程。

张广鑫说到:“不夸张的说,12天中我们有10天都在I/O。而且,随着单细胞检测的成本逐渐降低,应用面越来越广,生信数据将是指数级的增长。”

所以,生信分析的惯用操作是将样本参数调低,或者仅运行一个比较大型的单细胞分析任务。但在测序任务多的情况下,多个单细胞分析项目只能排队执行。

在张广鑫看来,不考虑时间周期和算力投入的话,客户需求都能满足。但要考虑到单细胞的检测和分析将会科研和药物研发领域越来越普及,所需要分析的数据和维度都在增加的情况,生信行业不得不寻求更优化的计算架构。

他的顾虑,并不只是生信领域的问题,在AI行业也是如此。

此前,曾有AI行业的人士向雷峰网坦言,“AI训练未来的瓶颈不是算力,而是GPU内存。”做一个简单的对比:2019年GPT-2所需的内存容量,已经是2012年的AlexNet的7倍以上。

随着机器学习、计算机视觉、自然语言处理等AI应用的兴起,处理器需要更加频繁地对存储器进行访问与数据传输。传统的冯诺依曼计算机体系架构依赖总线进行存储器与处理器之间数据传输,在面对这类数据密集型应用时,往往难以兼顾低延时与高能效。

这一数据传输瓶颈现象常被描述为“内存墙”和“功耗墙”。以寻因生物为代表的单细胞领域就像是一个武林高手,需要一个更好的借力点,以施展轻功。

问题在三年前得到转机。2019年,寻因生物与阿里云开展了合作,前者曾是阿里云ecs.g5、g6、g7三代产品的用户。阿里云弹性计算产品总监王志坤对雷峰网表示,"企业客户最关心的永远不是谁跑得最快、谁拥有最极致的产品,他们关心的是性能、成本、可靠性之间的平衡。"

在王志坤看来,如何判断一家企业是否适合使用“大内存云”,有两点可作为衡量标准:

一,企业的数据量是不是足够大。由于数据量大,IO是否是主要瓶颈;

二,具体任务的计算量是不是大。由于计算量大,运行时间是否耗时。

同样,客户在选择大内存云之前也要先有建立一个CPU、内存以及IO的预估模型。但企业在预估之前,阿里云平台上涵盖了类似的行业方案,并已经经过其他客户POC验证,使得企业方案互通,行业共建成为可能。

王志坤称,这种能力是阿里云作为云厂商的独特基因,“我们更擅长的是互联网平台打法,将海量的业务场景融合起来,从而加速整个行业的研发效率。”

谈及上云的理由,张广鑫表示, “将企业本地自建机房变为使用阿里云的计算池,不仅能够保证整体算力,而且付费模式多元,用多少拿多少,不会浪费;二是阿里云多年深耕生物信息行业,已形成多种服务方案和客户资源,能够为上下游生物科技企业的互联互通提供更多支持,这是很多生物公司所看重的。”

正是有过多代产品的使用,张广鑫对“上云”的评价直接了当:算得快、成本低。

经过测算,寻因生物的单细胞基因测序,数据加载和导出性能从1000秒缩至2.5秒;单任务的样本规模是原来的2倍。在运行时间和单任务的运行时间几乎差不多的情况下,测序任务的并发运行数由原来的1个提升到了5个,任务处理效率提升了5倍之多。

从现在的结果来看,寻因生物找对人了。

一场合力缔造的"大内存云"时代

没有一次的变革不是从最直接的需求而来。

医疗健康产业由于其技术要求高、数字化水平低等特性,成为数字化最重要的应用落地场景之一。从面向药企的药品数字化全流程追溯,到面向医院的以电子病历三级医院全覆盖为首的医疗信息化改革,都折射出真实存在的行业痛点。

因此,寻因生物这样的下游客户对于“内存”的需求,也在一步步倒逼芯片商、ISV(独立软件开发商)以及在此之上的云服务提供商,不断拿出新的解决之道。

对于冲破“内存墙”,各方如此心智统一,个中原因是它们对计算机基础架构寻求“革命”的决心。事实上,发端于云主机时代的产品,在一定意义上是对传统CPU和内存堆料所不满的一次爆发。

数据分析对底层技术的需求是一个漫长的历史演变过程。虽然近年来不少企业已有上云的趋势,但过去的云主机,一直是缺啥补啥。举个例子,过去所有云主机类的产品,比如2路服务器使用最多的是X86架构,但英特尔推出来的每一代内存插槽数是固定的,单条内存的容量也是固定的。

如果还会出现算力和存储难题,解决办法是继续Scale up(垂直扩展),将2路服务器升级为4路、甚至8路,但是多CPU与内存之间的缓存一致性、主板复杂度等也会急剧上升。所以,各行业客户要么选择非常昂贵的大内存产品,要么是选择小内存组成的集群型产品。

王志坤也坦言:“阿里云很早推出了超大内存的实例,但当时的成本确实很高。”长此以往,计算机基础架构可谓是四个字:积重难返。直至,英特尔在2021年推出采用新介质的第二代英特尔傲腾持久内存200系列,一度迫于堆料的业内人士,开始求变。

英特尔相关负责人表示,2017年,随着傲腾SSD(傲腾固态盘)的推出,我们知道这是真正的游戏改变者,具有DIMM接口的傲腾持久内存的诞生也为期不远。但在当时,之所以能赋予大众这种远见,在于这款产品兑现了两年前的承诺,正式推出了基于3D XPoint介质的的SSD产品。

2015年,英特尔打造了基于3D Xpoint存储介质的傲腾技术,一举改变了传统的内存和存储层级结构。通过缩小冷热数据间的差距、减少IO瓶颈和解决数据延迟,使内存更靠近计算,为数据中心提供更高的灵活性和更多的价值。

而傲腾SSD的问世,无疑证实新介质做成了,而且极有可能是一个过渡型产品,将掀起内存产品的一次革命。

随后的故事不断描摹出新的剧本。

2019年4月,英特尔正式发布傲腾内存DIMM版本;2020年,英特尔发布傲腾持久内存100系列,成功完成大规模的商业化;2021年,英特尔发布第三代英特尔至强可扩展处理器(代号: Ice Lake) 及英特尔傲腾持久内存200系列, 生态系统更加壮大 。

英特尔® 傲腾™ 持久内存支持分层架构,从而实现高性能、大内存计算

2021年,阿里云基于第三代英特尔至强可扩展处理器和第二代英特尔傲腾持久内存200系列产品,开发了性能更加强大的不同规格实例:re7p、 r7p和 i4p,应用于更广泛的场景。

尤其是i4p,它能够提供性能极高的本地盘,相比于传统NVMe SSD在十几到二十微秒的延时水平,其延时可以缩短至170ns,非常适用于重IO型应用,能够帮助此类应用突破性能上的瓶颈。

从目前的合作形式来看,寻因生物的单细胞测序分析任务,就部署在了基于第三代英特尔至强可扩展处理器 (代号: Ice Lake) 和第二代英特尔傲腾持久内存的阿里云i4p持久内存型实例上。

寻因生物的张广鑫说到,“好的大内存云,是使用之后就感受不到它的存在,我只管专心做好我的业务。”

大内存云架构

其次,阿里云找到合作伙伴MemVerge。

MemVerge做什么?简单来说,它推出的Memory Machine是内存虚拟化软件,相当于存储的“操作系统”。

MemVerge® 的Memory Machine™ 软件是业界第一款虚拟化内存硬件的软件,用于对容量、性能、可用性和移动性进行精细化的资源调配。在透明内存服务的基础上,Memory Machine还提供了另一个行业第一的技术——ZeroIO™内存快照,该技术可以在几秒钟内封装数TB的应用程序状态,并以内存速度实现数据管理。

MemVerge CEO范承工对雷峰网表示,“从2017年3月,英特尔推出傲腾SSD。某种程度上,这是一个新的内存存储架构。要做成‘大内存’架构的话,除了硬件,还需要有相应的软件来产生。这就是我们成立的初衷。”

他认为,每次一种新硬件的使用,都必须开发一个新的软件堆栈,使应用程序能够充分利用新硬件的优点。

通过阿里云的计算巢模式(即云厂商开放给企业应用服务商和其客户的服务管理PaaS平台),阿里云让后者的Memory Machine大内存虚拟化软件与云平台的标准化集成,加速软件交付部署并标准化运维管理,大幅提升了业务效率。

范承工向雷峰网表示,“基础IT行业会逐渐意识到‘大内存’技术对于生产力、计算速度的重要性。同时,我们通过内存快照和应用胶囊的技术,可以使寻因生物不需要经历太多的IO。三家合力,来给客户的生物分析工作提供价值。”

对于MemVerge的作用,阿里云也给出了肯定的回答。

王志坤坦言,阿里云不太可能构建起一个端到端、无缝的全场景覆盖能力,服务行业客户需要MemVerge这样ISV(独立软件开发商)进来。

“业界还存在鸿沟,而这种鸿沟需要像MemVerge这样创新的技术服务提供商来填补。通过他们的技术创新,来使用好基于阿里云和英特尔傲腾持久内存的能力,同时又能满足面向垂直行业、面向垂直扩展领域的大内存场景。”

最后,是联动阿里云内部生态。

纵观阿里云的架构,除了有自主研发“神龙”云服务器架构之外,还有“飞天”云操作系统、“盘古”存储平台、“洛神”网络平台、PolarDB云原生数据库等等,构成了统一的云平台,让阿里云具备了从虚拟化层到操作系统内核层全链路的整合与调优能力。这些能力最终使得阿里云弹性计算团队对持久内存的产品化研发变得更加敏捷。

对于基础IT市场的演变趋势,范承工坦言,“市场仍然属于早期。但在未来2-3年里,尤其是随着英特尔CXL(Compute EXpress Link)的完善,生态会变得更加完整。”

对于未来,范承工也非常期待,“阿里云是中国云计算的领头羊。所以,我们之后会继续和阿里云、英特尔合作,一方面共同培养‘大内存’市场里的客户,包括生物信息、EDA仿真、金融等其他行业;另一方面,我们在技术上也会有更多的整合和合作,让联合方案有更好的用户体验。”

成为“东数西算”战略的关键一环

21世纪是生命科学的世纪。不管是从经济成本,还是业务开展的角度考量,更多的厂商越来越往云端去走,把数据处理的部分交给专业厂商去做。

2021年7月的新一轮疫情,湖南省将流调任务交给了长沙超算中心,通过强大的HPC把时间缩短至1.4秒。但是,如果用户有大数据相关业务,那么部署到传统超算中心上将带来很大的难度,因为数据移动既耗时又耗力。这也是E-HPC诞生的初衷。

早在2017年,阿里云就发布了中国首个公共云上的弹性高性能计算平台E-HPC。彼时的“云上超算中心”,一亮相吸引了公众的目光,可一键部署弹性伸缩的高性能计算集群环境,帮助科研院所和企业处理大规模科学计算问题。

张广鑫表示,面向生物产业,阿里云能提供一些调度资源的方案,例如E-HPC的解决方案可以帮我们去简化编写流程、监控任务投递,以及任务运算的过程。

他谈到了后续寻因生物对阿里云的一些使用规划:

从算得快的层面来看,用一些更有弹性的东西,例如业务量来了之后,可以很快出来很多节点,并发去进行计算。寻因生物还要对集群或阿里云平台进行一些精细化的管理。因此,在E-HPC层面上,寻因生物仍有比较足的需求。

从省钱的角度看,阿里云的服务有不同定价,要考虑数据保存的性能和周期,再进行精细化的调整。后面寻因也会基于阿里云开发出直接向用户提供服务的单细胞分析平台,赋予科研用户和药物研发用户分析单细胞数据的能力。

从大的社会背景下看,数据和算力成为新一轮的新焦点,也给云计算厂商们带来更多的时代命题。继“南水北调”、“西电东送”、“西气东输”等工程之后,今年2月,“东数西算”工程启动,其本质就是通过构建数据中心、云计算、大数据一体化,形成一种新型算力网络体系。

国家发展改革委等部门联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并基于枢纽规划了10个国家数据中心集群。

王志坤对雷峰网表示,“阿里云早期的机房建设是租用的形式。从六年前起,阿里云开始规划自建大规模的基地型数据中心,与东数西算里面几大算力枢纽的方向是一致的。”

其中,服务京津冀地区的阿里云张北数据中心已于2016年9月投产,大力采用风电、光伏等绿色能源,宣化数据中心也在建设中;在内蒙古枢纽,乌兰察布超级数据中于2020年6月开始提供云计算服务;在成渝枢纽,阿里云西部云计算中心及数据服务基地于2020年11月落户成都。

更关键的是,东数西算的国家战略工程,与云的模式十分吻合。因为,云计算的模式是据客户的需求按量配比,计算和存储更有弹性、安全。这与东数西算的跨区域数据调度和计算、数据中心适度聚集、集约发展,在性质上有天然的契合。

王志坤表示,“不管是我们底层的能力,还是云资源调度的能力,我们都有信心成为国家大战略中的重要一环。”

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/dOIKkgMi0dnOCsLV.html#comments Wed, 18 May 2022 10:20:00 +0800
医药SssS云服务公司医百科技,完成数千万美元B轮融资 //m.drvow.com/category/shengwuyiyao/8dvcxh3NIhsCiYqq.html 雷峰网消息,近日,医药营销技术(Pharma MarTech)整体解决方案提供商北京医百科技有限公司(以下简称“医百科技”)宣布完成数千万美元B轮融资,由惠每资本领投,KIP资本跟投,光源资本担任本轮融资独家财务顾问。

据悉,本轮融资完成后,医百科技将进一步加大技术研发投入,加速新业务拓展。

医百科技成立于2016年,为药械企业提供数字化转型解决方案,以公司自研的自研的Pharma MarTech底层技术架构为核心,以数字化营销服务、智能代表工作管理、互联网医院及智能数据平台产品,覆盖“企-医-患-药”的营销全链路,服务医药营销的全生命周期管理。

近年来,在政策收紧、医药市场增长乏力,以及疫情持续等复杂背景下,医药行业的数字化迎来大发展。

弗若斯特沙利文报告显示,2020 年国内医药数字化营销市场规模仅 152 亿元,到2025年有望达到1133亿元,到 2030 年则有望达 3633 亿元,年复合增长率超过37%。从全球看,2020年制药企业数字化营销的渗透率已经达到34%,而中国制药企业数字化营销的渗透率仅仅只有2.3%,与国际相比有近15倍的差距。

医百科技创始人、CEO高剑飞判断,线上线下融合的数字化营销将成为未来10年的趋势。

这一趋势可具化为两个“Double 50”指标:数字化渠道资源投放比例将占到医药企业整体市场资源的50%;医药企业与医生通过数字化渠道的互动频次将占到总互动的50%。

5年来,医百科技投入研发资金过亿。公司自主研发了100.pMarTech技术SaaS平台,涵盖100.eMarketing医药数字化营销产品、100.CRM+智能代表工作台、100.eHospital互联网医院和100.AiData智能数据平台的产品业务矩阵,为医药企业提供“数字化学术推广、数字化销售管理和数字化医患管理”的整体解决方案,帮助药企实现精准营销、提升销售转化,以及对医患的全周期服务与管理。

目前,医百科技已服务千余家医药企业和100+家协会,并覆盖百余万医生和数万家医院。2019~2021三年,医百科技实现业绩增长9倍,

在技术赋能方面,医百科技团队中40%为研发人员,技术团队规模还在继续扩大。截至目前,医百科技已申请专利17项,软著登记50余项。

高剑飞表示,基于医药营销线下开会和进院拜访的传统场景,数字化转型深入的未来必然是线上线下相融合,而其核心的底层技术是音视频技术,今年6月,医百即将推出100.Live全新医学会议产品。

公司方面透露,100.eMarketing专属学术营销平台已覆盖头部药械企业千余家,并形成了极高的客户粘性,基于医百全场景营销方案,客户复购率达92%,金额留存率(NDR)更是高达198%。100.CRM+智能代表工作台产品已于去年下半年推出,一经上线便有十数家药企签约,并完成了与其学术营销专属平台的打通,该产品也被客户称为“中国版的Veeva”。100.eHospital互联网医院产品也于去年12月获得互联网医院牌照等相关资质。

医百科技的某头部内资药企客户,以其专属数字化平台为学术推广阵地,仅通过2021年的学术直播、病例征集等线上活动,累计覆盖2000多家医疗机构的3万余名医生,通过对活跃用户的全景画像,搭建不同医生成长体系,分层运营、优化资源配置,极大提高投入产出比。其中代表人均覆盖HCP数量提升50%,高潜目标HCP数量识别提升约32%。

惠每资本表示,从服务众多的国内药企起步,与业内大多数字化营销服务的公司不同,医百科技是少数通过SaaS营销技术(Pharma MarTech),赋能医药行业数字化转型的企业。结合国际市场的发展历程,相信中国的医药数字化营销领域更容易成长出巨头企业。我们坚定地看好医百科技团队对于医药营销场景的深刻洞察,其具有前瞻性的技术研发投入以及医药“数字化营销-数字化销售管理-数字化医患管理”营销闭环的战略布局,在业内已经形成强大的技术壁垒。连续三年的加持,我们看到医百科技的深耕笃行,也期待其进一步发展。

KIP资本副总裁李炳旼表示,中国药企营销数字化渗透率远低于全球平均水平,医药数字营销是一个千亿级的市场。医百作为国内领先的数字化营销服务提供商,无论是技术投入还是对这个行业的洞察都是非常前沿的,我们能够看到医百与同行业平台差异化的业务布局,同时我们也相信医百科技这样的整合营销平台一定能够助力行业的数字化进程。

光源资本执行董事许银川表示,在医药营销行业面临数字化拐点、千亿蓝海将启的大背景下,医百科技以深厚的医药与营销复合的积淀,始终围绕药企的需求,提供业内少有的全链条、全场景医药营销产品和服务,一站式地解决了医药企业的营销痛点,服务了近千家药械企业,并获得极高的客户口碑。作为赛道稀缺的技术主导型公司,医百科技投入大量研发资金,自主研发行业领先的高性能音视频底层技术平台和包涵多种产品的SaaS平台,为医药企业数字化营销奠定坚实的基础。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/8dvcxh3NIhsCiYqq.html#comments Fri, 22 Apr 2022 18:33:00 +0800
好眼力!平安投资的日本制药龙头盐野义,即将推出首款新冠口服药 //m.drvow.com/category/shengwuyiyao/4tVhxqm5BooPsD7Z.html

作为目前新冠治疗产业链中的最后一块拼图,新冠口服药被视为全球疫情防控的重要工具。近年来,针对新冠病毒特效药的研发正紧急有序进行,并且不断涌现亮眼的成果。

2021年,美国默沙东研发出全球首个获批的口服新冠特效药莫努匹韦。随后,美国的帕昔洛韦新冠病毒治疗药物也获得了批准。2022年2月11日,国家药品监督管理局应急附条件批准了辉瑞公司新冠病毒治疗药物Paxlovid的进口注册,这是国家药监局批准的首款治疗新冠肺炎的口服药物。

一个好消息是,又一款效果更好的新冠特效口服药要来了。近日,日本第五大制药企业——盐野义制药向日本厚生劳动省递交了新冠病毒口服药制造和销售的审批。如果得到批准,这将是日本国内制药公司的第一款新冠治疗药。

据悉,在日本盐野义制药新药加速研发的背后,有着来自中国平安的资本、业务、技术等多重助力。2020年3月,中国平安旗下平安人寿投资盐野义制药,成为其重要战略性股东。今年2月初新冠病毒药物试验显示效果后,盐野义股价即飙涨12%。

此前,平安战略入股盐野义的股价为5276日元,截至上周五收盘价为7715日元,已上涨46.2%。业内人士认为,中国平安聪明的医疗投资既体现了其前瞻眼光、战略布局,又实现了财务价值的超额收益,可谓多赢。

新药取得重大突破即将投入临床

目前,日本国内获得政府批准投入临床治疗的口服药,是美国默克公司与辉瑞公司生产的两款口服药。这两款口服药主要提供给年龄在12岁以上、已出现轻症状、且具有重症化倾向的感染者服用。

但是,盐野义制药公司研发的口服药,不管有没有重症化倾向,只要年龄在12岁以上,被确诊为阳性者,不管有没有症状,均可以服用,治疗的范围比美国两家公司生产的口服药还要广。

根据美国默克公司与辉瑞公司发表的临床试验结果,具有重症化倾向的轻症状与中度症状的感染者中,服用了这两家公司研发生产的口服药后,住院率减少了30%,死亡率减少了89%。

而盐野义制药公司研发的口服药,以428名12岁以上轻症状与中度症状感染者为对象实施的临床试验结果显示,在服用了3天的口服药之后,在第四天,有80%的人已经检测不出新冠病毒。服用5天之后的第6天检测,100%的人身上的新冠病毒已经完全消失。临床试验结果还显示,服用了盐野义制药公司研发的口服药之后,流鼻水、喉咙痛、咳嗽、呼吸困难等症状均有大幅改善,而且副作用很小。

引进更先进或不同方案的药物药品及知识产权,可以补充和丰富新冠治疗方案。参考这款药的临床数据以及国家药监局批准辉瑞新冠特效药的先例,中国也将有极大可能引入这款更好的特效药,进一步丰富中国抗疫手段,提供更多帮助和智慧。 

21.8亿元投资盐野义,平安入局制药的魄力

资料显示,盐野义制药公司创建于1878年,已有140余年的历史,为日本第五大制药企业,拥有丰富的药品研发、生产及销售经验,在日本制药领域处于领先地位,其抗感染、中枢神经系统疾病等相关药物拥有较高知名度和美誉度。

而在近两年,日本盐野义制药得到了医疗健康科技巨头——中国平安的深度助攻。2020年3月,中国平安与日本盐野义制药达成战略合作协议,盐野义制药将向中国平安旗下的平安人寿出售库存股635.6万股,交易总额为335.3亿日元(约合21.8亿元人民币)。交易完成后,平安人寿盐野义制药重要战略性股东。

2020年7月,中国平安和日本盐野义制药附属公司盐野义制药(香港)有限公司达成战略协议,在上海及香港两地分别成立“平安盐野义有限公司”及“平安盐野义(香港)有限公司”两家合资公司。

2021年7月,中国平安与日本盐野义制药的合作在上海又迈出关键一步:双方合资成立的平安盐野义有限公司在沪开业,将从未病护理、预防、诊断、核心治疗药及跟踪回访等阶段提供包括运动、非处方药、疫苗、新药等健康管理方案。

在上海合资公司开业仪式当天,平安盐野义董事长兼CEO吉田达守就表示:“平安盐野义将融合中国平安集团世界一流的AI技术,和盐野义制药的新药研究经验,不断颠覆制药行业的现有常识、积极创新,为中国人民的健康做出贡献。”

在研究方面,平安盐野义借助中国平安的数字化科技能力,以数据驱动创药,提速特定疾病的创药开发。同时,平安盐野义将盐野义制药的研究功能中枢——医药研究中心作为核心技术力量,不断探索新型药物,实现更高效、更迅速的药品研发。

在开发方面,平安盐野义将依托中国平安丰富的医疗资源,探讨新型快速临产试验入组模式,进一步推动盐野义新药的中国临床开发。

在生产方面,平安盐野义将实现中国首发医药品制造数字管理法,实现药品生产过程中指令与记录的自动化、生产现场的透明化,进一步提升创药开发速度与医疗保健服务的质效,搭建新型药品生产系统。

在销售方面,平安盐野义借力中国平安的医疗生态体系,推广盐野义制药拥有的高品质处方药和日本的OTC等健康产品。另一方面,平安盐野义持续铺展线下销售版图。据2021年数据显示,平安盐野义专业终端销售团队规模为340人,销售产品15种,已辐射31各省市,覆盖10万多家药房、诊所、卫生院。

平安入股盐野义,是一次双赢的选择:

一方面,中国每年医疗开支超6万亿人民币,根据《“健康中国2030”规划纲要》,国内医疗健康市场要在2030年达到16万亿人民币规模。平安全方位加持以及中国广大的医疗健康市场,对于盐野义一次新的增长机遇;另一方面,盐野义出色的药品研发、生产及销售经验,也体现了平安寻找优质投资标的的前瞻性眼光,可以进一步凭借自己强大的科技、资金、产业实力,推进中国医药产业的健康发展和现代化转型升级。

对盐野义的成功投资,是对平安前瞻投资眼光的又一次充分证明。 

平安医疗投资的智慧、前瞻与定力

作为国际领先的科技型个人金融生活服务集团,中国平安每年将营业收入的1%用于创新科技的研发,致力于打造先进的科技能力,其中很大一部分费用投入到了医疗生态圈建设。医疗健康产业与保险业具有协同效应,二者深度融合有助于完善医疗体系,提高医疗服务质量,缓解“看病难、看病贵”问题。截至2021年三季度,平安整体医疗板块累计服务187个城市,赋能超4.3万家医疗机构,惠及约112万名医生、服务322万慢病患者。

与此同时,中国平安也构建起了覆盖政府、用户、服务方、支付方、科技等五大方面的“大医疗健康”生态圈,拥有国内最全的互联网医疗流量入口,及领先的线下医疗服务提供方网络。

平安医疗生态圈可分为线上、线下两部分:

线上部分,是“联合健康+O2O+会员制家庭医生”的战略核心。2021年9月15日,“平安臻享run”健康服务计划再革新,即立足专业家庭医生、专业健康测评和专属健康档案三项,并提供覆盖健康、亚健康、慢病和疾病四大健康服务场景的综合管理方案。

2021年11月,平安健康推出“家庭医生会员制”,力图为HMO支付方和O2O供应方架起桥梁。至此,平安“保险+健康管理”体系构成已十分明显,即1个专业家庭医生+专业健康档案+4大服务场景的“1+4”模式。该模式打通用户“健康、治疗、康复”的一切状态,使之成为连贯存在的周期记录,也让健康管理真正落在实处。

线下部分,平安好医生已与15.1万家药店、4.9万家诊所、超3700家医院达成合作,更聚集全国近2万名专家,为4亿用户提供优质服务。

而在自建体系之外,平安积极寻求对外投资,在高端、前沿医药领域的“聪明”布局,也让平安实现了提前卡位。2016年,医药及医疗器械研发平台公司药明康德与平安银行签署了100亿元战略合作协议。平安银行向药明康德提供全面授信支持以及联合成立了“平安药明产业投资基金”。该基金会用以支持药明康德在全球范围内的大健康产业布局发展。如今,A股龙头药明康德的市值已经达到3012亿。

2017年7月1日,我国首部《中医药法》正式施行。就在两个多月后的9月22日,平安就宣布与日本龙头药企津村达成战略合作协议。中国平安旗下子公司平安人寿将以约16亿人民币,收购津村10%的股份,成为其第一大股东。

2018年,平安与日本津村共同设立的合资公司——平安津村有限公司成立。这是中国企业对日本汉方药健康产业领域最大规模的一项投资,也是中国企业首次收购海外医药核心技术,是一笔高价值投资,成功将全球最顶尖汉方药技术和全球最大医疗健康市场做了有机结合。

2019年,联想智慧医疗宣布获平安集团数亿元战略投资,并正式更名为平安联想智慧医疗,成为平安集团旗下控股子公司,接入平安“金融+科技”生态布局,成为平安科技板块中专注提供智慧医疗整体解决方案的“紧密型”成员。

2020年,平安提出通过“金融+医疗+康养”结合的创新发展模式,聚焦居家养老+高端养老领域。其中,高端养老领域主要聚焦旗下康养品牌“平安臻颐年”及首个高端产品“平安颐年城”。目前,首个平安颐年城项目已落地深圳并启动建设,预计于4年内投入运营。

继高端康养服务后,平安还适时推出了 “老人舒心、子女放心、管家专心”的一站式居家养老方案。提供360度全场景居家养老服务,将保险与居家养老完美结合,让用户有尊严的养老不再成为问题。至此,保险、康养、医疗,三个向来较为独立且拥有各自“话语体系”的行业,正在实现有机整合。

结合平安集团强大的资源优势,平安的医疗生态圈与优质投资标的、前沿项目形成合力,加速提升企业价值,助力产业升级。盐野义这样的优质投资对象,昭示了平安把握未来的果敢与决心。这种面向未来的长期主义心态,也将为平安带来丰厚的投资回报与发展动力。雷峰网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/4tVhxqm5BooPsD7Z.html#comments Mon, 07 Mar 2022 09:16:00 +0800
复星医药与英矽智能宣布,达成1300万美元首付款的AI制药合作 //m.drvow.com/category/shengwuyiyao/U7GOWu9840qn7ewv.html 雷峰网消息,近日,上海复星医药与英矽智能达成合作协议,在全球范围内共同推进多个靶点的AI药物研发。

这项战略合作包括针对四个指定靶点的以人工智能驱动的药物研发合作,以及双方对于英矽智能QPCTL项目的共同开发合作。

根据协议,英矽智能将获得1300万美元的首付款,及里程碑式付款,并分享QPCTL项目的商业化利润。此外,复星医药将向英矽智能提供股权投资。

其中双发研发合作的首付款,更是达到了国内AI新药研发领域,国内迄今为止最大额的首付款。

本次合作旨在将英矽智能端到端人工智能驱动的药物发现平台,与复星医药临床开发和商业推广能力相结合,发现和开发创新药物和疗法的组合。

根据合作协议,英矽智能将负责为QPCTL项目提名临床前候选药物,并将该候选药物推进到临床前阶段,之后复星医药将对其展开临床阶段研究,共同推进该项目在全球范围内的开发。

同时,复星医药的研发团队将提名四个靶点,由英矽智能的人工智能平台和研发团队进行评估和开发,并将候选药物推进到临床前阶段。

作为合作的一部分,复星医药将获得英矽智能人工智能平台PandaOmics和Chemistry42的使用权,以推进公司内部人工智能驱动的药物发现和开发工作。

复星医药董事长兼首席执行官吴以芳表示:“我们很高兴能与英矽智能达成战略合作。复星医药坚持创新研发,并以满足临床未满足的需求及提升药物可及性为导向,期待和英矽智能的合作能发挥双方在技术及临床开发上的优势。” 

英矽智能创始人兼首席执行官Alex Zhavoronkov博士表示,“通过与领先的生物制药公司复星医药的合作,我们开启了一个由人工智能赋能的端到端药物发现新时代,人机合作正在成为精准药物研发的新常态。之前,我们证明了人工智能可以发现全新靶点,可以在创纪录的时间内生成临床试验阶段的新分子,现在我们将与生物医药最顶尖的科研团队之一展开合作,将人工智能药物研发提升到新的水平,以此造福全球患者。”

关于复星医药 

复星医药成立于 1994 年,业务领域策略性布局医药健康产业链,直接运营的业务包括制药、医疗器械与医学诊断、医疗健康服务,并通过参股国药控股涵盖到医药商业领域。 

复星医药以制药业务为核心,围绕肿瘤及免疫调节、四高(高血压、高血脂、高血糖、高尿酸症)及并发症、中枢神经系统等重点疾病领域搭建和形成小分子创新药、抗体药物、细胞治疗技术平台。 

关于英矽智能

英矽智能是一家由端到端人工智能(AI)驱动的药物研发公司,通过下一代人工智能系统连接生成生物学、生成化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物;聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/U7GOWu9840qn7ewv.html#comments Tue, 11 Jan 2022 16:00:00 +0800
靶向诺奖信号通路,英矽智能利用人工智能引擎发现2款临床前候选药物 //m.drvow.com/category/shengwuyiyao/KrXhe5R8SLMMeLSb.html 雷峰网消息,1月5日,由端到端人工智能(AI)驱动的药物研发公司英矽智能(Insilico Medicine)宣布,公司已发现两款靶向PHD2的临床前候选化合物ISM012-077和ISM012-042,分别用于治疗肾性贫血和炎症性肠炎。

研究表明,PHD2在调节HIFα的稳定性和转录活性方面起着关键作用,而HIFα是细胞对缺氧反应的关键转录因子。当氧气供应有限时,HIF可以通过增加EPO的产生来刺激红细胞的生成。

此外,HIF1α通过诱导肠道屏障保护基因的表达,也被认为是IBD的一个保护性调节因子。因此,PHD2 抑制剂通过调节体内HIF 蛋白含量,对于贫血及炎症性疾病治疗具有积极意义。

本次英矽智能发现的两款靶向PHD2的小分子抑制剂ISM012-077和ISM012-042,具有新颖的分子骨架及由共晶结构证实的独特结合模式。

其中,ISM012-077是一款潜在best-in-class的PHD2抑制剂,通过促红细胞生成素诱导和改善铁的利用来促进红细胞生成以此治疗肾性贫血,在体外和体内临床前研究中均表现出卓越的安全性。

ISM012-042是一款潜在first-in-class高肠道暴露量的PHD2抑制剂,通过促进肠道屏障保护基因的表达来治疗炎症性肠炎。

在生成化学人工智能平台Chemistry42的赋能下,英矽智能在项目启动后的12个月内合成和测试了约115个化合物,并发现了这两款临床前候选药物。

目前,公司已经启动了用于新药临床试验申请的研究,以尽快开始这两款候选药物的临床试验。

英矽智能首席科学官任峰博士表示,“肾性贫血和炎症性肠炎影响着庞大的患者群体,迫切需要有效且安全的药物。我非常高兴看到英矽智能在强大的生成化学人工智能平台的支持下,能够高效地发现具有高度新颖性、良好疗效和安全性的候选药物来治疗这些疾病。无论是通过内部研发或是与外部合作的方式,我们将快速推进这两款临床前候选药物,尽早为亟需的患者展开临床试验。”

英矽智能首席执行官Alex Zhavoronkov博士表示,"从项目启动到提名临床前候选药物花了12个月,这证明了人工智能平台的力量。PHD2是一个成熟的靶点,我们使用生成化学人工智能平台Chemistry42设计具有特定高肠道暴露量属性的分子,用于治疗炎症性肠炎,这是一个全新的适应症。同时,我们认为这个靶点与抗衰老和长寿密切相关,值得进一步探索。"

值得注意的是,调控HIF1α相关研究的氧感知通路曾在2019年荣获诺贝尔生理学或医学奖。研究表明,氧感应机制在生理学中的新陈代谢、免疫反应和适应运动等都有极其重要的作用。

氧气调控因子HIF在贫血、癌症、心血管疾病等多种疾病治疗领域潜力无限,作为HIF的主要的调节器PHD已成为科学界调控HIF水平的重要阵地。我们期待更多的创新疗法诞生,造福于全球未被满足的医疗需求。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/KrXhe5R8SLMMeLSb.html#comments Thu, 06 Jan 2022 10:51:00 +0800
四大投资人论道「AI制药」:故事不易讲破,但大起必有大落 | GAIR 2021 //m.drvow.com/category/shengwuyiyao/p856NuKoYWz2F0pb.html 从去年以来,这条赛道就极具想象力。几个数字:融资事件12起,总金额超过27亿人民币,同比增长约10倍。

国内各大VC、BAT入场,这个赛道成为资本布局和大厂之战。

前几日,罗氏、恒瑞等知名药企更是签下大单。没错,这个赛道就是2020年融资爆发元年的AI制药。

市场前景巨大、故事性十足。但与此同时,AI制药方面的尖端人才稀缺,数据的匮乏与闭塞是AI技术永恒之痛,AI制药真的能成为一条现象级的赛道吗?

近日,由雷峰网&《医健AI掘金志》主办的GAIR 2021医疗科技高峰论坛在深圳落幕。

在阿里健康投资部执行董事秦祯的主持下,高榕资本合伙杨昆,深创投执行总经理、健康产业基金投资部总经理周伊,邦勤资本总经理&创始合伙人刘明宇,以「AI新药研发,一场正在崛起的黄金赛道」问题,展开一次圆桌对话。

围绕AI新药研发产业的发展现状和资本倾向,深创投执行总经理周伊先发表了自己的看法。

他认为,AI制药刚刚起步,通过AI制药技术来发现的分子或者靶点,还没有得到临床的验证。如果后续更多的案例可以跑通,大家对AI的信任度和依赖性会越来越高。“我不希望AI制药也像AI医学影像一样,大起必然会有大落。对创业者来说,AI制药是一个不错的选择,但不要太着急,做药本来就慢,还是需要跨过很多坎。”

邦勤资本总经理刘明宇认为,“如果新工具是一场技术革命,就有可能颠覆传统的游戏规则。AI制药目前还需要一定突破口,去验证和传统的思维方式的差异,但AI制药的‘工具’属性更强。”

圆桌对话中,四位投资人还讨论了AI制药高风险的问题。

对此,高榕资本合伙人杨昆表示,对于AI制药的前景和风险,需要从产业闭环的角度来看问题。以AI诊断为例,在临床中有实际作用,但其商业化表现在中美各异。而AI制药的试金石会来得更快。

目前很多AI研发药物处于临床前期阶段,一旦进入临床阶段,会面临两个问题。首先,进入临床阶段意味着企业将进入新药公司估值体系;其次,AI筛选出来的分子对比科学家研究出来的分子效果几何有待验证,新药研发天然有一定失败率,也将对行业和企业造成一定影响。未来两年,AI制药企业可能迎来“上天”和“落地”的分化。

阿里健康投资部执行董事秦祯总结道:生物计算,更多会从静态预测往动态方向走,AlphaFold2是一个三维结构的构象的截图,未来对它的预期会从照片变成录像,真正看到蛋白如何运动。

另外,从蛋白质的预测到RNA二级结构,现在还有三级结构,把它的结构和运动连接在一起,这也是一种趋势。

第三,干湿实验数据结合,要不断地有闭环,有新的真实实验数据,再反哺到算法里面去,这也是大家期待看到的AI制药趋势。

以下为圆桌讨论的内容,雷峰网&《医健AI掘金志》做了不改变原意的整理和编辑:

“AI制药,不太敢出手”

秦祯(主持人):从今年年初讨论AI制药企业到现在已经有10个月,有的AI制药企业已经拿到PCC结果,大家如何看待AI制药研发的现在阶段,如果现在从零开始做AI制药研发,会不会太晚?

杨昆:AI和制药是天然的结合,高榕资本也投了很多AI制药企业,包括今天在上午论坛分享的西湖欧米,还有未知君、星药科技、西湖云谷等。

从科学或制药角度,AI制药还处于早期探索阶段,没有进入爆发期。各个公司还在做药物发现、结构预测、结构之间联系等许多角度的基础工作,这是一个厚积薄发过程。

但资本方面已经非常热,我对这件事抱有乐观态度,资本本身就有催化作用,投资是产业附属,一定泡沫会催化技术向前发展。

周伊:AI制药板块是深创投持续关注的,刚才说AI制药领域晚不晚,我认为才刚刚开始。

核心原因在于AI制药发现的分子或靶点,目前还没有得到临床验证。

从创业角度,四年前火爆的AI医疗,例如AI医学影像诊断,以及病理切片诊断,现在这些已经降温,核心原因在于商业化很难做。

我不希望AI制药也这样,大起必然大落,希望它能长期稳定发展。如果目前在AI制药创业会是一个不错的选择,但不要太着急,做药本来就慢,再加上AI需要跨过很多坎。

刘明宇:邦勤资本是一家比较新的基金管理公司,多数成员都是医疗器械出身,2021年投了9个项目,7个器械、2个制药,AI制药还没太敢出手。

传统生物领域或制药领域的专家会把AI当成工具。而百度、谷歌等互联网巨头在这个赛道布局,是希望打造造药新势力。

造车新势力已经生存下来,早些年,手机新势力也把传统如诺基亚等干掉,“造药新势力”还需要时间去证明自己。

我认为应该先有问题再去找工具,而不是先有工具再去寻找问题。但果新工具是技术革命,它可能就会颠覆传统的游戏规则。

刚刚宋乐教授谈到,新药研发是10的60次方找出一个,工作量极大。

但我觉得很多真实情况可能不是大海捞针,是沙滩上丢一枚戒指,虽然也很难找,但知道大概位置,并没有这么大量级。

所以,AI还需要一定突破口,验证和传统生物学家思维方式不一样的地方,在此之前,AI在新药研发领域应该还是工具性技术,而不是颠覆性技术。

秦祯(主持人):制药是一个周期非常长、风险很高的行业,大家觉得AI制药和其它AI医疗相比风险如何?是风险更大,还是会有其它不同的风险考量点?

周伊:AI制药和其它AI医疗最大区别就是故事没有那么容易破。例如AI医学影像,拿到医疗器械注册证,就要看销售,卖得好才是真本事。

但制药本来就慢,临床实验就五到七年,故事可以讲更长一点,这是我从投资人角度看到的区别。

杨昆:今天讨论的嘉宾观点都很有意思,大家都是医疗背景,如果是互联网或TMT背景,观点可能完全不一样,这是AI医疗、AI制药投资非常纠结的地方,医疗和互联网出身看法不一样。

对于AI制药可能的风险,需要从产业闭环角度来看,以AI诊断为例,在临床中有实际作用,但其商业化表现在中美各异。

从估值角度看,AI制药的试金石会来得更快。目前很多AI研发药物处于临床前期阶段,一旦进入临床阶段,会面临两个问题:

首先,进入临床阶段企业估值是按新药研发公司还是AI公司,二者不同,如果按照新药公司估值,临床阶段估值可能就有很大差异;

其次,AI筛选出来的分子对比科学家研究出来的分子效果几何有待验证,新药研发天然有一定失败率,也将对行业和企业造成一定影响。

临床不一定要等到三期,预计未来2年我们就能看到结果,AI制药企业可能迎来上天和落地的分化。

刘明宇:我刚去隔壁会场听了安防分会场的演讲,海康威视的嘉宾谈到一个AI识别水泥厂下水道被堵塞的问题,这样的需求很简单,也很具体。

医疗里有很多“费力而不讨好”的问题,例如粪便检测、尿液检测等。AI新药研发也是一样,帮助最顶尖科学家去做那些重复性高、创造性高的工作。

刚才,杨昆总介绍了AI新药研发临床失败率高的问题,从投资角度看,短期内无法证明真伪的故事更有利于持续融资,因为可以一直讲故事。

一旦融到很多钱,就可能像AI四小龙一样跑赢竞争对手,对方可能水平比你高,但它融不到资会饿死。

怎么选一个好的AI制药项目?

秦祯(主持人):大家都觉得AI新药研发是一个很长的故事,那大家觉得PCC、IND或临床,什么时期是比较好的验证点?在这些过程中,咱们应该怎样进行项目选择?

刘明宇:这个指标很难衡量,如果可以衡量就不需要投资人,直接用机器人做投资就可以了。

不管AI制药还是常规制药企业,要看团队背景、成功经验,对赛道理解,另外就是对工具和数据的应用。

前面英矽智能介绍的工具就非常强大,PC普及对制药行业,及其它行业造成很大能力提升。但它只是一场改良,不是革命,AI则有可能成为颠覆。

周伊:AI制药公司现在有两个商业模式:

第一类,提供服务,例如快速提供先导化合物、新靶标,这都是做服务,收服务费,商业模式评判标准很简单:有没有大公司愿意出钱、愿不愿意重复出很多钱。

第二类,自己做药,自建团队,把AI作为工具,自己有分子生物学团队,药物研发团队,甚至外包FTE,CRO公司。

这类模式评判标准就和创新药公司一样,例如快速筛选靶标,尽快申报IND,做临床一期、二期,最后衡量药物的临床效果。

杨昆:我也同意周总,我看AI新药研发项目还有一个细节——团队构成。

今天新药人才和AI人才成本都很高。组建一家AI新药公司的时候,公司的核心策略是什么?

例如一个项目,是把钱砸在临床上,还是AI算力上?

很多AI制药公司都会内部讨论这类研发思路或者发展思路的问题,投资人也比较关注。这一问题可以延伸看出企业只是有短期规划,还是真正具备长期发展的潜力。

秦祯(主持人):既然聊到了项目的评估标准,明年上半年应该会有一些企业拿出PCC。届时,这个赛道估值会有哪些影响?什么情况或时间点AI公司和制药公司的估值体系会交融?

杨昆:AI新药研发未来估值会有很大分歧,现在资本市场资金比较充沛,无论AI,还是制药都容易拿到钱,有些AI制药公估值还比较高。

但医疗发展,甚至科技发展都有一个现象,一波资本冲上去然后整个赛道死掉一半以上,剩下其它企业慢慢沿着赛道跑起来,过去的测序和蛋白赛道都是这样规律。

所以,AI新药研发估值大方向上保持乐观,资本进入一定会产生一些泡沫,但这都有利于这个方向发展。

但对于一家公司来说,高估值可能是陷阱,因为当产品进入临床阶段后,估值是按照AI公司来估,还是按照制药行业调整,可能会面临变化。这考验AI平台和产品,能否持续研发创新。

周伊:明年估值怎样我就说一句,要看港股或美股二级市场对前面的AI医疗或AI制药公司看法,这是指标。

二级市场如果持续追捧,一级市场还能玩,二级市场如果砸,一级市场就不好说。

刘明宇:要做时间朋友,但赚钱不能太慢,这就是资本逻辑。

港股如果还是现在这样的情况,创新药估值低,交易量低就会有影响,那些今年融到钱的企业,可能会获得持续追加。

还会有很多有投资能力投资人持续进来,原有投资人也会对拿到钱的企业往下推,这会让一些企业估值越来越高。

但高估值是双刃剑,既有可能会持续融资跑赢竞争对手,也有可能因为高估值导致无人接盘,陷入恒大一样的两难境地。

估值高低不重要,融到钱才是关键

秦祯(主持人):从AI制药赛道趋势来看,大部分企业都是从小分子开始,做化合物优化或靶点发现。关于变构药物研发,大分子筛选或蛋白发现这些其它或垂直领域赛道发展,大家有什么看法?

刘明宇:我们也看DEL方向,我原来在上市公司投了一大批抗体药,但谁也没想到PD-1会变成集采价格。

中国情况比较特殊,我对大分子方面相对比较保守,几个比较热的靶点,机理也没有完全做清楚,所以我觉得利用AI更多只是试试水。

我更建议大企业,不管是传统药企还是百度这样的造药新势力做尝试。我不敢投一个全新用AI做大分子的项目,一个新公司去做的话,风险会很高,风险投资不是喜欢风险,而是为了追求未来而不得不冒风险。

周伊:我说两个趋势:

第一,多技术融合,药物研发涉及面非常广,多技术融合是一个趋势,例如已经有创业企业用AI+DEL(DNA编码化合物库)提高筛选化合物效率,未来会有越来越多技术促进药物研发效率,缩短时间;

第二,中国大药企会逐渐成立AI制药部门,或收编类似团队,很多大药企本来就有计算化学部门,计算化学就是把AI作为常用工具。

杨昆:目前,AI在新药研发产业的应用主要还集中在分子发现环节,但在整个产业链条里发现只是很小一环。

再厉害的AI,也不能不做细胞实验、不做动物实验、不做人体实验,FDA流程监管是必须要做的,而真正花钱、花时间的地方就在中后期——细胞、动物、人,甚至上市后临床、真实世界的研究。

所以,除了早期发现,AI能不能在后续环节做一些工作,例如细胞学、真实世界临床,甚至生产工艺的突破。

我们知道有些大分子药物生产还比较麻烦,有技术或者经验的团队比较少,人的因素较大,未来AI+机器人能不能让生产全部自动化或把困难降低。

甚至对于未来的基因治疗、细胞治疗,AI能否有一些帮助,这些对产业的发展将带来更大的帮助。

秦祯(主持人):阿里健康也对AI新药研发有比较多看法。

第一,生物计算更多会从静态预测往动态方向走,AlphaFold2是一个三维结构构象截图,未来对它的预期会从照片变成录像,真正看到蛋白如何运动。

第二,从蛋白质预测到RNA二级结构,还有三级结构,把它的结构和运动连接在一起,也是一种趋势。

第三,干湿实验数据结合,要不断有闭环,有新真实实验数据,再反哺到算法里,这也是大家期待的AI制药趋势。

秦祯(主持人):大家对AI制药研发这个黄金赛道有什么样期望?谈谈未来一两年的期待。

杨昆:第一,建议企业有耐心,无论产业还是创业都不是短期可以“上天”的事,制药行业本身就是一个相对长期的事业。

第二,估值高低没有那么重要,拿到钱才是最关键的,无论酷暑还是寒冬,活下去、坚持到最后就是胜利。

周伊:比较期待AI能否在特别难的领域发挥作用,例如应对阿尔茨海默症等CNS疾病,缩短他们的研发时间,造成较大促进。

刘明宇:医学专家、生物学家和AI专家要打破壁垒,我见过一些团队在药物发现领域很厉害,但引进AI专家,却工作不到一起去。

希望大家打破知识分子自我迷恋,认识到对方价值,不管顶级大学&科研机构,还是顶级企业。最好是药物专家牵头,AI专家配合,这样可能推进得更快。 

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/p856NuKoYWz2F0pb.html#comments Fri, 24 Dec 2021 15:11:00 +0800
微生态AI制药公司未知君,获美国FDA新药临床试验批准 //m.drvow.com/category/shengwuyiyao/kyDgdZdbnyoDp7Gk.html 雷锋网消息,近期,国内一家专注于肠道微生态治疗的AI制药公司——未知君宣布,其正在研发的一款代号为“XBI-302”的粪菌移植药物(后简称“FMT药物”),已获得了美国食品药品监督管理局(后简称“FDA”)的新药临床试验(后简称“IND”)批准,可正式进入治疗急性移植物抗宿主病的临床试验阶段。

未知君CEO谭验表示,在美国FDA官方披露的数据中,这是中国微生态制药企业首次获美国FDA批准的IND申请,标志着中国制药企业正式开拓出一条国内微生态药物向美国FDA递交审批的完整路径,实现了粪菌移植从治疗形式向药物形态的转化。 

据悉,未知君此次获批的药品,主要适应症为急性移植物抗宿主病(aGvHD),后者是移植物抗宿主病(GvHD)的一大分型。

该病是异基因造血干细胞移植后的常见并发症,是指供者的免疫细胞攻击受赠者的脏器,产生的临床病理综合征。

造血干细胞移植是许多恶性血液系统疾病的有效治疗手段,在治疗过程中为了降低排异反应发生的可能,移植前患者会被抑制或摧毁体内免疫系统,移植后也要继续使用免疫抑制剂,这些措施导致患者免疫功能大幅度降低。

因此,患者在移植前后必须使用大量抗生素来避免感染的发生。但抗生素是一把人体健康的双刃剑,长期、大量的使用,会严重破坏患者的肠道微生态——人类免疫系统的前沿哨兵。

一旦患者发生移植物抗宿主病,目前的治疗手段只有类固醇激素和免疫抑制剂,不仅药物自身有副作用,而且还严重影响新的免疫系统建立。

同时,肠道微生态失调也不利于免疫系统重建,延长了患者处于免疫缺陷状态的时间,使机会性感染、疾病复发或第二肿瘤的发生风险大幅增加。目前,很难制定一个最佳方案在防治移植物抗宿主病的同时,又能促进免疫重建和维护正常免疫功能。 

此次未知君获得临床试验批准的FMT药物,其原理是将患者体内遭破坏的肠道菌群置换成健康菌群,与移植入患者体内的造血干细胞共同成长,在不影响防治移植物抗宿主病的前提下,帮助机体重建免疫系统,让病人在治疗和恢复过程中减少抗生素的使用。

在肠道菌群的参与下,重新建立的免疫系统更加完善、稳定,有望减少疾病复发、缩短病人愈后、延长无进展生存期,给大量患者带来福音。此外,FMT药物还具有副作用低、安全性高等先天优势。

相较于传统制药行业,目前还没有任何一款微生态药品在全球范围内正式批准上市,在中国甚至整个亚洲,微生态制药更是处于起步阶段。

此前,粪菌移植大多以医疗新技术的形式开展,而未知君将这一治疗手段以微生态制药的方式呈现。

未知君方面介绍,粪菌移植治疗此次以药品化的形式“落地”,是公司的一大突破性进展。此类治疗通常操作复杂,并且菌液需要随制随用,不便于保存。

而未知君通过自有技术,将活菌成分以胶囊的形态保存,弥补了传统治疗方式在运输和时效性上的不足,让粪菌移植治疗变得更加可及。

虽然FMT药物拿到美国FDA的IND批件在亚洲尚属首例,但在欧美地区,美国FDA已经批准了一系列类似药物进入临床试验。

基于这个原因,未知君选择先在美国FDA进行审批,一方面可借鉴其意见经验,指导生产研发,一方面也希望能通过此次申报,推动行业在国内的规范和发展。

一家来自深圳的微生态制药企业,“挑战”美国FDA,其申报之路绝非一番风顺。即便美国FDA对FMT药物的审批经验相对丰富,但面对中国药企提交的申报,还是存在保守的一面。很多安全性审查项目和国内的侧重点不同,给研发团队带来很大挑战。

比如,除了常规项目外,针对一些美国流行广泛而在中国鲜有的细菌及寄生虫,美国FDA同样会进行严格的审查。为了满足其严格的审核要求,未知君投入大量时间和资源,终于解决了由于中美大环境的不同,给申报环节带来的种种问题,通过了美国FDA的审查。

此外,FMT药物以活菌作为有效成分,开发流程复杂;未知君在供体筛选、制备工艺等方面,一直以极高的标准和要求,来规范自身的研发和生产。

供体筛选方面,为避免因疫情带来的新冠病毒粪便传播风险,未知君在原本就高于同类企业的筛查标准上,对供体实施了更高规格的健康监测和更多的粪便检测项目。结合国内知名专家的临床意见,研发团队还梳理出一套沿袭并高于美国及欧洲共识标准的供体管理方案,包括问卷初筛、临床检测及固定时间窗口的重筛等。

生产平台搭建方面,微生态制药和传统药企的做法差别较大,FMT药物原材料的特殊性,导致在生产过程中的质量监测和检测十分困难。

未知君经过多次生产流程优化,逐步缩小了批次间的差异,在药物获得美国FDA批件的同时,也迎来一个“彩蛋”——建成了一套在生产流程、工艺、质量标准等方面均获得美国FDA认可的微生态药物生产体系。

近年来,随着生命科学领域新技术的发展,人们发现,肠道菌群与人体的很多功能密不可分,有人甚至称其为人体的“另一个器官”。

粪菌移植治疗,是对严格筛选出的健康人的粪便进行处理,提取粪便样本中的菌群,用灌肠等方式对患者的肠道菌群进行替换。未知君研制的药物胶囊,可通过口服方式把健康的菌群移植到患者体内,逐渐替换患者原本的肠道菌群,从而改变其身体机能,达到治疗疾病的目的。

据介绍,未知君是目前国内领先的专注于肠道微生态治疗的AI制药公司,旨在通过微生物技术、AI技术和生物信息技术,利用活体生物药和微生物小分子调节剂实现疾病的缓解或治疗。拥有多组学计算、关键菌发现、培养组学、动物模型验证、微生态药物生产等六大平台。雷锋网雷锋网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/kyDgdZdbnyoDp7Gk.html#comments Thu, 16 Sep 2021 17:49:00 +0800
加速管线候选药物临床试验,因明生物完成近5000万美元A+轮融资 //m.drvow.com/category/shengwuyiyao/mzFQEGvdcgt6f15n.html 雷锋网消息, 近日,First-in-Class药物研发企业因明生物宣布完成近5000万美元A+轮融资。

原有投资方高榕资本、境成资本、花城创投继续追加投入,新投资方济峰资本、逸仙电商、海松资本、倚锋资本、泰欣资本等在本轮融资中加入,助力因明生物加速发展。

因明生物成立于2019年10月,拥有由多名顶级科学家、专家组成的研发团队和具有全球影响力科学家组成的科学委员会。

在眼科药物、新型医美药物、小分子免疫药物及细胞治疗等领域在研产品十余种,绝大部分均为具有竞争力的突破性First-in-Class创新药物,且主要产品均已完成前期研发或已经实现了产品化。其中,针对干性AMD的First-in-Class眼科新药已于今年5月通过美国IND,正式开展I期临床试验。

因明生物联合创始人、CEO张岩介绍:“在将近6个月的时间里,因明生物连续完成了两轮融资,累计融资金额近1.1亿美元。我们非常感谢新老投资人对因明生物的认可和支持。2021年以来,因明生物进入快速发展的阶段,干性AMD、新型肉毒素、以及全新小分子免疫药物等重磅管线的候选药物已经或即将按计划进入中美两国的临床试验。我们将继续努力,坚持知因、明医、为人的使命,使因明生物成为一家具有全球竞争力的生物医药公司,为人类健康做出贡献。”

高榕资本创始合伙人张震表示:“因明生物作为一家平台型生物医药公司,坚持走原创研发First-in-Class药物的技术路线。我们非常认可因明研发团队对于疾病机理和成药机制的深刻理解,希望通过因明团队的超强执行力和国际化视野,在眼科、医美、免疫治疗等大赛道开发出具有全球影响力的重磅药物。”

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/mzFQEGvdcgt6f15n.html#comments Mon, 13 Sep 2021 17:32:00 +0800
一个大脑神经元相当于5到8层人工神经网络?生物神经元计算复杂度可能远远不止于此 //m.drvow.com/category/shengwuyiyao/IgWvUAdDuDJwr72d.html

虽然我们糊状的大脑似乎与计算机处理器中的芯片大相径庭,但科学家对两者的比较已经有很长的历史。正如阿兰·图灵在1952年所说:“我们对大脑像冷粥一样的稠度不感兴趣。”也就是说,媒介并不重要,重要的是计算能力。

如今,最强大的人工智能系统使用基于深度学习的机器学习方法,该算法通过调整大量的数据隐藏层相互连接的节点来拟合数据,这些节点形成的网络被称为深度神经网络。顾名思义,深度神经网络的灵感来自于大脑中真实的神经网络,这些深度神经网络的节点以真实的神经元为模型。根据20世纪50年代神经科学家对神经元的了解,当时一种有影响力的神经元模型被称为感知器,从那时起,我们对单个神经元计算复杂性的理解逐渐加深,人们了解到生物神经元比人工神经元更复杂,但是复杂的程度是多少?不得而知。

一个生物神经元可以和5到8层人工神经网络相匹敌

为了找到答案,耶路撒冷希伯来大学的David Beniaguev, Idan Segev和Michael London训练了一个人工深度神经网络来模拟生物神经元的计算。该研究表明,“一个深度神经网络需要5到8层相互连接的人工神经元来才能表示单个生物神经元的复杂性。”

Beniaguev也没有预料到这种复杂性,“我原以为它会更简单,更小。”Beniaguev如是说。他原来预计三到四层就足以捕获单元内执行的计算。

在谷歌旗下的 AI 公司 DeepMind 设计决策算法的 Timothy Lillicrap 表示:“新结果表明,可能有必要重新思考,以前将大脑中的神经元与机器学习背景下的神经元进行不精确的比较的旧传统 。”,他认为“这篇论文确实有助于人们更仔细地思考这个问题,并搞清楚我们可以在多大程度上进行类比。”

人工神经元和真实神经元之间最基本的相似之处,在于它们处理输入的信息的方式。这两种神经元都接收输入的信号,并根据这些信息决定是否将自己的信号发送给其他神经元。人造神经元是依靠简单的计算来做出决定,但数十年的研究表明,生物神经元的这个过程相对来说更加复杂。

计算神经科学家使用输入-输出函数,模拟生物神经元的长树枝(树突)接收到的输入的信息与神经元决定发送信号之间的关系。

这项新研究的作者使用一个人工深度神经网络模仿这个函数,以确定关系的复杂程度。他们首先对老鼠的大脑皮层中的神经元的输入输出功能进行了大规模模拟,这种神经元的顶部和底部都有不同的树突分支,被称为锥体神经元。然后,他们将模拟结果输入到一个深度神经网络中,该神经网络每层最多有256个人工神经元,他们不断增加层数,直到在模拟神经元的输入和输出之间达到毫秒级99%的准确率。

最后,深度神经网络成功地预测了大脑神经元的输入-输出函数的行为,结果表明:深度神经网络至少有5层相互连接的人工“神经元”,但不超过8层。在大多数网络中,一个生物神经元就相当于大约 1000 个人工神经元。

神经科学家们现在知道,单个神经元的计算复杂性,比如左边的锥体神经元,依赖于树突状的分支,这些分支会受到传入信号的轰击。在神经元决定是否发送自己的信号“尖峰”之前,会导致局部电压的变化,以神经元的颜色变化来表示,红色表示高电压,蓝色表示低电压。这个“尖峰”出现了三次,如图中右侧的各分支的轨迹所示,这里的颜色代表了树突从上(红色)到下(蓝色)的位置。

——David Beniaguev

贝勒医学院(Baylor College of Medicine)的计算神经科学家安德烈亚斯·托利亚斯(Andreas Tolias)说:“(这个结果)为生物神经元和人工神经元之间搭起了桥梁。”

这一研究的其中一个作者London对人们提出了警告,他认为,“人工神经网络中有多少层和网络的复杂性之间的关系并不明显,不是直接的对应。”因此,我们不能确切地说,从四层增加到五层会增加多少复杂性。我们也不能说1000 个人工神经元就意味着生物神经元的复杂度恰好是人工神经元的 1000 倍。说不定,我们可以在每一层中使用成倍的人工神经元,最后能形成只有一层的深度神经网络来拟合一个生物神经元。当然,算法学习可能因此需要更多的数据和学习时间。

London表示:“我们尝试了多种不同深度和不同单元的架构,但大多都失败了。”

该研究的作者们分享了他们的代码,以鼓励其他人找到一个层次更少的解决方案。但是结果表明,找到一个能以99%的准确率模拟生物神经元的深层神经网络是很难的。因此,这些作者们相信,他们得出的结果确实为进一步的研究提供了有意义的比较。

Lillicrap认为,这一研究结果对于将图像分类网络与大脑联系起来,或许可以提供一种新方法。图像分类网络通常需要 50 层以上,如果每个生物神经元都近似于一个五层人工神经网络,那么一个有50层的图像分类网络就相当于一个生物网络中的10个真实神经元。

这一研究的作者还希望他们得出的研究结果能够被用于改进 AI 领域目前最先进的深度网络架构。

Segev指出,“我们建议,可以尝试用一个代表生物神经元的单元来替代深度神经网络中的简单单元,使其更接近大脑的工作方式。”在这种替代方案中,人工智能研究人员和工程师可以插入一个五层深度网络作为“迷你网络”,取代每一个人工神经元。

有质疑也有肯定

但有些人怀疑这一研究是否真的对人工智能有益。

冷泉港实验室(Cold Spring Harbor Laboratory)的神经学家安东尼·扎多尔(Anthony Zador)说,“我认为,在这种对比中是否存在实际的计算优势,还是一个悬而未决的问题。”“但是该研究为检验这一点奠定了基础。”

除了人工智能的应用之外,这篇新的论文也加深了人们对树突树和单个生物神经元强大计算能力的共识。早在2003年,三位神经科学家就表明,金字塔神经元的树突树可以通过将其建模为两层人工神经网络来进行复杂的模拟计算。在这篇新论文中,作者研究了金字塔神经元的哪些特征(结构)激发了5到8层深度神经网络的更大复杂性。他们得出的结论是:秘密来自于树突,以及树突表面接收化学信使的一种特定受体——这一发现与该领域之前的研究结果一致。

一些人认为,这一结果意味着神经科学家应该把对单个生物神经元的研究放在更重要的位置。

宾夕法尼亚大学(University of Pennsylvania)的计算神经学家康拉德·科尔丁(Konrad Kording)说:“这篇论文使得我们对树突和单个神经元的思考变得比以前重要得多。”

还有Lillicrap和Zador,他们认为关注一个回路中的神经元,对于学习大脑如何使用单个神经元的计算复杂性同样重要。

无论如何,人工神经网络的研究可能会提供对生物神经元以及大脑奥秘的新见解。

伦敦大学学院(University College London)的计算神经科学家格蕾丝·林赛(Grace Lindsay)说:“从层次、深度和宽度的角度思考,这项工作让我们对计算的复杂性有了直观的认识。”

然而, Lindsay 也警告说,这项新研究仍然只是在对模型进行比较。 不幸的是,目前神经科学家不可能记录真实神经元的完整输入-输出功能,所以可能有更多生物神经元模型没有捕捉到的东西。 换句话说,真正的神经元可能更加复杂。

London表示:“我们不确定,5到8层是否真的是最终的极限。”

参考文章:https://www.quantamagazine.org/how-computationally-complex-is-a-single-neuron-20210902/

雷锋网雷锋网雷锋网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/IgWvUAdDuDJwr72d.html#comments Fri, 03 Sep 2021 18:06:00 +0800
牵手日本药企、加码AI新药研发,平安的「医疗生态圈」版图不断扩容 //m.drvow.com/category/shengwuyiyao/bFVRq75fNffs59fi.html

雷锋网消息,7月29日,由平安与日本盐野义合资成立的平安盐野义有限公司(以下简称“平安盐野义”)正式在上海开业。平安盐野义将从未病护理、预防、诊断、核心治疗药及跟踪回访等阶段提供包括运动、非处方药、疫苗、新药等健康管理方案 。

中国平安联席CEO陈心颖在开业仪式上的视频致辞中谈到:“对平安集团而言,医疗生态圈是我们长期坚持的核心战略之一。平安盐野义合资公司是平安在医疗生态圈的又一重要布局。”

平安盐野义董事长兼CEO吉田达守则表示:“平安盐野义将融合中国平安集团世界一流的AI技术,和盐野义制药的新药研究经验,不断颠覆制药行业的现有常识、积极创新,为中国人民的健康做出贡献。”

近年来,平安在医疗领域不断发力,建立并完善了一个覆盖监管方、医生医院、第三方检测、药品器械厂商等在内的医疗健康生态圈。而这个面向未来的医疗健康生态圈,也不断显现出深远的成效。

平安有支AI制药团队

此前,平安集团首席医疗科学家谢国彤曾表示,平安科技要打通和击破的是涉及诊前、诊中、诊后的整套疾病管理生命周期。

具体而言,是从诊前的分诊、预测、筛查,到诊中的诊断治疗,到诊后的随访、患者教育一整套生命周期里,如何利用技术针对影像数据、文本数据、病例数据的挖掘变成模型,从而提高医生的工作效率,并帮助医生解决比较困难的问题。

但是从行业现状来看,多数AI企业的重心放在诊前以及诊中的诊断环节。“三分靠院内治,七分靠院外养”,除了三甲医院和基层医疗的庞大AI辅助诊疗等需求,院外的AI应用场景有很大的空间,这其中很重要的一环就是药物研发。

据了解,2020年4月,平安的人工智能药物研发团队成立,初衷就是用AI寻找药物研发的市场空间和机遇。药物研发是一个需要大量数据密集计算的领域,从上亿个分子中去寻找,从无数临床试验中去探寻,最后看到底什么物质最有可能成为药。

如今,一款创新药的研发全流程花费动辄十亿美元,时间跨度也长达十年。但其中的每一个环节,都有很多可以用算法优化的地方。

2020年,被称为AI制药的“元年”,国内获得融资的AI药物研发企业有8家,总额达14.16亿美元——合人民币近百亿元。

此外,百度、腾讯、字节跳动等互联网巨头也相继入局。一时间,AI药物似乎成为了下一个“现象级”的创业赛道。入局企业虽多,但是结合AI的理念革新以及医药行业整体的智能化水平来看,药物研发的布局基本处于起步阶段。

而平安所掌握的医疗AI技术、海量数据和专家知识,以及构建的医疗生态圈,可以赋能AI制药的研发、制造、销售等全链条,助力平安在AI制药赛道保持良好的初速度和爆发力。

更应该注意到的是,平安还可以通过自己强大的网络,将来自患者,或者是医院等专业医疗机构的数据开展真实世界的证据分析,反哺至上游的研、制环节,打通产业链的全部环节,真正实现一个高效、闭合、接地气的医疗健康生态圈。

在人工智能应用中,除了算法、算力、数据三要素外,现在尤其强调知识这一新要素。平安智慧医疗已经构建了药物研发知识图谱,覆盖3亿的节点和1亿的关系。

同时,平安与拥有丰富知识及强大药物研发能力的盐野义制药已成立合资公司,结合盐野义制药的优势及平安在大数据和人工智能的分析科技,双方深耕AI药物研发平台,进而高效地制造和提供高增值的创新药物和医疗健康服务,并为客户提供量身订造的解决方案。

平安方面表示,AI制药团队的中短期目标主要与盐野义制药开展合作,用AI技术赋能抗感染和中枢神经系统疾病领域的新药研发。

远期目标是融合平安积累的科技创新,以及盐野义作为药物发现导向型制药公司的专业优势,赋能AI药物研发,提升中国医药健康的服务水平,并以科技赋能医疗健康行业,为客户提供更多元化的医疗健康服务。

 顶会接收、竞赛出色,平安AI制药技术有何亮点?

近年来,平安持续投入建设医疗生态圈,其根源在于,平安有过去几十年的积累和日益强大的科技能力为基础。

根据平安2020年报显示,截止到2020年12月末,平安集团科技专利申请数累计达31412项,较年初增加10029项,位居金融科技、数字医疗专利申请榜单全球第一位。

因此,凭借以往的技术底子,从2020年4月成立人工智能药物研发团队以来,平安一直在低调布局、潜心科研。在短短一年多后,平安科技团队就产出了多项世界级的重磅成果。

据雷锋网了解,近日,平安医疗科技研究院和清华大学联合在计算生物学顶级期刊Briefings in Bioinformatics发表论文(2021年SCI影响因子11.62)。依托平安赛飞AI平台和AskBob智药平台,平安和清华大学双方在选题创新探索、大规模预训练试验、论文发表、赋能新药发现等环节密切合作,平安医疗科技研究院首次在计算生物学领域发表用于药物发现的分子预训练模型。

平安医疗科技研究院通过分布式训练加速算力和自主研发的预训练算法,从超过1100万的分子化合物中以自监督学习方式,训练出具有5300万参数药物分子模型MolGNet,实现优异的分子表征能力。

值得注意的是,5300万参数,这样的参数规模已然不小。

平安科技深度学习平台团队副总工程师高鹏博士表示,MolGNet模型对药物分子表示的性能超越了业界当前,因为精巧地整合了分子图数据中节点(原子)和边(化学键)的消息传递,5300万参数算是最具性价比的规模(参数量虽然没有NLP语言模型的亿级规模大,但是可以较好地解决药物分子表示学习问题)。

据了解,MolGNet通过学习海量未标记的化学分子,在药物研发领域的三大类任务(DDI药物相互作用预测、DTI药物活性预测和药物生化性质预测)中的14项子任务上超过了当前业界最先进的模型算法(包括斯坦福大学、腾讯、中科院上海药物研究所等在顶会NeurIPS2020、ICLR2020等发表的技术,其中药物相互作用预测平均超过8%,性质预测任务平均超过13%)。

高鹏博士向雷锋网表示,药物性质预测、DDI药物相互作用预测、DTI药物活性预测这三类任务,是临床前药物发现中围绕药物最常见和重要性排前列的任务场景,也是缩小和聚焦目标药物化学空间的关键指标和筛选利器。

基于上述三类预测技术,能够为抵消传统药物开发方法中出现的效率低下和不确定性提供机会,同时将过程中的偏见和人为干预降至最低。

换言之,MolGNet从设计之初,就是为了破解AI新药研发中最核心、最重要的几大问题。从现实成绩来看,MolGNet模型确实展现出了超强的实力。

去年,平安医疗科技研究院在美国麻省理工学院(MIT)主办的国际顶级生物医药发现比赛AI Cure Open Tasks上夺得新冠肺炎继发感染药物抗菌性预测冠军,击败了包括MIT、斯坦福大学、美国临床免疫疗法公司Vir Biotechnology在内的众多知名高校和企业。其预训练算法PHD也在今年全球顶级人工智能国际会议IJCAI 2021发表(4204篇投稿,接收率13.9%)。

被IJCAI这样的顶会接收,足见MolGNet模型的含金量。

目前,MolGNet模型已经作为基础模块集成到平安AskBob智药平台,赋能与盐野义合作的抗炎症和中枢神经类疾病的新药研发中,未来适时会考虑将其开放给业界。

对于客户或者使用者来说,不需要繁琐的部署便可通过平安AskBob智药平台和底层的赛飞AI平台,应用这套模型实现各自在制药场景中需要的预测结果。

AI新药研发,平安生态圈的下一个重要拼图

传统的制药行业对于AI的态度正在经历从怀疑到兴趣,AI与制药行业的核心业务深度融合,需更深刻的行业知识与更高的技术保障。

这次用于药物发现的分子预训练模型的推出,将是平安医疗生态圈建设的一个良好补充,从而形成医疗AI更完整的链条和闭环效应,加强中国的健康及医疗服务水平。

马明哲发表在《人民日报》的署名文章中写到,平安的温度,是助力健康中国建设、构建适老社会的担当。从机构、用户、服务方、支付方和科技五大方面,着力构建医疗生态闭环。从上述的几点出发,平安正在举全集团之力构建涵盖“用户—服务商—支付方”的全方位医疗健康生态圈闭环:

通过平安好医生、平安寿险、平安养老险、平安健康险等子公司,服务广大线上线下个人客户

通过平安智慧城市业务中的智慧医疗团队及平安好医生平台,赋能政府监管部门和医疗服务各参与方

通过平安医保科技建立的智慧医保一体化及智能医疗管理平台,赋能医保局、商保公司等支付方

更进一步地看,虽然此次技术创新被应用于药物发现的分子表征,但这项技术极为通用,可以适用于其他领域的图表示学习,例如推荐系统、用户画像、金融分析、社交网络和知识图谱等业务场景。

正如马明哲在2020年中国平安年度报告董事长致辞中所说的,“战略创新上,积极部署未来,金融是平安的现在时,医疗是平安的未来时。我们将从医疗管理机构、用户、服务方、支付方、科技五方面加速构建医疗生态闭环,助力‘健康中国’建设。”

而平安正在一步步走在既定规划的未来蓝图中。

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/bFVRq75fNffs59fi.html#comments Thu, 05 Aug 2021 11:58:00 +0800
新药开发、疾病判别...我们还是低估了「AI+蛋白质组学」的威力 //m.drvow.com/category/shengwuyiyao/8OjYSTc1aMQEZMCa.html 1987年,《纽约时报》杂志曾将人类基因组计划描述为“历史上最大、最昂贵、最激进的生物医学研究计划。”

但此后三十年时间,测序技术的进步,却让基因组学这一技术,成为这个世纪最主要的医学科研进展之一。

其不仅改变了医学研究的性质,也让科学家能够进行全面且强大的探索,据美国银行预测,到2025年,与基因组学直接相关的研究产业就会达到410亿美元。

而今,同样的故事也在蛋白质组学研究出现,在人类基因组计划完成之后,就有科学家在《Science》和《Nature》杂志兴奋预言,蛋白质组学时代即将到来,并将取代基因组学成为生命科学研究的焦点。

西湖大学特聘研究员、西湖欧米创始人郭天南表示:一切生命的表现形式,本质上主要就是以蛋白质为主的生物分子的体现,而蛋白质被认为是一切生命活动的齿轮,也是药物作用的最主要靶点。完整意义上的蛋白质组学,能够对健康和疾病的发生、发展、转归等过程有一个全面的认识,把握疾病诊治的关键,提高药物开发的效率。

近些年,随着蛋白质组大数据和人工智能技术的出现,这一研究领域获得了极大的加速,并展现出非常广阔的前景。

近日,雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题,邀请燧坤智能、英飞智药、宇道生物、西湖欧米、华为云,五家先锋企业,举办了一场云峰会分享。

作为此次论坛的嘉宾,西湖欧米联合创始人、董事长郭天南以《蛋白质组大数据联合AI在药物开发中的潜在应用》为题,进行了演讲。

郭天南表示:目前,微观生物世界数据仍是一个黑盒子,成年人身体大约有30万亿个细胞,即使一个非常简单的真菌细胞也有4千万个以上蛋白质,而且这些细胞里面蛋白质数量也是目前难以估量的复杂存在。

虽然,我们看不到这些微观世界的数据,但这与我们的生命和健康都有重要的意义。

以甲状腺结节良、恶性判断为例,大约50%以上成年人都有甲状腺结节,其中绝大多数结节都是良性,但同时也有30%结节无法诊断,如果不切除可能危及生命,如果切除发现是良性可能过度治疗,因为患者并不需要在当前这个阶段切掉甲状腺。

过去四年,郭天南的团队和多国合作者一起,从蛋白质组数据出发,引入神经网络等技术开发了判断甲状腺结节良、恶性的新方法。

该方法通过和新加坡、西湖大学等科研机构合作,对超过6000多个蛋白质组数据做了测试和鉴定,得到新型甲状腺结节鉴定方法ThyroProt (version1),使甲状腺结节良恶性诊断特异性达到93%以上。

目前,该技术和方法正在通过西湖大学校办企业西湖欧米进行临床转化。

以下是演讲全部内容,《医健AI掘金志》做了不改变原意的整理和编辑:

大家晚上好,我是郭天南,是西湖大学特聘研究员、博士生导师,西湖大学蛋白质组大数据实验室负责人,西湖实验室iMarker实验室主任,西湖欧米创始人。

很高兴跟大家进行分享,今天的演讲题目是“蛋白质组大数据联合AI在药物开发中的潜在应用”。

大数据实际上是目前我们数字经济时代的“石油”,它的价值甚至比石油更加昂贵。

观察家们预计,数字经济将成为全球经济与国家竞争力的又一个分水岭。

新冠疫情全球爆发,更是加速这一进程,我国计划总投入50万亿元来推动“新基建”的建设。

据统计,4年之后,全世界的数据量将达到175ZB,相当于1750亿TB,90%以上的数据是过去5年产生,所以今后5年产生的数据可能会更快。

而几个主要存储数据的公司都是科技企业。例如Google、Facebook、Microsoft和Mmazon都存储了至少1200PB信息,数据应该是目前经济数据及科研的一个制高点。

我们发现这些数据很多来自于旅行、教育、通讯、购物平台等,主要是文本、视频、声音、图片等形式,普遍都是宏观世界数据,也有一些健康和生命相关数据,例如什么病应该挂哪一科室,找哪一个医生等等。

前面提到全部都是人类宏观世界数据。地球约有70亿人,像杭州、苏州常住人口有1000多万人,每天产生大量宏观世界数据。但我们还缺乏微观世界的数据。

我们看不到的微观世界目前像是一个黑盒子,一个成年人大约有30万亿个细胞,即使一个非常简单的真菌细胞也有4000万个以上蛋白质。

我们人类一个细胞蛋白质数量远远高于4000万个蛋白质。每个细胞都有独特特征,每个细胞里面蛋白质数量是目前无法估量的复杂存在。

虽然我们肉眼看不到,但可以通过一些模拟,一个视频感受我们体内的蛋白质机器。例如新冠病毒入侵,将会引起人肺内细胞蛋白质反应。这是我们看不到的过程。

但如果我们有技术把细胞放大几万倍,就可以看到里面存在一个全新世界,各种各样蛋白质机器有条不紊的运动、变化。我们虽然看不到它们存在,但蛋白质组世界同我们健康息息相关。

再举一个例子,这是一个ATP合成酶动画。1997年,获得诺贝尔化学奖的三位科学家发现了这样一个蛋白质机器。

这个机器可以不断旋转,可以让我们吃的食物变成以ATP为主的能量分子,这些红色、绿色、黄色、蓝色就是分子马达不同部件,他们的运作同我们宏观世界的汽车和机械表里面的零件很相似。只是生命活动分子马达不需要电流作为能源来源,是通过我们生物能量来运作。

现在我们有技术可以将这些蛋白质动态变成数据,即蛋白质组大数据。

这里举一个例子,图中每一个像素点都是一个蛋白质片段和一个多肽片段,红色表示片段强度比较高,黑色表示片段强度比较低。

如果我们将动画平铺到一张图上,大家可以看到像竹简一样一列一列,这就是微量组织产生的蛋白质组大数据视觉化呈现。

将其中4条挑出来横着放,可以看到它们具有高度复杂的内容,如果再将其中很小一个区域放大,可以看到像宇宙一样的星空图。

宇宙里有很多点红的、绿的、灰色的,像浩瀚宇宙一样神秘,这里每一个点对应都是体内蛋白质信息,目前人类对蛋白质组了解非常少。

我们团队现在建立了蛋白质大数据新数据结构,叫DIAtensor (DIAT)。有了这样数据结构,就可以很方便将蛋白质大数据进行视觉化、转换为各种格式,并且进行深度学习,回答生物医学健康相关问题。

下面列举几个案例,第一是新冠疫情刚开始阶段,我们与浙江省恩泽医院、迪安凯莱谱一起合作的项目。

武汉疫情报道出来之后,大家非常关注,怎么样鉴定哪些新冠患者是重症,因为大部分成年人感染新冠病毒之后没有任何症状,我们体内免疫力可以杀死新冠病毒。

据统计大概80%感染新冠是轻症,绝大部分轻症患者只要居家隔离,吃简单抗病毒药物,就可以得到有效治疗,直至自愈,甚至不经过治疗也可以痊愈。

但有20%症状新冠患者会出现非常不好情况,呼吸困难,如果不吸氧、不用呼吸机就可能死亡。如果能够及早发现重症患者,就可以很有效地利用宝贵的 ICU病房等资源。

当时,要判断患者是否为重症,只有当患者呼吸困难、血氧指数下降非常严重、进入ICU时才能够得到鉴定。

我们去年和医院合作,做了一个基于蛋白质组学和AI的新诊断方法,可以从血液里的蛋白质、代谢等特征建立模型,提前预判哪些病人会出现重症,准确度有93.5%。

但其中有两个患者经常不准确,我们发现其中一个患者模型跟临床不相符,是XG3患者,他是一个轻症患者,但模型认为他是一个重症。

后来发现这位轻症患者是一个70岁男性,虽然是轻症,但他是整个研究队列里年龄最大,所以虽然是轻症,但他的血液分子特征却提示和重症患者更相似。

上图中,是一个独立训练验证集,共有10个病人,其中1个患者是XG45,临床诊断是重症患者,但模型把他划在虚线左边,认为他和轻症患者更相似。

后来临床审核发现,这位患者是一位62岁男性,入院之前经过20多天中药和抗病毒治疗,所以临床上虽然表现为重症,但实际其分子特征和轻症更加相似,所以通过分子检测可以看到临床表现之外的一些蛛丝马迹和预兆。

在图中下方是一位XG22轻症患者,但模型认为是重症,和临床医生反复的核实临床资料,发现患者有乙肝传染史、糖尿病,虽然是轻症,但住院时间是所有患者最久,甚至我们至今也不知道他为什么50多天才转阴。

此外,在后续训练中,我们也发现还有十几位病人经过分子检测和AI预测,和临床诊断也不太相符,最终才知道来自底层的分子诊断可能会更加精准。

例如,样本X2-22在患者里分数最低,甚至比重症患者打分更低,但临床认为他是轻症。

临床审核这个患者是一位66岁女性,在采血当天血糖达到27.8mmol/L,正常应该不超过6.1mmol/L,她当时处于非常危险的高血糖危象,好在恩泽医院对她进行了救治,如果晚一些,患者有可能就会因为高血糖危象而失去生命。

所以我们如果提前有分子检测模型,就可以预测哪些患者更严重,使用蛋白质检测和AI模型监测病人病情,可以达到非常好效果。

宏观世界上看不到一些分子机理也可以通过蛋白质检测来实现,例如找到药物靶点。

例如,我们今年完成的一篇发表在CELL上的工作,将当时在武汉协和医院因为新冠而不幸离世的患者进行尸检,观察死亡患者的心、肝、脾、肺、肾、甲状腺、睾丸等组织器官的细胞层面改变。

过去对类似新冠疾病等未知疾病的理解,通常是宏观世界症状为基础,将组织用显微镜放大,通过病理技术检测了解疾病对人体影响,但这样的检测并不能知道什么病因导致患者死亡,也不能告诉我们什么样药物,让病人病情逆转,降低死亡率。

我们通过蛋白质检测可以获得底层信息,对每一个器官蛋白质发生的改变进行鉴定。

图中标色的蛋白质都是在心、肝、脾、肺、肾、甲状腺、睾丸等里面死亡患者的高蛋白表达,这可能是他们治疗的靶点。

这两个案例说明对于人体所有组织器官、液体、体液等都可以进行蛋白质分析,只要有生命就有蛋白质,有人体活动就有蛋白质变化。

我们可以从血、尿、眼泪等体液中鉴定到大量蛋白质,例如眼泪里有数千个蛋白质、脑积液、唾液、活检组织、肿瘤组织、冰冻组织、石蜡组织细胞、头发、牙齿、指甲、骨骼、粪便也含有大量蛋白质。

极小量样品,小到一个芝麻的1/10或者是一滴血的1/10,或者是几滴尿液,可以进行有效蛋白质组分析。

大多数人认为蛋白质鉴定比较贵、慢。但现在随着技术改进,实验室每天可以快速处理数百个蛋白质组,产生大量用于AI分析的数据。

图中一个石蜡组织里大部分都是石蜡,肿瘤组织极少,从这么小组织中提取的蛋白质可以进行几十次蛋白质组分析,实现定量组织的蛋白质组全面分析。

例如这张图,是目前广州健康营养队列以及西湖大学郑钜圣团队一起合作的蛋白质组项目,项目分析大约18000个血清蛋白质组,进行了代谢综合征预测。

代谢综合症就是三高,高血压、高血糖、高血脂患者和亚健康状态患者。

他们从2008年开始,对大约两千个人进行监测,通过临床资料,采集血、尿、粪便等,2014年又随访了1800多人继续研究,2018年还有1179位仍然在参与这个项目。

目前的设备用1微升血提出的蛋白质,就足够做几百次蛋白质组分析,20分钟就可以分析一个样品蛋白质组。

现在分析速度提高,5~10分钟就可以做一个样品,分析成本又降低数倍。

我们一共鉴定300多个蛋白质组,建立了机器学习模型,准确度差不多达到80%,这个数据是几个月前的,最近我们又取得新进展,可以达到约90%准确度。

仅仅通过不到一滴血的12个蛋白质,就可以预测一个人10年当中是否会出现代谢综合征,这样技术对健康状态监测有非常好的应用前景。

此外,新冠病毒研究也有了新发现,通过尿液里蛋白质结合鉴定新冠轻症和重症。

医院检测尿蛋白是比较传统的方法,尿蛋白非常高的时候才能测出,而我们通过灵敏蛋白质组技术,发现健康人尿里也有数千个蛋白。

血液蛋白质基本都可以在尿里检测出,肾小球重吸收导致血高丰度蛋白大大降低,所以可以看到更多蛋白质。

我们通过分子量分析发现,尿液蛋白质分子量大小同血液没有明显区别。

而且,我们的多个研究还发现细胞因子风暴、免疫治疗或其他疾病中,尿蛋白都有非常重要指示作用。

尿蛋白质组数据结合机器学习可以进行新冠轻重症判断。如图所示,红色颜色越深代表预测效果越好,准确度越高。

最后列举一个甲状腺结节分析案例,甲状腺每个人都有,在脖子下面像蝴蝶一样的小器官,只有十几克。

甲状腺结节也常见,50%以上成年人都有甲状腺结节,年纪越大发生率越高,大部分经常吃海鲜的人甲状腺结节概率高达90%以上。

甲状腺结节分恶性和良性,恶性医生会建议全切或半切除,但甲状腺是非常重要的激素器官,患者切除后需要终身服药,情绪上也会有变化。

目前,有30%结节是无法诊断良恶性,当出现无法诊断结节,病人和医生都会感到巨大压力,如果切除可能是过度治疗。

因为患者并不需要在当前阶段切掉甲状腺,所以就涉及到精准诊断问题。

从十几年前开始,基因测序技术成熟之后,美国FDA就已经批准多个基因诊断试剂盒,通常测量几十,甚至一百多个基因DNA和RNA来诊断甲状腺结节良恶性。

经过权威杂志Nature Reviews Endocrinology 在2018年评估,这些基因测序检测结果灵敏度可以达到83%~100%,即如果结节是恶性,检测试剂盒基本可以判断出来,但特异性只有10%~52%。

换句话说试剂盒判断是恶性结节实际有大约50%~90%是良性,最后会让最高达90%的患者有过度治疗危险。

过去四年,我们首次用蛋白质组大数据结合神经网络,开发了判断甲状腺结节良、恶性的新方法,前面所有诊断方法都是基于基因,而基因跟蛋白质相比疾病相关性相对弱一些。

基因会有很多改变,如果不在蛋白质水平得到体现,很难影响到疾病发生和进展。

而蛋白质检测难点在于,如何处理小量组织,鉴定更多蛋白,稳定进行蛋白质定量,我们已经有效解决这些技术难点,也开展多中心临床研究。

我们同新加坡Gopal和Kon教授等团队合作建立训练集,采集了578个患者样品。

新加坡是海边城市,人吃海鲜比较多,甲状腺结节也非常多,我们做了1700多个蛋白质组,同时在中国也做了回顾性研究,有3个中心纳入271个患者;后来又做了前瞻性研究,纳入255个患者,目前这些还都是尚未公开发表的前期数据。

我们用微量组织高通量蛋白质定量方法,总共鉴定6000多个蛋白,其中神经网络分析是西湖大学李子青教授团队完成的。

新加坡样品得到这个模型,在回顾性队列和前瞻性队列综合都达到90%以上准确度。

将蛋白质组织更多用于药物开发,是后续非常有信心要做的一件事,药物开发是大家非常关注的焦点。

ThyroProt v1基于蛋白质检测方法,同发表在New England Journal of Medicine的基因诊断方法相比,灵敏度要稍弱一些。

这因为目前蛋白质诊断甲状腺诊断主要问题是特异性,基因检测特异性在50%~81%左右,蛋白质可以达到93%,综合准确度蛋白质是90%以上,基因最高是84%,这是2018年结果。

这个研究说明我们可以对数以千计微量临床样品进行有效蛋白组学分析,并且联合AI改善疾病诊断。 

将蛋白质组技术更多用于药物开发,是我们下一步非常有决心和信心要做的方向,药物开发是大家非常关注的焦点,所有疾病都希望通过药物进行有效治疗。

将三个步骤进行分析,会发现蛋白质组学在药物开发中每一个步骤都有非常大潜作用,几乎所有药物都针对蛋白质发挥作用。

药物临床结果预测,通常需要几个疗程,每个疗程可能需要几个月时间甚至更久。

新冠研究里发现,急性期可能在血液已经出现一些征兆,这和后来反应都有一些复杂关联。已有研究发现,血液里尿蛋白质改变,同几天或几周后临床表现有非常密切关联。

所以我们有信心通过临床试验,加上蛋白质数据,加上模型建立,更快更准确的判断。

目前非常受到关注的两种新型药物,研究历史都有十年或十几年,这些药物得到国内、外非常多关注。

第一类是ADC药物(Antibody-Drug conjugates),它的设计非常巧妙,一个抗体可以结合肿瘤细胞表面一些特异性蛋白,而尾巴上有一些传统毒素,这使得它具有杀伤力同时又具有特异性。

但特异性前提是能够找到只在肿瘤细胞表面的高表达蛋白。

我们团队做了简单调研,自2000年以来,全球共有11个ADC产品在FDA获批上市,主要以癌症为主。

国内ADC稍晚一些,目前ADC药物研发处于初级阶段,有一款药物今年刚刚获得批准。

可以看到Nature Reviews Drug Discovery预测结果,今后5年ADC销量在国外销量会出现非常大提升。

ADC研发及蛋白质组学应用难点,重要就是靶向抗原选择,抗体结合哪些蛋白很重要,这是ADC开发的起点,也是ADC研发企业竞争的热点。

目前,国内已公开研发药物中大部分都是靶向HER2,未来预期会有越来越多ADC药物靶点有待发掘。

蛋白质组学可能有非常巨大作用,团队也在这方面综述,现有蛋白质数据可以看到大肠癌、胃癌、肺癌等等,有非常多潜在药物靶点存在数据当中,我们团队后面会和一些ADC公司合作,寻找新差异化靶点提供支持。

此外是临床试用者选择,这和前面一样,虽然已经找到有效药物,但药物并不对所有人有效。

通过蛋白质组学、质谱检测,可以有效确定患者肿瘤组织里有没有蛋白质高表达,在疾病进展当中有没有改变,通过蛋白质检测针对不同个体情况,提供相对应治疗方案,为助力精准医疗落地提供有效指导。

第二类创新药是PROTAC技术,这个技术可以使以前没有药物的蛋白靶点有效降解,是非常巧妙的体内泛素化系统。

这个药物有两端,一端连接E3连接酶,另外一端连接降解蛋白质,将两端连接到一起后,靶向蛋白就会被泛素化。

泛素化也被称为死亡之吻,蛋白质结合这样一个泛素化蛋白,就会被一个Proteasome机器将蛋白质变成碎片实现降解,这比小分子结合阻断蛋白功能更加直接有效。

目前PROTAC相关药物,国内、外临床研究还比较早期,人类基因组里面有600多个E3连接酶,其中只有非常少数被用于PROTAC设计,这个领域还有广泛开发空间。

表格总结了小分子成功靶向关键靶点,这些靶点不是特别多,据不完全统计全球基于PROTAC技术研发管线有60多个,国内也有好多正在启动。

PROTAC如果成功靶点选择非常重要。哪些蛋白可以被泛素化或者泛素化效率如何?用了药物之后被修饰效率有没有提高?降解程度如何?肿瘤组织和非肿瘤组织有什么区别?哪些蛋白质降解可以全局通过蛋白质组进行系统检测,都是全新的领域。

下图是2015年的文章,文章发现基因组生命科学时代,基因组数据增长更快,把蛋白质加进来增长可能会更快,因为蛋白质比基因更多信息,和生命科学更加相关。

蛋白质组大数据距离我们还有多远?

现在我们拥有将临床样品转化为蛋白质大数据的技术,今后几年我们将产生更多蛋白质组大数据,联合AI可以对生命奥妙和调控有更加深刻的理解。

问答环节

Q1:蛋白质组大数据联合AI诊断疾病准确率高吗?

郭天南:这是一个非常大的问题,应该针对每一个疾病而定。蛋白质大数据可以理解为一个新兴领域,一个新技术,有独特的优势,也具有一些局限性。

我们目前在西湖大学做了几个例子,前面讲的甲状腺结节判断准确率还可以的。目前经过基因诊断准确度,尤其是特异度,都比不上目前基于蛋白质的诊断方法,对于前面代谢综合征预测模型也非常好。

但这种方法是不是对所有疾病都非常好,目前尚没有数据证实或证伪,从理论上看,蛋白质分析应该是任何疾病都需要的。

Q2:蛋白质组中是否含有人类疾病的生物标志物(Biomarker)?

郭天南:肯定是含有的,人类疾病甚至健康状态改变都会涉及蛋白质改变。

说话、休息、吃饭都有蛋白质改变,当然这些改变是背景改变,蛋白质改变可能是正常改变,有些蛋白质在疾病状态下改变。

我们需要通过复杂计算方法挑出疾病有影响的蛋白质。

Q3:BCR-ABL融合基因是什么?

郭天南:这是伊马替尼(imatinib)的药物靶点,《我不是药神》电影原型就是这个。

针对慢性髓系白血病,BCR和ABL本来是两个蛋白,不同染色体编码两个蛋白在某一些白血病当中会融合形成新蛋白,具有非常强酶活性,打破生理平衡引发慢性白血病。

神药出现,实际也是蛋白质检测的一个成功,当然蛋白质水平源于基因表达,蛋白的融合源自基因融合。

Q4:请问针对不同组学方法得到的数据,该怎么整合?

郭天南:我们有很多尝试,没有统一方法可以用于所有多模态、多组学数据,但只要有这样一个临床问题,有这样数据相信一定可以找到方法。

例如甲状腺,我们用蛋白质组数据进行建模,实际我们还有一个正在进行的项目,是将蛋白质跟基因还有超声特征,包括人性别年龄等信息全部整合起来,进行AI建模,这是生命科学的新领域。

听众当中如果有计算机专家,也欢迎你们加入生命科学这个领域,现在是非常激动人心的时刻。

随着更多计算机专家加入,这些整合一定可以更加有效实现,前面提到宏观世界大数据,实际数据结构更加复杂,复杂性不亚于生命科学数据,但照样可以整合起来。

例如搜索Google,可以告诉我们是什么样网页,然后我们看抖音可以推荐喜欢看的视频,这都是通过算法可以实现,在有经验计算机专家看来,问题不是很大。

Q5:痕量样本蛋白检测的重复性能够保证吗?距离临床检测应用还有多远?

郭天南:衡量样品进行检测重复性让我觉得非常惊叹,可以看到我们的数据,训练集都是痕量样品,训练集是来自于新加坡,新加坡有各种人种,生活环境、经度、纬度跟中国都不太一样。

但我们从这些数据训练出的模型,在中国杭州、大连、沈阳患者居然可以适用。并且训练集样品是石蜡组织,在石蜡组织中建立模型,同时在前瞻性新鲜组织里也可以达到90%以上综合准确度。

这个准确度我们都觉得惊讶,非常稳定,但并不表示所有组织和数据都会这么稳定,这里面有很多考量,我们对质控、数据分析要求也非常高。

距离临床应用检测还有多远,我希望在保证质量同时尽快。我们在大学里建立这个模型尚不能直接应用于临床。

我们正在通过西湖大学校办企业西湖欧米进行临床转化,有可能明年会推出通过志愿者进行临床检测。

Q6:蛋白质组中怎么判断哪些蛋白不会相互作用?准确率多高?比判断相互作用困难吗?

郭天南:蛋白质相互作用分析,质谱是可以实现的,如果一个具体问题可以通过一个细胞模型,某个蛋白跟哪个蛋白结合或不结合,都可以通过实验数据以及后续对应分析方法进行监测。

Q7:计算蛋白质组学有哪些应用场景?

郭天南:这太多了,如果我们有蛋白质大数据,其在生命健康的应用场景不会亚于现在宏观世界大数据应用场景。

如果你问我宏观世界大数据有什么应用场景,我可以说它几乎无所不在。我们的衣、食、住、行都跟宏观世界大数据相关,但微观世界数据,一个人细胞数量和地球上所有人数量是同一个量级。

一个成年人有30~70万亿个细胞,很多细胞不断生成降解,像红细胞每隔120天就会生成降解,每个细胞里都有数亿万计蛋白质,这些蛋白质数据包含什么信息,有什么应用场景现在没有人可以估量。

举例说凡是跟生命健康相关的应用场景,都有可能通过蛋白质智能计算获得。

Q8:犹如体检之前会要求禁止饮食,可能会影响体检结果。患者是否有些行为会影响到蛋白质组学的检测结果?

郭天南:我们做了18000个血浆蛋白质组预测代谢综合征,代谢综合征是三高、高血糖、高血脂、高血压,是非常复杂的疾病,遗传因素,生活习惯因素,饮食因素等都会影响到。

我们测出蛋白质组数据,一定会受到各种各样因素的干扰,好在有大数据可以容忍一些变异,容忍噪音,在大数据层面,AI会自动剔除干扰因素,将好的信号提示出来。

虽然我们有几百个蛋白被检测,最后只找到12个最稳定跟疾病最相关,虽然肯定会有影响,但后面会挑出来。

甲状腺结节诊断也测到6000多个蛋白,最后AI模型只发现其中的20个,这种准确度和其它6000多个蛋白相比,还没有达到足够稳定性和信息含量。

Q9:疾病诊断中有没有采用RNA转录组进行判断的?相比蛋白质组哪个更有优势呢?

郭天南:像甲状腺结节的良、恶性判断,基因诊断试剂盒,很多依赖RNA,但为什么会出现很多问题?

因为RNA很容易降解,并且RNA绝大部分不具有生命活动和执行功能分子,目前已经有很多研究表明, RNA和蛋白质相关性并没有那么强。

我们之所以要测RNA,一方面是因为有这样技术很容易检测,另一方面因为希望通过RNA来预测蛋白质,越来越多研究发现RNA并不能完全预测蛋白质表达。

在临床应用中二者很容易降解,像甲状腺穿刺出来,一不小心RNA就会降解,或者测到跟他体内RNA表达并不一致,而蛋白质非常稳定。

研究石蜡组织可以很方便从新加坡接到中国,因为常温保存运输,而石蜡组织里是不能做RNA分析,即使能做测出来结果跟他体内状态也不一样。

我们团队前期做了很多工作,发现石蜡组织和新鲜冰冻组织蛋白质表达非常稳定。

Q10:AI+蛋白质预测这样的前沿技术,目前在产业落地中有哪些比较难的瓶颈?

郭天南:最大瓶颈就是人才队伍。听众里有很多非常优秀人员,可能大家都知道基因组,很多从事生命科学都去做基因相关研究和转化。

也有更多非常优秀年轻人去做AI,像隔壁的阿里或腾讯都有非常高的工资,而在蛋白质这样的领域,联合使用AI还需要进行一定探索,所以如果没有好的队伍,这个领域也很难发展起来。

领域重要性毋庸置疑,现在越来越多人关注这个领域,非常高兴有这么多人参与讨论,相信只要有优秀的人加入,就不会存在什么问题,只是时间的问题,或迟或早,人类总有一天会解密,黑匣子会被打开,我们对生命理解就会更加深刻。

Q11:请问欧米的质谱分析是自己做吗?跟其他做蛋白质谱的企业相比数据方面有哪些优势?

郭天南:我们质谱都是自己做,跟其他企业相比有什么优势这里不便回答。

Q12:郭老师,蛋白质检测技术和基因检测相比,区别和优势有哪些?

郭天南:针对一个难以诊断问题,大家第一想法就是做基因检测,目前基因检测学术上是如火如荼。

从产业上大家都可以做,一个基因突变,哪个公司都可以去检测,没有什么门槛,而蛋白质检测有门槛,蛋白质经过挑选之后只有20个蛋白质,在肿瘤和非肿瘤、良、恶性都有。

但基因突变良性没有恶性有,蛋白质是个连续不一样的变量,通过不一样建立模型,进行更加全面精准判断。

因为生命肯定不会这么简单,用学术术语来说蛋白质表达具有更高颗粒度,内涵更加的丰富,可以精准描述一个生命状态,生命肯定不会像基因突变一样简单,这就是蛋白质优势。

蛋白质检测也有缺点,例如现在没有技术可以很好扩增蛋白质,以前蛋白质检测需要大量组织,很多研究不能够进行,现在可以用比较小微量、痕量组织进行蛋白质分析,很大程度弥补蛋白质基因和蛋白质应用障碍。

很多时候我们能够分析蛋白质组织,基因测序做不了,但蛋白质可以做,像石蜡组织RNA做不了,而蛋白质可以做的非常好。

我们更喜欢用石蜡组织,还有头发,里面除了毛囊之外只有蛋白质,所以头发里面的蛋白质信息是非常丰富,还有牙齿等等。

最后,感谢大家参与这次的交流。雷锋网雷锋网

]]>
生物医药 //m.drvow.com/category/shengwuyiyao/8OjYSTc1aMQEZMCa.html#comments Thu, 29 Jul 2021 10:46:00 +0800