大模型炒热AI制药赛道,生物医药GPT能否打破“10年10亿美元”困境?
作为高投入高风险的创新行业,生物医药行业一直面临着“双10困境”:一款新药的研发至少需要花费10亿美元、10年投入。伴随着AI大模型引领的创新浪潮席卷全球,生物医药产业正在面临新一轮的机遇期。一家初创企业借助大模型的算力,在短短两年内找到合适的抗癌苗头化合物,AI大模型能否真的改变生物医药的“双10困境”?
AI辅助寻找抗癌苗头化合物
“经过AI生物大模型的虚拟筛选,从780万个分子库中最终找到6个潜在活性分子,效率相较于以往的人工筛选提升了成千上万倍。”杭州立德百克生物医药科技有限责任公司负责人王紫壹告诉记者,生物医药行业有一个“双10魔咒”,一款新药的研发至少需要花费10亿美元和耗时10年投入,这是一家初创公司几乎难以承担的成本,如今凭借AI大模型的能力,生物技术团队也能实现弯道超车。
乳腺癌是全球女性发病率最高的恶性肿瘤,去年我国乳腺癌发病人数超过42万,CDK4/6抑制剂是该领域最为畅销的药物,有机构预测全球总的CDK4/6抑制剂市场将在2029年超过200亿美元,占乳腺癌药物销售市场份额的42%。目前已经上市的CDK4/6抑制剂有4个,在研的更是多达几十个。立德百克自主研发的PPI检测技术,可以对蛋白质之间的相互作用进行快速的“湿”实验(生理学试验方法)验证,建立了专门针对CDK4/6-CCND蛋白-蛋白相互作用的药物筛选技术和活性检测技术平台,但是如何找到苗头化合物分子却犯了难。
“市面上的化合物商品库中有上千万种化合物,筛选工程耗时耗力,恰好生物计算大模型能弥补这一短板。”通过引入百度飞桨螺旋桨的文心生物计算大模型技术,王紫壹团队的“干”实验(计算机模拟试验方法)能力得到极大的提升,通过虚拟筛选,从780万个分子中得到了模型打分比较高的110个分子,并采购了其中的40个进行检测,最后发现有6个高潜力的分子,其中3个化合物能够同时打断CDK4/6-CCND蛋白-蛋白相互作用,还有3个化合物能够打断CDK4-CCND蛋白-蛋白相互作用。目前,双方正在对这些化合物进行更进一步的分析研究,也为下一步的结构优化提供数据准备。
记者获悉,去年5月百度对外发布了文心生物计算大模型,并将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子、基因组学信息的生物计算领域预训练大模型。目前正式对外发布的文心生物计算大模型,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。
国产生物大模型进入爆发期
当下,随着通用大模型的走红,生物医药等垂直领域大模型正逐渐浮出水面。不少研报指出,AI制药行业经历了算法迭代、算力提升及海量实验数据的堆砌,随着AlphaFold2、ChatGPT等创新产品的出现,行业有望迎来高速发展的成长初期。
AI大模型如何提高新药研发的效率,之江实验室图计算中心副主任陈红阳有一个非常形象的比喻:靶点发现是药物研发过程中的关键环节,其中靶点是药物在体内的作用结合位点,药物好比一把“钥匙”,靶点就是与之匹配的“锁”。基于大量的医学材料和生化数据,生物计算大模型能发掘潜在的药物靶点,甚至预测靶点与潜在药物之间的相互作用,提高药物研发成功率。
国外的研究报告显示,AI可以将新药研发的成功率提高16.7%,AI辅助药物研发每年能节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。根据英伟达公开资料,使用AI技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。
生物制药和转化医学作为AI的重点赛道之一,涉及药物设计、筛选、优化、验证等多个环节,需要处理大量的复杂数据和知识,也吸引了更多的竞争者。
早在2020年,在第14届国际蛋白质结构预测竞赛上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4的好成绩,比第二名高25分,被中国科学院院士施一公评价为“人工智能对科学领域最大的一次贡献”。
随后国内AI生物大模型逐渐开始发力,清华智能产业研究院日前开源了轻量版BioMedGPT1.6B,这是一个参数为16亿的生物医药领域轻量级科研版基础模型,具有跨模态与知识融合的特点,可以处理药物性质预测、自然语言类、跨模态等多种任务。
近日,上海人工智能研究院执行院长宋海涛表示,计划在生物制药、转化医学等领域,利用国产化训练框架推出国产大模型,打造具有自主知识产权和核心竞争力的人工智能技术。
中银证券研报中表示,AI医疗市场呈高增长态势,市场规模在2025年有望达385亿元,2020—2025年复合年均增长率达46%,其中AI制药是AI医疗领域的重要一环。
AI介入新药研发仍存挑战
目前,AI技术在生物医药产业的核心优势在于提升效率,但在落地过程中仍遇到了一些挑战。
百度智能云相关人士认为,药物研发真实的高精度实验数据获取成本极高,且有实验的批次效应问题,公开的数据库有大量的无标注数据,如何利用好大量无标注数据和少量高精度数据,这就对模型构建提出了较高的要求。其次,生物领域的任务繁多且复杂,比如ADMET成药性预测任务,常用属性指标多达几十项,想要一个模型对几十项指标都预测准确,这对技术的泛化性和可迁移能力也有较高的要求。
同时,生物领域有其独特的领域特性,比如对同分异构体的理解、研究对象需要建模三维结构等,对算法研发人员提出了更高的要求。特别是像DeepMind团队所开发的Alphafold2之类计算量巨大的复杂的神经网络模型,更需要有强大的算力和框架技术的支持。
陈红阳也有类似观点,分子生成任务需要通过引入领域知识、结合强化学习和“湿”实验等来验证生成分子的有效性,而大模型在训练过程缺少领域知识,无法保证其可信性。模型训练部署以及相关“湿”实验的成本高企,药物研发依然面临流程长投入大的问题。
栏目主编:李晔 题图来源:上观题图 图片编辑:朱瓅
来源:作者:查睿
吴谢宇曾写五万字亲笔信寄亲友求“活路”,自述内心隐秘世界
2023年5月11日,澎湃新闻(www.thepaper.cn)从吴谢宇案二审辩护律师徐昕处获悉,吴谢宇案二审恢复审理,并将于5月19日9点公开开庭审理,福建高院通知的开庭地点为福州中院第二法庭。2021年8月26日,吴谢宇弑母案一审宣判。吴谢宇被认定故意杀人罪、诈骗罪、买卖身份证件罪,数罪并罚,决定执行死刑。一审宣判后,吴谢宇提起上诉。套路网2023-05-12 12:21:480000痛失亲人的加沙男子,紧抱石块跪地痛哭:我以后还能拥抱谁
在这个世界上,某些瞬间的悲剧,深深地刻画在历史的长河中,成为无法磨灭的记忆。最近,《加沙时报》在社交媒体X上发布了一段视频,震惊了全球的目光。视频中,一个加沙男子因巴以冲突失去了最亲的妻子和孩子。这个画面,仿佛是战争残酷现实的缩影,他紧紧地抱着废墟中的石块,嚎啕大哭。那声音,充满了绝望和痛苦:“我还能拥抱谁?”这不仅是一个人的呐喊,更是整个受难地区的悲鸣。套路网2023-12-28 10:35:140000蚕豆迎丰收 “公司 专业合作社 农户”模式助农增收
央视网消息:眼下,江苏南通市通州区的蚕豆迎来丰收,依托订单农业,当地政府采取“公司专业合作社农户”模式,进一步延长产业链条,持续带动农民致富增收。江苏南通刘桥镇尹家园村的村民徐标去年流转了40亩地种植蚕豆,这几天正忙着收豆子,并加工成豆瓣,送到附近的一家食品加工公司。套路网2023-05-31 07:42:330000加速东北地区路网建设 沈阳至长白山高铁建设进入“快车道”
来源:央视网央视网消息:日前,沈阳至长白山高铁建设进入加速阶段。经过连续奋战,沈白高铁线路并入沈阳北站的第一阶段施工顺利完成。正在建设的沈白高铁与沈阳机务段沈北车间内部分线路重叠,为了让沈白高铁尽快与沈阳北站对接成功,沈阳局集团公司对部分厂房进行移设,改造既有线路,为沈白高铁建设腾出线位。套路网2023-05-29 01:19:450000波兰男排夺得世界男排联赛总决赛冠军
当地时间7月23日,波兰男排以3:1的比分击败美国男排,夺得2023世界男排联赛总决赛冠军。世界男子排球联赛是国际排球联合会举办的一年一度大型世界级男子排球比赛。共有16支队伍参赛,其中12支为核心队伍、4支为挑战队伍。(总台记者沃龙)来源:央视新闻套路网2023-07-24 13:32:570000