很遗憾,股票大多时候就是一个博傻的市场。
大洋彼岸的英伟达GTC 2024,正在展示这个星球上有关AI的最前沿发现,但对于许多A股投资者来说,大会的*作用就是提供了诸多概念供他们炒作。
AI+医药就是如此,借助黄仁勋和英伟达的东风,成为A股近期最热门的赛道之一,国内相关股票接连几个涨停,泓博医药两周接近翻倍,成都先导也较上月低点上涨50%。
然而这波牛市不会持续太久,没有基本面的支撑,等炒作题材的短线资金撤退,大起之后就是大落。
镜鉴不远,去年3月,伴随着Chatgpt的火热,以及公司自称业务与AI结合的前景广阔,成都先导猛涨一个月,之后就是漫长的下跌,从25.14元的高点跌到8.85元,不知道当时没来得及走的散户们解套了没有,反正公司大股东在高位减持赚麻了。
肯定有二级市场的大佬表示,在投机的世界里,认真你就输了。
那么今天这篇文章,献给仍然相信价值的长期投资者,作为AI+医药的观察者,带你盘一盘AI为医药带来了什么,回顾这个行业的发展,有哪些值得关注的方向。
从Alphafold说起
AI给生命科学带来有史以来的*震撼,非Alphafold莫属。
这款预测蛋白质结构的模型由DeepMind开发,其在AI领域的成就不逊于当下最炙手可热的OpenAI,2016年爆火的AI围棋模型AlphaGo正是出自这家公司,在击败韩国传奇围棋选手李世石后,DeepMind将目光移到了“蛋白质折叠问题”,开始攻坚这一生物学的“圣杯”。
作为生物最基本的分子之一,蛋白质是生命活动的主要承担者,在生命科学各个领域都有着不可忽略的重要意义。
生物学家认为“结构决定功能”,于是了解蛋白质的结构就成为蛋白质研究的关键,但仅仅这一步就难如登天,因为蛋白质基本组成单位是22种氨基酸,若干个氨基酸构成肽链,n个肽链又经过扭曲折叠形成不断变化的蛋白质,听上去就足够复杂。
图:蛋白质的四级结构
尤其是蛋白质从无规则卷曲折叠成特定三维结构的过程,直接决定了蛋白质发挥什么功能,十分重要,但其影响因素接近无穷多、机制极其复杂。被认为“现代科学中最重要但尚未解决的问题之一”。
如此具有挑战性的问题,自然吸引一批科学家们前赴后继,学界也在1994年设置了国际蛋白质结构预测竞赛(CASP),每两年一届,代表着世界上最前沿的蛋白结构预测进展。
2018年12月,AlphaFold在第13届CASP13横空出世,技惊四座,以60%的预测准确率力压其他参赛者(40%左右)取得*名。两年后,AlphaFold2惊艳世界,其预测蛋白质结构的准确率达到了近90%,又一次断层*,且精确度可以媲美实验测定。
AlphaFold证明了AI在生命科学的无穷潜力,开启了人工智能赋能生物科技的新纪元。通过其高精度的蛋白质结构预测能力,AI加速了药物发现和疾病机理的研究。
比如,AI可以做基于结构的虚拟筛选,由能够预测小分子与靶蛋白结合的亲和力。
做个通俗的类比,药物研发就像钥匙(配体)打开锁(靶标),要找到能打开锁的钥匙并不是件易事,需要先从众多分子(通常是千万级乃至亿级)中筛选出有结合潜力的,再通过实验去最终确定。
这一筛选过程此前主要通过研发人员的个人经验和实验去确定,过于耗时耗力,之后计算机的出现,可以对蛋白质结合口袋结构进行建模来提高效率,但微观粒子的高度复杂性,使得传统的模拟技术面临速度与精度不可兼得的问题。
而这一工作,现在可以交由擅长处理海量数据和复杂系统的AI来进行,融合了人工智能的基于结构的方法显示出比传统方法普遍更优的预测精度和灵活性。
近年来,AI技术更是可以突破“结构”这一限制,研究人员可以不用了解药物分子与靶蛋白的结合位点,直接将两者作为一个整体进行输入,生成组合物的3D预测,使得问题得到了简化。
最新版的AlphaFold就采用这种思路,在测试中打败一众现有方法,包括业内主流的基于结构的AI算法,可谓“遥遥*”。
以上只是AI赋能药物研发全流程的一部分,可以说,人工智能的出现,标志着人类在制药领域拥有了最强大的工具之一,目前全球前二十大药企均布局了AI技术,赛诺菲更是喊出了“All in AI(全力投入AI)”的口号。
“牛市女皇”木头姐旗下以投资前沿科技闻名的Ark Invest发布报告称,未来十年内,使用AI药物发现方法和自动化工作流程的公司成功概率可能会翻倍,成本将降低近50%。
这次不一样!大模型带来了什么?
AI医药上一波投资高潮,是2020-2021年全球疫情期间。
那两年,共有12家海外AI制药公司成功上市,其中多家公司首日股价创下超过60%的涨幅。而仅2021年,全球AI制药领域就披露了超60起投融资事件,累计融资超40亿美元,在当年全球生物制药领域前十大融资榜单中,AI制药公司占据四席,一时间风头无两。
但之后该领域又经历了一轮剧烈的调整,除了宏观金融环境变化外,市场也发现,此前对于AI制药的预期过于乐观,实际上人工智能在整个制药流程中的发挥空间还很有限,一些AI设计药物的临床失败更加重了人们对新技术的质疑。
虽然过去一段时间AI+医药热度有所下降,但科技发展没有停下脚步,Chatgpt的惊艳亮相展现出大模型的强大能力和广泛应用前景。
而在生物领域,过去二十年来,测序技术变得更加便宜且更容易获得,可用于训练人工智能模型的基因和蛋白质序列数据的数量呈指数级增长,为生物大模型的出现铺平了道路。
以AlphaFold为代表的算法需要复杂的结构信息作为输入,而语言模型们能够基于序列处理问题,后者在数据量上具备明显优势,比如Meta发布的蛋白质语言模型ESMFold就有150亿个参数。
庞大的数据意味着,Scaling Law可能将在生命科学领域发挥作用。
所谓Scaling Law(扩展法则),简单来说就是“大力出奇迹”,只要数据量足够多、算力足够大,模型可以发生质变,产生意想不到的结果。Scaling Law由OpenAI提出并践行,Chatgpt和Sora 的出现被认为是这一法则的产物。
近来一些相关成果显示,大模型的确为生命科学领域带来了新的可能。
去年,Salesforce Research等研究团队开发出一种名为 ProGen 的蛋白质语言模型,该模型利用来自 19000多个家族的2.8亿个蛋白质序列进行训练,再经历溶菌酶方向的微调后,生成了一百万个序列。研究人员选取了100个进行测试,73%的蛋白序列表现出了与鸡蛋清溶菌酶相当的活性。
研究人员表示:“这证明 ProGen 有能力产生新的蛋白质……我们正在进入蛋白质设计的新时代”。
人类如果掌握了从头设计蛋白质的技术,包括抗体药物在内的疗法将迎来巨大突破,一键生成可以进入临床试验的药物并不是幻想。
更激动人心的是,大语言模型还有望打通DNA、RNA 和蛋白质序列,破解生命通用“语言”。
就在上个月,Arc Institute、斯坦福大学和 TogetherAI 研究人员开发了基础生物学模型Evo,该模型拥有约70亿参数,能够执行从分子到全基因组规模的预测任务和生成设计。
通过整合蛋白质、RNA和DNA的语言模型,Evo模型提供了一个统一的框架来研究生物分子之间的相互作用和功能,对于理解复杂生物系统和疾病机理具有重大意义。
未来,大模型将超越对蛋白质等单个分子的建模,转而对蛋白质与其他分子的相互作用进行建模,然后对整个细胞、组织、器官进行建模,最终对整个生物体进行建模。
听起来相当科幻,但黄仁勋对此抱有极大热情,他曾表示“当数据科学、人工智能和自动化的结合时,生物学将转变为可工程化的系统……如果我们能像理解一个段落那样理解一个细胞,想象一下我们能做什么。”
写在最后
AI将彻底改变生命科学,这是当下许多*精英的共识。
就拿国内来说,字节的张一鸣、搜狗的王小川、快手的宿华、百度的李彦宏都用行动表达了对这一赛道的强烈看好。
未来,当AI深度参与到医药的方方面面,这一古老行业将会迎来“科技化”的分水岭,许多原先只能套用在科技公司高速发展的术语,如“网络效应”,今后可能也将用来形容一家制药公司。
辉瑞从0到近1600亿美元用了170多年时间,而市值是它十倍的谷歌至今才不到26年历史,这一定程度上是行业属性导致的,与绝大多数行业已经进入“流水线”时代不同,制药业很大程度上仍保留着手工业的特征。
而今后,生物工程化将打破这两者的差别,将药物研发正在从传统的定制工艺转变为一种更精简、可重复、数据驱动的过程,这意味着医药领域也将诞生谷歌、微软这样的万亿美元的科技巨头。
毫无疑问,一个超级风口已然出现。
【本文由投资界合作伙伴智药局授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。