人工智能正在为生物计算领域带来新一轮爆发。5月10日-11日,由中国首家生物计算驱动的生命科学平台“百图生科”主办的首届中国生物计算大会在苏州召开,百度创始人、董事长兼CEO,百图生科创始人兼董事长李彦宏在会上表示,“生物计算是个高度融合的学科,生物+计算的融合,会带来巨大的突破和进步。依靠生物计算引擎,能够有效利用大量的生物数据,把药物发现的‘大海捞针’变成‘按图索骥’,为人类的生命健康谋福祉。”
“AI+生物计算”的逐渐兴盛,源于基因组学研究带来的人体数据在快速增长,新药研发过程当中所积累的知识在快速增长甚至是爆发,以及新生的各类机器学习的算法在快速地变化、在提升和迭代。
目前,生命科学界对人类疾病机理的研究已经可以精细到单个病人单个细胞的全基因组和转录组等层面,这为个性化的靶向药物研发、疾病的极早期诊断和精细化分型提供了充分可能,也为精准药物设计打下良好的基础。
但要让海量生物数据迸发力量,需要更加创新的算法、更加强大的底层计算架构。
百度自然语言处理部总监、螺旋桨PaddleHelix生物计算平台负责人何径舟在“生物计算与新算法”分论坛上谈到,在数据层面,生物医药领域和其他已经大规模应用AI技术的领域相比,存在比较高的门槛,生物领域目前优质的标注数据少,而且标注新数据的成本极高,这在很长时间内限制了AI在生物医药领域的应用。
在“AI+生物计算”领域,百度不仅布局早,同时在算法、算力层面实现了全面和领先。
何径舟介绍道,百度基于飞桨推出生物计算平台螺旋桨PaddleHelix,面向药物研发、疫苗设计、精准医疗等场景,降低研究人员的AI算法使用门槛,提升研发效率。螺旋桨PaddleHelix提供化合物和蛋白质预训练模型,能实现基于海量无标注数据的自监督学习,同时利用多任务学习,增强模型的泛化能力。
目前,百度已开源螺旋桨PaddleHelix生物计算工具集,提供包括 RNA 二级结构预测、大规模的分子预训练、DTI 药物靶点亲和力预测以及 ADMET 成药性预测等在内的新药研发和疫苗设计环节的核心能力,帮助生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴更便利地进行科学研究和应用探索。未来,螺旋桨PaddleHelix算法模型将持续升级、开源,促进整个生物医药行业的算法创新,实现AI价值普惠。
在算力层面,百度智能芯片总经理欧阳剑在此次中国生物计算大会上分享道,要通过算力更好地赋能生物医药新产业发展,唯一的办法是找到新的路径,从工艺、架构、系统、软件多个层面,拉出一条新的有效算力的增长曲线。
在底层架构创新上,百度历时十年打造,推出中国第一款自研云端全功能AI芯片“昆仑”,提供512GB/s的内存带宽,能够在150W的功耗下提供高达260TOPS的能力,是业内设计算力最高的AI芯片,目前服务数十个客户。而即将量产的昆仑第2代芯片,采用更先进的7nm的工艺,增强了对并行计算和生物计算的支持。昆仑2代相对1代性能提升了3倍,同时内置安全引擎,确保模型安全、高性能视频转化,为生物计算领域提供好的基础计算平台。
百度在生物计算领域的领先技术实力在抗击新冠肺炎疫情中发挥了重要的作用。2020年疫情爆发伊始,百度研究院立即宣布向各基因检测机构、防疫中心及全世界科学研究中心免费开放线性时间算法 LinearFold 以及世界上现有最快的 RNA 结构预测网站,以提升新型冠状病毒RNA空间结构预测速度,从而助力疫情防控。
同年5月,百度又推出全球首个 mRNA 疫苗基因序列设计算法 LinearDesign,能在16分钟内大大提升疫苗设计的稳定性和蛋白质表达水平,从而有效解决了mRNA疫苗研发中最重要的稳定性问题,加速疫苗研发速度。
在本次中国生物计算大会上,李彦宏表示,“在生命健康这个最关键的领域,哪怕投入再大、风险再高、周期再长,我们也要坚决地做。生命科学没有尽头,只有尽力。”由此,百度在生物计算上的投入决心可见一斑。
百度之所以能有底气投身到生命科学“无人区”中,来自于百度多年积累的技术实力和完整AI生态。百度正在打造AI新型基础设施,以百度大脑核心技术实现自主创新,以百度飞桨打造开源生态,以量子计算、生物计算等前沿技术描绘未来蓝图,打造云计算铺设的智能经济高速公路,从而推动智能交通、智慧城市、智慧金融、智慧能源、智慧医疗、工业互联网和智能制造等领域实现产业智能化升级。根据CIC报告,到目前为止,百度也是唯一一家开发了从芯片设计到深度学习框架以及应用程序级AI功能的全栈AI功能的中国公司。
谈及对生物计算未来的憧憬,李彦宏表示“我们希望用AI技术,缩短药物研发的时间,降低药物的副作用,减轻患者的巨大医疗负担,为每一个生命争取更多的可能性。”有决心、有实力,百度在AI生物计算上的路,还将走的更远。