北京2022年10月12日 /美通社/ -- 2020年底,DeepMind旗下人工智能(AI)系統AlphaFold在蛋白質分子結構預測領域取得了史無前例的進步。這不僅有力推動了生命科學領域的發(fā)展,也愈發(fā)印證了具備掌握 "暗知識" 能力的AI能夠助力人們直接跳過在 "未知" 暗箱中摸索的過程,而直接抵達 "新知" 的彼岸。
因此,也就不難理解近年來日漸成熟且炙手可熱的人工智能輔助藥物發(fā)現 (以下稱AIDD: AI Drug Design) 為何在短短數年間就從萌芽發(fā)展到幾乎參與從藥物靶點發(fā)現到臨床試驗等藥物研發(fā)的全流程。尤其面對新藥研發(fā)中的靶點篩選、化合物發(fā)現等存在人類認知盲區(qū)的環(huán)節(jié),AIDD正在顯著降低對專家知識和海量數據的苛求,并有望改變新藥研發(fā) "九死一生" 的困局。
除了AI技術自身進步之外,AIDD的快速普及也離不開"生逢其時"——成熟的云計算技術也恰到其處為AIDD提供必需的數字化基礎設施和能力,讓藥企得以迅速突破存儲、算力、機器學習模型等數字化瓶頸,使AIDD得以成為高效的常態(tài)化工具。例如,在新冠疫苗研發(fā)中,莫德納(Moderna)通過在亞馬遜云科技平臺構建的機器學習能力,2 天內就完成了 mRNA COVID-19 疫苗的序列,25天就發(fā)布了第一個臨床批次。由此預示著藥物研發(fā)正全面步入 "AI時代" 。
AIDD帶來藥物研發(fā)大提速
新藥研發(fā)一直是人類科研領域中極具風險和復雜度、且耗時最漫長的技術研究領域之一。根據《自然》(Nature)雜志的數據顯示,一款新藥的整體成本大約是26億美元,耗時約10年,成功率卻不到十分之一。
自20世紀90年代中期,計算機輔助藥物研發(fā)(CADD: Computer Aided Drug Design)開始被使用并逐漸成為藥企的主流數字化輔助技術。但CADD的能力局限于對已有的知識和數據的篩選與優(yōu)化,其作用更多是對人力的 "替代" 而非 "突破" ,因此無法觸達人類尚未涉足的認知盲區(qū)。
相較之下,AIDD能夠充分探索未知的分子結構空間,生成現有經驗與數據之外的全新分子化合物結構,給藥物研發(fā)帶來了真正的顛覆性變革。通過將AI所擁有的機器學習、深度學習、圖像識別、認知計算等能力嵌入藥物研發(fā)各環(huán)節(jié),可預測識別更為準確的疾病靶點,并基于濕實驗及CADD模擬數據進行新藥分子設計、化合物活性評價、毒性評價等研發(fā)過程,大幅降低了對數據量和專家知識的依賴。
AIDD最直觀的價值還在于顯著減少傳統藥物研發(fā)的高昂資金和時間成本,給研發(fā)效率帶來巨大飛躍。據Exscientia Company Deck數據顯示,使用AI技術可以減少約35%的新藥研發(fā)成本,研發(fā)周期也縮短到了1-2年。
云計算推進AIDD成為常態(tài)化工具
2021年,亞馬遜云科技客戶、AI藥物研發(fā)公司英矽智能宣布了全球第一款由AI發(fā)現并設計的用于特發(fā)性肺纖維化治療的候選藥物已進入臨床試驗階段。從靶點發(fā)現到化合物驗證,英矽智能用時不到18個月,花費僅260萬美元,降低了約99%的新藥研發(fā)計算成本。
英矽智能的藥物發(fā)現引擎建立在亞馬遜云科技平臺之上,是公司產品組合的核心。該引擎使用數百萬個數據樣本和多種數據類型來發(fā)現疾病生物標志物,確定最有希望的靶點,并設計具有特定屬性的小分子化合物。
由于英矽智能的人工智能平臺要處理大量的實驗和文本數據,所以對于圖形處理器 (GPU) 的要求很高。英矽智能的AI工具如PandaOmics?和Chemistry42?都運行于Amazon Elastic Compute Cloud(Amazon EC2 ),以獲得具有極具靈活性和可擴展性的云端服務器而無需維護龐大的本地計算集群。另外,英矽智能還使用了對象存儲服務Amazon Simple Storage Service (Amazon S3) 存儲相關數據,使其分布于6個國家的團隊能夠輕松訪問所需數據并進行跨國合作。
成熟、易用且 "AI友好" 的云平臺為各行業(yè)創(chuàng)造了邁入AI時代的 "捷徑" 。到目前為止,云上超過75%的人工智能應用都基于亞馬遜云科技平臺開發(fā),也使亞馬遜云科技積累了豐富的人工智能和機器學習技術和成功經驗。對于AIDD所必需的算力、算法、數據三大數字化基礎及安全合規(guī)要求,亞馬遜云科技都能提供完善的服務與技術支撐:
據不完全統計,全球已經有近40款以上利用AI涉及的藥物管線已經步入了臨床階段。隨著AIDD得到廣泛應用,已有國內外的眾多企業(yè)選擇亞馬遜云科技作為部署AIDD的云計算平臺。而亞馬遜云科技不僅能提供AIDD所需的云上基礎設施,還可直接助力AI工具的開發(fā)和使用,或者使用亞馬遜云科技多達92種生命科學公開數據集快速進入模型訓練。
近年來,基于亞馬遜云科技,阿斯利康開發(fā)了由機器學習驅動的病理圖像識別檢測模型,用于替代以往在候選藥物研發(fā)時以人工進行樣本編目的方式。借助Amazon SageMaker Ground Truth,阿斯利康能夠快速注釋、收集和分類訓練樣本,并形成可用于模型訓練的數據集,而所用的時間僅為之前的50%。
除了節(jié)省時間和人力成本,使用數據集訓練的模型還幫助研發(fā)人員獲得更準確的分析結果。在雙方開展的試點中,阿斯利康使用2000個樣本來分析造成糖尿病損傷的關鍵結構,準確率達到95%,使科學家能夠快了解藥物的安全性和有效性,加速了新藥研發(fā)和上市的進程。
釋放AIDD更大潛力使藥物研發(fā)全面步入"AI時代"
"開放"是AI技術得以發(fā)展與應用的關鍵要素。要使AIDD在未來得到更充分的開發(fā)與探索,勢必要讓其走出僅賦能單個企業(yè)的孤島。著眼未來,借助公有云對數據安全的保護及合規(guī)分享機制,制藥企業(yè)之間將有機會在確保核心數據安全的前提下,實現跨企業(yè)的數據合作,以更開放的生態(tài)不斷提升AIDD的能力、應用范圍和影響力。
早在2019年,亞馬遜云科技就與全球十大制藥公司共同構建了用于藥物發(fā)現的聯邦學習平臺(Federated machine learning for drug discovery on Amazon Web Services) MELLODDY,讓藥企在安全、合規(guī)、確保數據隱私的環(huán)境下,進行多方合作,加速整個行業(yè)的科研發(fā)現進程。當前,MELLODDY 平臺以前所未有的規(guī)模運行在亞馬遜云科技平臺上,在數十億個實驗數據點上采用聯邦學習方式訓練模型,分析了超過 2000 萬個化學分子結構及理化性質。而且MELLODDY在企業(yè)無需共享專有數據和模型的基礎上即可開展機器學習協作,合作訓練藥物發(fā)現模型。這一項目成功證明了制藥企業(yè)可通過云計算進行合作來加速發(fā)現新藥物的可行性。
中國的藥物研發(fā)領域的眾多企業(yè)在迎來政策激勵的同時,也開始發(fā)掘AIDD背后的商業(yè)潛力。在輔助臨床前試驗階段之外,AI技術尚存在更多可發(fā)掘的應用潛力,如AI與物聯網、數據湖倉等技術融合,可促進數字化實驗、多中心臨床、智能制造及真實世界分析等藥物的全流程改進。越來越多的企業(yè)也逐步開始了AIDD的實質性應用,并助推國內藥物研發(fā)進入新的 "高產" 階段。
據Data Bridge Market Research分析,亞太地區(qū)藥物發(fā)現市場的AI價值復合年增長率將在2022至2029 年期間達到50.9%,且預計中國將成為該領域主導國家。隨著云計算不斷為AIDD等AI應用落地鋪平道路,國內制藥企業(yè)將有望完成研發(fā)能力躍遷,讓上述預測成為最終事實。