今年5月發(fā)布業(yè)界首個(gè)2000億參數(shù)中文預(yù)訓(xùn)練語(yǔ)言模型——鵬程.盤(pán)古之后,鵬城實(shí)驗(yàn)室在Huawei Connect 2021又發(fā)布新成果——鵬程.神農(nóng)平臺(tái),一個(gè)面向生物醫(yī)學(xué)領(lǐng)域的人工智能平臺(tái)。
AI正在加速向各行各業(yè)滲透,用全新的模式破解傳統(tǒng)產(chǎn)業(yè)的痛點(diǎn)。醫(yī)藥領(lǐng)域多年來(lái)一直存在著“雙十魔咒”,即十年的研發(fā)周期,十億美元的投入,但最終未必是一定能有完美的研發(fā)結(jié)果。鵬程.神農(nóng)平臺(tái)的落地,有望助力醫(yī)藥行業(yè)告別“十年磨一劍”的制藥模式,開(kāi)啟“AI+制藥”時(shí)代。
“雙十魔咒”有解了
抗生素是人類(lèi)歷史上的重大發(fā)現(xiàn),不僅大大提升了人們的抗病能力,也讓人類(lèi)的壽命延長(zhǎng)了數(shù)十年。
但是,隨著抗生素的廣泛使用甚至濫用,目前細(xì)菌對(duì)抗生素的耐藥性問(wèn)題已十分嚴(yán)重,抗生素耐藥性正在對(duì)全球健康構(gòu)成威脅。因此,發(fā)展新型抗生素勢(shì)在必行。基于不同機(jī)制的新型抗生素正處于研發(fā)的不同階段。另外,由于生物技術(shù)的迅猛發(fā)展,促進(jìn)了抗體藥物的發(fā)展,抗菌多肽類(lèi)藥物成為抗生素領(lǐng)域的新生力量。
根據(jù)世界衛(wèi)生組織近日發(fā)布的一份報(bào)告,盡管人們?cè)絹?lái)越意識(shí)到抗生素耐藥性的迫切威脅,但世界仍未能開(kāi)發(fā)出急需的新型抗菌治療方法。世衛(wèi)組織助理總干事哈南·巴爾基(Hanan Balkhy)表示:“開(kāi)發(fā)、生產(chǎn)和分配有效的新抗生素的持續(xù)失敗進(jìn)一步加劇了抗生素耐藥性的影響,并威脅我們成功治療細(xì)菌感染的能力?!?/p>
抗菌肽具有廣譜抗菌活性,對(duì)細(xì)菌有很強(qiáng)的殺傷作用,并且某些抗菌肽對(duì)部分病毒、真菌、原蟲(chóng)和癌細(xì)胞等有殺滅作用,甚至能提高免疫力、加速傷口愈合過(guò)程,在醫(yī)學(xué)上有非常好的應(yīng)用前景。
但是抗菌肽的研究進(jìn)展并不快。世界上第一個(gè)抗菌肽是1980年被發(fā)現(xiàn)的,此后人們相繼從細(xì)菌、真菌、兩棲類(lèi)、昆蟲(chóng)、高等植物、哺乳動(dòng)物乃至人類(lèi)中發(fā)現(xiàn)并分離獲得具有抗菌活性的多肽。但是這樣的研究過(guò)程很慢,效率低下。人類(lèi)利用自然合成的方法在40年間僅僅發(fā)現(xiàn)了4000多種候選抗菌肽。
廣闊的應(yīng)用前景與傳統(tǒng)的研究方法之間的矛盾,因技術(shù)的進(jìn)步看到了新機(jī)遇。
抗菌肽分子量在2000~7000左右,由20~60個(gè)氨基酸殘基組成。今天,借助鵬程.神農(nóng)平臺(tái)強(qiáng)大的序列生成能力,結(jié)合現(xiàn)有的抗菌肽數(shù)據(jù)集,可以在很短的時(shí)間內(nèi)生產(chǎn)數(shù)萬(wàn)種候選肽的氨基酸序列,而且經(jīng)過(guò)篩選的高價(jià)值的潛在序列,提高生成準(zhǔn)確率,再經(jīng)過(guò)生物實(shí)驗(yàn)室和臨床驗(yàn)證,極大加速了新型抗菌肽的發(fā)現(xiàn)過(guò)程。
行業(yè)迭代,AI+成制藥行業(yè)新動(dòng)能
中國(guó)古代神話(huà)傳說(shuō)中的神農(nóng)是通過(guò)嘗遍百草了解每一種植物的藥性,“嘗”百草是古代探索藥性的基本方法,無(wú)論是中國(guó)歷史上的神醫(yī)藥圣李時(shí)珍用畢生精力撰寫(xiě)的《本草綱目》,還是藥王孫思邈《千金要方》中記錄的藥草、藥方,都是通過(guò)傳統(tǒng)的方式一點(diǎn)點(diǎn)試出來(lái)的。也正是因?yàn)榉椒ㄊ芟?,醫(yī)藥的進(jìn)步也很緩慢。
發(fā)展到現(xiàn)代制藥產(chǎn)業(yè),包括資金、技術(shù)、經(jīng)驗(yàn)等各方面的條件都在不斷提升,但制藥依然是一個(gè)成本高、投資大、風(fēng)險(xiǎn)高的行業(yè)。行業(yè)內(nèi)有一個(gè)共識(shí),新藥研發(fā)是一場(chǎng)九死一生的冒險(xiǎn),新藥研發(fā)成本都在10億上,研發(fā)周期一般是10-12年,臨床失敗率高達(dá)95%。比如人類(lèi)對(duì)艾滋病、阿爾茨海默、癌癥等病一直無(wú)解,無(wú)數(shù)藥企、研究機(jī)構(gòu)投入重金研發(fā),但至今這些病還都沒(méi)有研發(fā)出特效藥。2020年初,突然爆發(fā)的新冠疫情給席卷全球,多項(xiàng)研究遭到擱置,這對(duì)許多研制新藥的企業(yè)而言無(wú)異于雪上加霜。
全球生物醫(yī)藥規(guī)模持續(xù)增長(zhǎng),但是醫(yī)藥研發(fā)的效率不斷下降,研發(fā)一款新藥投入的成本和時(shí)間越來(lái)越呈指數(shù)級(jí)的增長(zhǎng)。以德勤公司發(fā)布的研究報(bào)告顯示,藥物開(kāi)發(fā)的投資回報(bào)率從2010年的10%穩(wěn)步下降至2018年的2%左右。
這一點(diǎn)在抗生素藥物的研發(fā)上更為明顯。世衛(wèi)組織的報(bào)告指出,雖然有一些前景不錯(cuò)處于不同開(kāi)發(fā)階段的產(chǎn)品,但是由于藥物開(kāi)發(fā)過(guò)程中巨大的經(jīng)濟(jì)成本和內(nèi)在的科學(xué)挑戰(zhàn),這些產(chǎn)品中只有一小部分會(huì)最終進(jìn)入市場(chǎng)。再加上成功的抗生素產(chǎn)品能帶來(lái)的投資回報(bào)少,導(dǎo)致主要私營(yíng)投資者和大多數(shù)大型制藥公司的積極性不高。
報(bào)告證實(shí),新抗生素的臨床前和臨床開(kāi)發(fā)繼續(xù)由中小型公司推動(dòng)。這些企業(yè)通常在臨床開(kāi)發(fā)的后期或直到獲得監(jiān)管機(jī)構(gòu)批準(zhǔn)之前,都難以為其產(chǎn)品融資。
從上個(gè)世紀(jì)80年代開(kāi)始,制藥行業(yè)就開(kāi)始利用計(jì)算機(jī)來(lái)輔助藥物的研發(fā)。但是依然不能滿(mǎn)足人類(lèi)發(fā)展對(duì)于新藥的迫切需求。就以去年爆發(fā)的新冠疫情來(lái)看,無(wú)論是治療藥物還是疫苗,都非常急切。在此背景下,“AI制藥”也逐漸成為了當(dāng)前藥學(xué)研究和前沿醫(yī)學(xué)創(chuàng)業(yè)的新發(fā)展熱點(diǎn)。
鵬程.神農(nóng)平臺(tái)是面向醫(yī)藥領(lǐng)域的一個(gè)新成果,包含蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、小分子生成、靶點(diǎn)與小分子相互作用預(yù)測(cè)以及新抗菌多肽設(shè)計(jì)與效果評(píng)價(jià)等模塊?;谏褶r(nóng)平臺(tái),各藥廠、機(jī)構(gòu)可以做一系列的開(kāi)發(fā)研究,通過(guò)蛋白質(zhì)生成模型加速推理和生成氨基酸序列,并可開(kāi)展更多生物研究科研任務(wù)。
以新型抗菌肽項(xiàng)目來(lái)看,基于已知抗菌肽結(jié)構(gòu),解密與掌握多肽類(lèi)氨基酸序列規(guī)律,采用AI方式設(shè)計(jì)目標(biāo)新型肽鏈,提高搜索空間和生成效率。神農(nóng)平臺(tái)可加速新型抗菌肽發(fā)現(xiàn),這使得抗菌肽有望成為新一代“抗生素”。
傳統(tǒng)制藥行業(yè)之所以存在“雙十魔咒”,主要還是過(guò)于依賴(lài)專(zhuān)家的經(jīng)驗(yàn)。AI+制藥,則是將人類(lèi)的經(jīng)驗(yàn)與計(jì)算機(jī)強(qiáng)大的算力結(jié)合。
鵬城可期,加速AI在行業(yè)應(yīng)用中落地
人工智能正從單點(diǎn)技術(shù)走向真正的通用技術(shù),AI的通用性、泛化能力以及性能,決定AI在各行各業(yè)的就應(yīng)用價(jià)值以及發(fā)展速度。以前,行業(yè)AI多局限于單點(diǎn)技術(shù),應(yīng)用落地依賴(lài)工程師的開(kāi)發(fā)能力以及專(zhuān)業(yè)人員的經(jīng)驗(yàn),AI應(yīng)用呈現(xiàn)出碎片化,成本高、落地慢等痛點(diǎn)。而鵬程.盤(pán)古大模型、鵬程.神農(nóng)平臺(tái)具備很強(qiáng)的泛化能力,通過(guò)與行業(yè)知識(shí)結(jié)合,少量樣本也能達(dá)到高精度,基于預(yù)訓(xùn)練+下游微調(diào)的工業(yè)化AI開(kāi)發(fā)模式,這無(wú)疑將大大加速AI在行業(yè)應(yīng)用中的落地。
以鵬程.盤(pán)古大模型為例,作為業(yè)界首個(gè) 2000 億參數(shù)中文預(yù)訓(xùn)練語(yǔ)言模型,預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù),是最接近人類(lèi)中文理解能力的AI大模型。盤(pán)古NLP大模型具備廣泛的運(yùn)用場(chǎng)景,在知識(shí)問(wèn)答、知識(shí)檢索、知識(shí)推理、閱讀理解等文本生成領(lǐng)域表現(xiàn)突出。未來(lái)金融領(lǐng)域,可以輔助識(shí)別企業(yè)風(fēng)險(xiǎn),助力企業(yè)盡調(diào)和項(xiàng)目審核;在醫(yī)療方面,其強(qiáng)大的信息抽取能力,可以幫助科研人員和醫(yī)生從海量文獻(xiàn)中快速提取關(guān)鍵知識(shí)。
無(wú)論是鵬程.盤(pán)古大模型還是鵬程.神農(nóng)平臺(tái),背后離不開(kāi)AI平臺(tái)的支撐。
昇騰AI基礎(chǔ)軟硬件平臺(tái),包括昇騰處理器、Atlas系列硬件、異構(gòu)計(jì)算架構(gòu)CANN和AI框架昇思MindSpore等。其中,CANN是針對(duì)AI場(chǎng)景推出的異構(gòu)計(jì)算架構(gòu),通過(guò)軟硬件的協(xié)同優(yōu)化,親和昇騰AI的圖編譯技術(shù),持續(xù)擴(kuò)充高性能算子庫(kù),來(lái)釋放昇騰AI硬件的強(qiáng)大性能,極大提升應(yīng)用可獲得算力。昇思MindSpore是面向萬(wàn)物智能時(shí)代覆蓋端、邊、云的全場(chǎng)景AI框架,為開(kāi)發(fā)者提供了友好設(shè)計(jì)、高效運(yùn)行、簡(jiǎn)捷部署的開(kāi)發(fā)體驗(yàn)。昇騰AI基礎(chǔ)軟硬件平臺(tái),除了底層硬件本身自帶的強(qiáng)大AI計(jì)算性能,全?;恼细茉陂_(kāi)發(fā)層面最大程度發(fā)揮出硬件最佳性能,從而降低AI應(yīng)用開(kāi)發(fā)門(mén)檻,最終加速AI向場(chǎng)景滲透的產(chǎn)業(yè)進(jìn)程。
而基于昇騰AI基礎(chǔ)軟硬件搭建而成的“鵬城云腦Ⅱ”主要提供人工智能研究必須的計(jì)算力資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源、數(shù)據(jù)資源和研究環(huán)境,覆蓋人工智能基礎(chǔ)研究、重大應(yīng)用、操作系統(tǒng)、數(shù)據(jù)資源共享、產(chǎn)業(yè)服務(wù)等專(zhuān)門(mén)研究實(shí)驗(yàn)領(lǐng)域。國(guó)際超算大會(huì)(ISC21)最新一期IO500排行榜上, “鵬城云腦II”蟬聯(lián)全系統(tǒng)輸入輸出和10節(jié)點(diǎn)規(guī)模系統(tǒng)兩項(xiàng)世界冠軍,再次刷新世界紀(jì)錄。特別值得一提的是,“鵬城云腦II”在全系統(tǒng)輸入輸出性能角度的得分是第二名的近20倍,呈現(xiàn)碾壓優(yōu)勢(shì)。如此強(qiáng)大的“鵬城云腦II”成為大模型研發(fā)的肥沃土地,土地越肥沃,生長(zhǎng)出來(lái)的花花草草也就越茂盛。
當(dāng)然,花草長(zhǎng)得是否種類(lèi)繁多,更重要的就是要依靠生態(tài)。此前,鵬程.盤(pán)古的模型、代碼、數(shù)據(jù)集在 OpenI 啟智社區(qū)全面開(kāi)源、開(kāi)放,吸引更多行業(yè)的開(kāi)發(fā)者共同參與,針對(duì)不同場(chǎng)景創(chuàng)新應(yīng)用,已經(jīng)在一些行業(yè)開(kāi)花結(jié)果。
【結(jié)束語(yǔ)】
從0到1難,給1后面再加0就相對(duì)快得多。鵬程.盤(pán)古大模型和鵬程·神農(nóng)平臺(tái)干的都是從0到1的事,當(dāng)相于給AI造好了輪子。輪子造好了,行業(yè)應(yīng)用也就會(huì)越跑越快。
請(qǐng)登錄以參與評(píng)論
現(xiàn)在登錄