AI怎樣改變所有學(xué)科?從“工具的革命”到“革命的工具”
本文系上海人工智能實(shí)驗(yàn)室主任、清華大學(xué)惠妍講席教授周伯文在2025年中關(guān)村論壇上的講稿。 在周伯文看來:科學(xué)研究,是研究者、研究工具和研究對(duì)象一切關(guān)系的總和,當(dāng)前的AI for Science在單點(diǎn)取得了可觀的進(jìn)展,實(shí)現(xiàn)了工具層面的革新,然而要成為“革命的工具”,需要采用“通專融合AGI”方式。
● ● ●
2023年1月5日,《自然》雜志發(fā)表了一篇具有重要影響力的封面論文,對(duì)過去七十年間多個(gè)學(xué)科領(lǐng)域每篇論文的平均影響力進(jìn)行了系統(tǒng)性分析。研究結(jié)果顯示,盡管在這一階段全球科研論文發(fā)表數(shù)量和專利數(shù)量持續(xù)增長(zhǎng),但其實(shí)際影響力卻快速下降。這一現(xiàn)象廣泛存在于生命、物理、社會(huì)等學(xué)科領(lǐng)域,也包括計(jì)算機(jī)科學(xué)。
與此同時(shí),人工智能領(lǐng)域正在加速發(fā)展。自2012年以來,arXiv平臺(tái)上的人工智能相關(guān)研究論文數(shù)量已呈現(xiàn)指數(shù)級(jí)增長(zhǎng),且在去年獲得諾獎(jiǎng)。這些宏觀背景促使我們深入思考,人工智能與科學(xué)研究如何深度融合?科學(xué)論文和專利影響力下降的原因,并不是科學(xué)家的能力或素質(zhì)比此前下降了,而是因?yàn)榭茖W(xué)這座“大廈”經(jīng)過100多年的修建已經(jīng)越來越完善,每個(gè)學(xué)科變成一個(gè)“小房子”——如何打通這些“小房子”之間的壁壘?如何讓每個(gè)領(lǐng)域的工作帶來更大影響力?這對(duì)研究者和研究工具提出了更高的要求。
在上述背景下,運(yùn)用人工智能幫助科學(xué)研究已經(jīng)成為普遍共識(shí)。這一共識(shí)體現(xiàn)在美國(guó)頂尖人工智能研究機(jī)構(gòu)的行動(dòng)上,例如OpenAI宣布與美國(guó)多個(gè)國(guó)家級(jí)實(shí)驗(yàn)室開展緊密合作,運(yùn)用人工智能助力重大科研突破;Anthropic、xAI、Thinking Machines等多家企業(yè)也把“理解宇宙、幫助科學(xué)、更好地思考”設(shè)為遠(yuǎn)期目標(biāo)。
01
從科學(xué)研究最新進(jìn)展來看,在生命科學(xué)、數(shù)學(xué)、生物、材料科學(xué)等具體領(lǐng)域,用人工智能助力科學(xué)研究已經(jīng)不再是新鮮事——科學(xué)研究“工具的革命”已經(jīng)悄然發(fā)生。在這個(gè)重要的時(shí)間節(jié)點(diǎn)上,如何系統(tǒng)性思考,進(jìn)行頂層設(shè)計(jì),面向Science與AI進(jìn)行有組織的科研,是需要思考和討論的重要話題。
2024年諾貝爾化學(xué)獎(jiǎng)得主,DeepMind公司CEO Demis Hassabis在諾獎(jiǎng)?lì)C獎(jiǎng)典禮上總結(jié)了適合AI發(fā)展的科研領(lǐng)域的三個(gè)標(biāo)準(zhǔn):第一,存在巨大的組合搜索空間;第二,具備清晰明確的目標(biāo)函數(shù);第三,擁有大量可靠數(shù)據(jù),或者具有高效準(zhǔn)確合成數(shù)據(jù)的方法。這三個(gè)標(biāo)準(zhǔn)在過往的成功案例中已經(jīng)得到了充分驗(yàn)證,但是尚未充分考慮到AI在未來三到五年的發(fā)展可能帶來的巨大潛力。
我認(rèn)為,AI對(duì)所有科研工作的作用都可以歸納為它如何幫助研究對(duì)象、研究工具,以及研究者三個(gè)層面。上述關(guān)于研究領(lǐng)域的選擇標(biāo)準(zhǔn)都可以被歸納為研究工具,即如何利用人工智能更高效地解決計(jì)算問題(AI for Computation)。然而,完整的科學(xué)研究過程不僅包含計(jì)算環(huán)節(jié),還涉及多個(gè)重要方面:首先是對(duì)研究對(duì)象,即AI如何提升對(duì)研究對(duì)象的觀察、理解和表征,這些表征最終都會(huì)轉(zhuǎn)化為數(shù)據(jù)(AI for Data)。在這些數(shù)據(jù)的表征、理解、獲取和修改等各個(gè)環(huán)節(jié),AI分別能發(fā)揮哪些作用是一個(gè)重要問題,同時(shí)也是重大機(jī)會(huì)。其次是研究者(AI for Innovator),即科學(xué)家本身??茖W(xué)研究的天花板往往取決于研究者自身的認(rèn)知局限。隨著學(xué)科劃分越來越細(xì),要做出具有重大影響力的工作,僅靠單一領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)已經(jīng)遠(yuǎn)遠(yuǎn)不夠。如何幫助科學(xué)家提出更好的問題、找到更有價(jià)值的研究方向,都是AI for Science應(yīng)該著力解決并且可能帶來巨大回報(bào)的領(lǐng)域。
02
這就引申出另一個(gè)問題——如何定義AI for Science,如何將AI for Science翻譯成中文?
針對(duì)這個(gè)問題,我們?cè)L談了來自不同學(xué)科領(lǐng)域的上百位科學(xué)家,特別是青年科研人員。主要存在兩種觀點(diǎn):第一種觀點(diǎn)認(rèn)為,AI for Science主要是指人工智能作為科研工具,重點(diǎn)在于如何具體應(yīng)用;第二種觀點(diǎn)則認(rèn)為,“for Science”是修飾語(yǔ),AI是核心詞,重點(diǎn)是打造真正能驅(qū)動(dòng)科學(xué)研究的AI這一懸而未決的問題。Demis等AI科學(xué)家最后都把問題收斂成AI for Computation,而要讓AI在科學(xué)研究中取得實(shí)質(zhì)性突破,還有大量工作要做。
那么,什么才是for Science的AI?
科學(xué)家通常同時(shí)具備廣博的通識(shí)能力和精深的專業(yè)知識(shí),這種“通專融合”的能力正是優(yōu)秀科學(xué)家的核心特質(zhì),這一理念也恰好與人工智能的發(fā)展趨勢(shì)不謀而合。
人工智能的發(fā)展路徑可以抽象成一個(gè)二維路線圖:橫軸表示專業(yè)深度,縱軸表示泛化能力。在Transformer架構(gòu)出現(xiàn)之前,人工智能發(fā)展主要沿著專業(yè)深度方向推進(jìn),從深藍(lán)到AlphaGo都是典型代表。GPT系列模型出現(xiàn)后,通過智能壓縮,在提升模型泛化能力方面取得重大突破,但此類模型專業(yè)深度嚴(yán)重不足。目前學(xué)界已經(jīng)開始認(rèn)識(shí)到這一發(fā)展路徑的局限性,通過在預(yù)訓(xùn)練后增加后訓(xùn)練來提升模型推理深度,但其專業(yè)度仍然有限。要真正通過“通專融合”的路徑來解決科學(xué)問題,AI方面仍然有很多工作要做。
“高泛化性+高專業(yè)性”的右上角區(qū)域是最具價(jià)值的領(lǐng)域,當(dāng)前的技術(shù)路線都在迂回曲折地向這個(gè)方向逼近,那么有沒有更高效的方法?
在單點(diǎn)的科學(xué)研究上,人工智能已經(jīng)成為非常重要的新型研究工具,可謂帶來了“工具的革命”。如果能找到通專融合的突破口,就可能創(chuàng)造出“革命的工具”,進(jìn)而通過“工具的革命”發(fā)現(xiàn)更具革命性的新工具。
基于對(duì)科學(xué)研究的長(zhǎng)期思考,我認(rèn)為科學(xué)研究是研究者、研究工具和研究對(duì)象一切關(guān)系的總和。任何科學(xué)研究都離不開三大要素:研究者、研究工具和研究對(duì)象。研究者在認(rèn)知驅(qū)動(dòng)或好奇心驅(qū)使下,選擇合適的工具來理解研究對(duì)象,提出新的理論并進(jìn)行驗(yàn)證。
在傳統(tǒng)的科研關(guān)系中,人類研究者通常是單一領(lǐng)域的專家,對(duì)研究工具具備一定知識(shí),對(duì)研究對(duì)象采用單維或低維的數(shù)據(jù)表征。AI for Science可以在多個(gè)層面發(fā)揮作用:在單一節(jié)點(diǎn)上,可以幫助研究者理解文獻(xiàn)、增強(qiáng)計(jì)算工具的能力,或豐富研究對(duì)象的表征維度。當(dāng)前的AI for Science在這些方面已經(jīng)取得了可觀的進(jìn)展,在單點(diǎn)上實(shí)現(xiàn)了工具層面的革新。
03
但AI的價(jià)值遠(yuǎn)不能止步于此。當(dāng)我們將整個(gè)科研過程視為研究者、工具和對(duì)象三者之間的動(dòng)態(tài)系統(tǒng)而非孤立節(jié)點(diǎn)時(shí),人工智能將發(fā)揮更大價(jià)值,促成三者之間相互作用、協(xié)同演進(jìn)、螺旋式上升的新型科研范式大變革,進(jìn)而創(chuàng)造出真正革命性的工具。
具體而言,人工智能可以幫助研究者在多個(gè)方面獲得提升:在研究者層面,可以幫助研究者更好地產(chǎn)生跨領(lǐng)域的想法,幫助判斷哪些科研假設(shè)更具價(jià)值;在研究工具層面,能夠自主構(gòu)建新工具,或?qū)崿F(xiàn)已有工具的創(chuàng)新性組合,完成“組合爆炸”;在研究對(duì)象層面,可以實(shí)現(xiàn)高度泛化、無(wú)損壓縮和體量龐大的數(shù)據(jù)獲取。一個(gè)關(guān)鍵問題在于,研究者對(duì)研究對(duì)象的表征往往受限于自身的認(rèn)知水平,很多潛在有價(jià)值的信息由于存儲(chǔ)或帶寬限制而被舍棄。在人工智能的加持下,研究者就可以更全面、更交叉地審視研究對(duì)象,這種深入理解又會(huì)促使研究工具的改進(jìn),進(jìn)而提升研究者的認(rèn)知水平;認(rèn)知提升后,研究者就能提出更優(yōu)質(zhì)的科學(xué)問題和工具組合,從而形成良性迭代循環(huán)。這正是AI for Science的最大機(jī)遇所在——不在于單點(diǎn)突破,而在于推動(dòng)整個(gè)科研范式的系統(tǒng)性變革。
整個(gè)變革過程可以分為三個(gè)層次:首先是AI for Data,即對(duì)研究對(duì)象的表征;其次是AI for Computation,即對(duì)計(jì)算范式的革新;最后是AI for Innovator,即對(duì)研究者能力的提升。這三個(gè)層次最終將融合形成一個(gè)完整的閉環(huán)系統(tǒng)。以下為幾個(gè)例子:
第一個(gè)例子是突破對(duì)研究對(duì)象的理解。我們?cè)谏虾H斯ぶ悄軐?shí)驗(yàn)室開發(fā)了一個(gè)基于注意力機(jī)制的大氣數(shù)據(jù)表征模型,該模型能夠捕獲多維特征,同時(shí)保持線性計(jì)算復(fù)雜度。通過無(wú)損數(shù)據(jù)壓縮,可以在更大規(guī)模上研究氣象變化。這種方法具有很高的普適性,已成功應(yīng)用于神經(jīng)科學(xué)和生物學(xué)等領(lǐng)域,獲取的數(shù)據(jù)在廣度和深度上相比傳統(tǒng)方法提高2-3個(gè)數(shù)量級(jí),使得許多以往被忽視的現(xiàn)象得以顯現(xiàn)。后續(xù)還有很多工作,例如探索如何更低成本地獲取高質(zhì)量數(shù)據(jù)。
第二個(gè)例子是推動(dòng)計(jì)算范式的革新。在氣象建模中采用多模態(tài)模型進(jìn)行表征,計(jì)算精度相比傳統(tǒng)基于物理方程的方法顯著提升。以一次臺(tái)風(fēng)登陸上海的過程為例,黃線是實(shí)際觀測(cè)路徑,藍(lán)色虛線是歐洲氣象中心基于物理模型的預(yù)測(cè)路徑,而粉線是我們大模型的預(yù)測(cè)路徑。結(jié)果顯示,人工智能模型在臺(tái)風(fēng)登陸后的短期預(yù)報(bào)精度上比物理模型提高10倍以上,在中長(zhǎng)期預(yù)報(bào)方面也有突破性進(jìn)展。
我們主要在清華完成的蛋白質(zhì)多組學(xué)數(shù)據(jù)研究PROTEUS,則進(jìn)一步展示了人工智能如何融合研究對(duì)象、研究工具和研究者,并最終對(duì)科學(xué)研究形成循環(huán)推動(dòng)作用。該研究的數(shù)據(jù)來源非常廣泛,遠(yuǎn)超單個(gè)科學(xué)家所能掌握的范圍;而且除了現(xiàn)有的組學(xué)數(shù)據(jù)外,全球范圍內(nèi)還在持續(xù)產(chǎn)生大量新數(shù)據(jù)。通過融合這些數(shù)據(jù),并結(jié)合對(duì)數(shù)百萬(wàn)篇文獻(xiàn)的理解,可以產(chǎn)生眾多有價(jià)值的科研方向,包括基礎(chǔ)研究領(lǐng)域的疾病機(jī)制解析、臨床應(yīng)用中的治療靶點(diǎn)篩選等。面對(duì)如此繁雜的研究對(duì)象和海量分散的信息,很少有科學(xué)家能夠全面掌握并提出最優(yōu)的科學(xué)假設(shè)。傳統(tǒng)科研模式下,科學(xué)家通常在局部數(shù)據(jù)和有限認(rèn)知基礎(chǔ)上提出假設(shè),而這些假設(shè)是否滿足全局最優(yōu)則無(wú)從得知。
引入AI的研究方法完全顛覆了這一模式:首先將多組學(xué)數(shù)據(jù)視為AI for Innovator(研究對(duì)象)的擴(kuò)展,采用多種方法整合這些數(shù)據(jù);然后通過對(duì)現(xiàn)有文獻(xiàn)和新發(fā)表成果的分析,自動(dòng)識(shí)別數(shù)據(jù)中呈現(xiàn)的現(xiàn)象;根據(jù)現(xiàn)象分類,系統(tǒng)自動(dòng)調(diào)用多種生物信息學(xué)工具進(jìn)行組合分析,初步提出新的研究方向;經(jīng)過深度推理后,自動(dòng)生成科學(xué)假設(shè);最后將這些假設(shè)呈現(xiàn)給科學(xué)家,通過人機(jī)協(xié)作方式評(píng)估其科學(xué)價(jià)值。使用以上方法在10個(gè)不同數(shù)據(jù)集上生成360多條科學(xué)假設(shè)后,將這些假設(shè)與人類科學(xué)家提出的假設(shè)進(jìn)行匿名對(duì)比評(píng)估,結(jié)果顯示,人工智能生成的假設(shè)在新穎性和相關(guān)性方面顯著優(yōu)于人類專家的假設(shè)。
需要強(qiáng)調(diào)的是,上述對(duì)比關(guān)注的是質(zhì)量而非數(shù)量,因?yàn)樵跀?shù)量上AI毫無(wú)疑問具有絕對(duì)優(yōu)勢(shì)。這一突破性進(jìn)展促使我們重新思考科學(xué)假設(shè)的生成方式,包括如何采集新數(shù)據(jù)或從新角度觀察現(xiàn)有數(shù)據(jù)。在這個(gè)過程中,AI系統(tǒng)獲得了一個(gè)新任務(wù):對(duì)已有觀察結(jié)果提出新的數(shù)據(jù)解析,并在此過程中構(gòu)建新工具,然后對(duì)數(shù)據(jù)和工具再次提出新假設(shè);基于這些新數(shù)據(jù)和工具,又將開啟下一輪研究迭代。目前我們正在進(jìn)行第二階段工作:根據(jù)AI生成的假設(shè)設(shè)計(jì)新的觀測(cè)方案和工具,開展驗(yàn)證實(shí)驗(yàn)——這意味著研究對(duì)象、研究工具和研究者三者之間已經(jīng)形成了互相賦能,良性螺旋式上升的迭代循環(huán)。
以下的研究框架圖可以更好地說明這一機(jī)制:研究者的主要作用是提供基礎(chǔ)研究方向,將研究方向作為命題輸入AI系統(tǒng)。AI系統(tǒng)會(huì)對(duì)研究對(duì)象、現(xiàn)有數(shù)據(jù)和文獻(xiàn)進(jìn)行全面分析,提出新的研究問題和對(duì)象。在傳統(tǒng)科研中,不同科學(xué)文獻(xiàn)之間往往缺乏聯(lián)系,而AI能夠發(fā)現(xiàn)這些潛在關(guān)聯(lián),這些新關(guān)聯(lián)就是創(chuàng)新的科學(xué)假設(shè)。AI系統(tǒng)會(huì)調(diào)用合適的工具對(duì)假設(shè)進(jìn)行初步驗(yàn)證,然后將結(jié)果反饋給人類研究者,由他們決定后續(xù)研究方向、假設(shè)驗(yàn)證和新實(shí)驗(yàn)設(shè)計(jì)。目前這一循環(huán)的基礎(chǔ)版本已經(jīng)實(shí)現(xiàn),隨著各個(gè)環(huán)節(jié)的不斷完善,將會(huì)進(jìn)一步顯現(xiàn)更大的價(jià)值。
04
最后總結(jié)一下核心觀點(diǎn):第一,For Science需要新的AI;第二,科學(xué)研究需要人工智能在包含研究者、研究工具、研究對(duì)象的全要素總和中發(fā)揮系統(tǒng)性作用,而非僅限于單點(diǎn)突破。如果AI僅做單點(diǎn)突破,人與人之間的交流成本還會(huì)持續(xù)提升;只有讓AI發(fā)揮系統(tǒng)性作用,才能有效降低交流成本。由于信息吞吐率的本質(zhì)差異,人與人之間的交流成本始終高于AI與AI、模型與數(shù)據(jù),因此迫切需要促進(jìn)AI內(nèi)部的高效信息交互,而非單純提升人際交流效率。第三,一旦完成以上兩步,AI將從“工具的革命”過渡到“革命的工具”。
AI for Science目前仍處于“工具的革命”階段,就像從計(jì)算器到計(jì)算機(jī)程序,無(wú)論是Basic語(yǔ)言、Python語(yǔ)言還是現(xiàn)在的自然語(yǔ)言,都是在工具上進(jìn)步。但是科學(xué)革命需要“革命的工具”。為了推動(dòng)AI for Science的發(fā)展,上海人工智能實(shí)驗(yàn)室創(chuàng)新性地啟動(dòng)了“AI4S攀登者行動(dòng)計(jì)劃”,打造一個(gè)科學(xué)工作者和AI工作者雙向奔赴、協(xié)同攻關(guān)的新模式。該計(jì)劃在今年春節(jié)前發(fā)布,目前已收到來自全世界500多個(gè)不同科研機(jī)構(gòu)的申請(qǐng),顯示大家對(duì)AI for Science領(lǐng)域寄予厚望。
該計(jì)劃除了強(qiáng)調(diào)AI和Science的雙向奔赴之外,也在組織模式上進(jìn)行了多處創(chuàng)新:一是目標(biāo)導(dǎo)向,聚焦重大科學(xué)問題攻關(guān),要求大規(guī)模協(xié)同創(chuàng)新;二是緊密組織地進(jìn)行科研,要求AI和Science的研究人員必須在一起,組成一個(gè)“初創(chuàng)”團(tuán)隊(duì);三是開放,因?yàn)檫@類研究課題往往沒有標(biāo)準(zhǔn)答案和既定流程,需要學(xué)術(shù)機(jī)構(gòu)的自由探索氛圍。該計(jì)劃希望通過融合企業(yè)、創(chuàng)業(yè)團(tuán)隊(duì)和學(xué)術(shù)機(jī)構(gòu)的優(yōu)勢(shì),形成獨(dú)特的組織形式。
按照科技部的指導(dǎo)方針,設(shè)立以下幾個(gè)重點(diǎn)攻關(guān)方向:一是聚焦重大科學(xué)問題的創(chuàng)新突破;二是沉淀共性關(guān)鍵技術(shù)問題,如提升AI for Science的系統(tǒng)性能力;三是打造產(chǎn)業(yè)標(biāo)桿,將AI for Science的價(jià)值最終體現(xiàn)在新材料、新工藝等實(shí)際應(yīng)用上,產(chǎn)生經(jīng)濟(jì)效益和社會(huì)效益。
目前第二批申請(qǐng)已經(jīng)啟動(dòng),采取滾動(dòng)支持機(jī)制,歡迎感興趣的科研團(tuán)隊(duì)積極參與。
最后給讀者留下幾個(gè)值得深思的問題:第一,大語(yǔ)言模型能解決所有科學(xué)問題嗎?如果不能,我們?cè)趺刺嵘哪芰??第二,?dāng)前的科研評(píng)價(jià)體系是對(duì)科學(xué)家進(jìn)行評(píng)估,AI與人類科學(xué)家的價(jià)值是否應(yīng)該有差異化的評(píng)估體系?第三,包括推理、運(yùn)行時(shí)計(jì)算等在內(nèi)的Scaling Law能否帶來革命的工具?是否還有新的技術(shù)路線?
以上就是今天的分享,謝謝大家。
(作者簡(jiǎn)介:周伯文,上海人工智能實(shí)驗(yàn)室主任、首席科學(xué)家,清華大學(xué)惠妍講席教授、電子工程系長(zhǎng)聘教授。)