电竞比分网-中国电竞赛事及体育赛事平台

分享

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

 圖志軒 2025-09-12 發(fā)布于四川

谷歌最新71頁(yè)論文震驚科研界:AI不止能寫代碼,還能像科學(xué)家一樣提出新方法、跑實(shí)驗(yàn),甚至在六大領(lǐng)域全面超越專家!過(guò)去要花幾個(gè)月的探索,如今幾小時(shí)就能完成,科研節(jié)奏正在被AI改寫。

一圖看透全球大模型!新智元十周年鉅獻(xiàn),2025 ASI前沿趨勢(shì)報(bào)告37頁(yè)首發(fā)

在最新一篇長(zhǎng)達(dá)71頁(yè)的論文里,谷歌給科研界丟下了一顆重磅炸彈。

過(guò)去一年,DeepMind的FunSearch已經(jīng)展示了AI在數(shù)學(xué)發(fā)現(xiàn)中的潛力,MIT等團(tuán)隊(duì)也提出了AI co-scientist的概念。

但與這些探索相比,谷歌這次的系統(tǒng)走得更遠(yuǎn):它不僅能提出新方法、驗(yàn)證實(shí)驗(yàn)結(jié)果,還在多個(gè)領(lǐng)域超越了頂尖專家。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

論文地址:
https:///abs/2509.06503

和傳統(tǒng)代碼只追求正確性不同,實(shí)證軟件的目標(biāo)只有一個(gè):讓科研任務(wù)的指標(biāo)分?jǐn)?shù)盡可能高。

這意味著,AI已經(jīng)開(kāi)始介入科學(xué)研究的最核心環(huán)節(jié)——假設(shè)驗(yàn)證與方法創(chuàng)新。

不止是寫代碼,而是科研「實(shí)證軟件」

在科研中,最耗時(shí)的環(huán)節(jié)并不是提出想法,而是如何驗(yàn)證。

科學(xué)家們往往要為一個(gè)問(wèn)題編寫和調(diào)試大量實(shí)驗(yàn)代碼,嘗試幾十甚至上百種模型和參數(shù)組合,這個(gè)過(guò)程動(dòng)輒數(shù)月。

谷歌的新系統(tǒng)把這一環(huán)節(jié)徹底加速,他們提出了一個(gè)概念:實(shí)證軟件。

與常規(guī)軟件通常只以功能正確性作為評(píng)判標(biāo)準(zhǔn)不同,實(shí)證軟件的首要目標(biāo)是最大化預(yù)設(shè)的質(zhì)量評(píng)分。

也就是說(shuō),科研問(wèn)題被重新抽象為一種可計(jì)分任務(wù)(scorable task)。

任務(wù)中包含清晰的問(wèn)題描述、衡量?jī)?yōu)劣的指標(biāo)和數(shù)據(jù)集,AI要做的,就是直接朝著分?jǐn)?shù)最高的方向不斷優(yōu)化。

在這一機(jī)制下,AI的角色已經(jīng)不再是一個(gè)寫代碼的小助手,而更像是一個(gè)高速運(yùn)轉(zhuǎn)的實(shí)驗(yàn)員。

它會(huì)先生成研究思路并寫出可執(zhí)行的代碼,然后在沙箱環(huán)境中運(yùn)行,利用樹(shù)搜索的方法篩選出值得深入的候選方案,再讓大語(yǔ)言模型對(duì)代碼進(jìn)行反復(fù)的改寫和優(yōu)化。

整個(gè)過(guò)程循環(huán)往復(fù),直到找到最優(yōu)解。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

AI科研系統(tǒng)的工作流程:科研問(wèn)題被轉(zhuǎn)化為可計(jì)分任務(wù),經(jīng)由大語(yǔ)言模型生成代碼,并通過(guò)樹(shù)搜索反復(fù)迭代優(yōu)化,最終獲得最佳方案。

研究員也強(qiáng)調(diào):

其輸出作為代碼化的解決方案,可驗(yàn)證、可解釋且可復(fù)現(xiàn)。

換句話說(shuō),這不是簡(jiǎn)單的一段程序,而是真正符合科研標(biāo)準(zhǔn)的成果。

六大領(lǐng)域的硬核成績(jī)單

谷歌這套系統(tǒng)真正驚艷的地方,是它在六個(gè)完全不同的科學(xué)領(lǐng)域里,都拿出了堪比專家的成果。

基因組學(xué):比專家強(qiáng)14%

在單細(xì)胞RNA測(cè)序(scRNA-seq)數(shù)據(jù)的批次整合問(wèn)題上,谷歌的系統(tǒng)展現(xiàn)了真正的科研創(chuàng)新力。

這類任務(wù)的難點(diǎn)在于,不同實(shí)驗(yàn)批次之間會(huì)產(chǎn)生復(fù)雜的技術(shù)偏差,如何在消除這些偏差的同時(shí)保留真實(shí)的生物學(xué)信號(hào),一直是領(lǐng)域里的核心挑戰(zhàn)。

研究人員并沒(méi)有只讓系統(tǒng)從零開(kāi)始,而是把現(xiàn)有方法的文字說(shuō)明直接輸入給它。

比如BBKNN,這是一種常見(jiàn)的批次校正方法,核心思路是:在每個(gè)批次內(nèi)部為細(xì)胞尋找最近鄰居,再把這些鄰居集合合并,得到一個(gè)批次校正后的整體圖。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

BBKNN 的方法描述示例。研究人員將其輸入系統(tǒng),AI 在此基礎(chǔ)上進(jìn)行改寫和優(yōu)化

在這樣的基礎(chǔ)上,AI能夠生成新的變體并進(jìn)行組合。

最終,它把BBKNN和另一種方法ComBat拼接在一起,得到一個(gè)完全新穎的解法。

結(jié)果顯示,在OpenProblems V2.0.0的綜合指標(biāo)上,比最佳人工方法提升了14%。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

在單細(xì)胞RNA測(cè)序批次整合任務(wù)上,AI系統(tǒng)自動(dòng)組合方法,整體得分超過(guò)現(xiàn)有專家工具

公共健康:超過(guò)CDC官方模型

美國(guó)在疫情期間,CDC的CovidHub Ensemble被視為預(yù)測(cè)住院人數(shù)的「黃金標(biāo)準(zhǔn)」。

而谷歌的系統(tǒng)自動(dòng)生成的14個(gè)模型,集體表現(xiàn)超過(guò)了官方Ensemble。

AI在新冠住院預(yù)測(cè)任務(wù)中的表現(xiàn),整體優(yōu)于CDC官方的CovidHub Ensemble

地理遙感:分割精度破 0.80

在高分辨率遙感圖像分割任務(wù)中,系統(tǒng)生成的三種模型全部超過(guò)現(xiàn)有方法,分割精度(mIoU)突破0.80。

更重要的是,它利用U-Net、SegFormer等架構(gòu),并結(jié)合圖像增強(qiáng)手段,說(shuō)明它不僅在「復(fù)制」,也在「改造和優(yōu)化」。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

AI系統(tǒng)生成的分割結(jié)果(下排),與人工標(biāo)注結(jié)果(中排)高度接近,明顯優(yōu)于傳統(tǒng)模型

神經(jīng)科學(xué):全腦7萬(wàn)神經(jīng)元預(yù)測(cè)

在Zebrafish全腦神經(jīng)活動(dòng)預(yù)測(cè)中,AI系統(tǒng)不僅打敗了所有現(xiàn)有基線,還設(shè)計(jì)出能結(jié)合生物物理模擬器的混合模型。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

在斑馬魚(yú)全腦神經(jīng)活動(dòng)預(yù)測(cè)中,AI系統(tǒng)生成的模型(藍(lán)色)整體誤差更低,全面超越現(xiàn)有基線方法(紅色),其中TS-Jaxley更是將生物物理模擬器融入預(yù)測(cè),提升了可解釋性

數(shù)學(xué):難積分迎刃而解

數(shù)學(xué)問(wèn)題一向是最能考驗(yàn)算法極限的地方。

谷歌的系統(tǒng)被拿來(lái)挑戰(zhàn)19個(gè)異常棘手的積分任務(wù),結(jié)果出乎意料:標(biāo)準(zhǔn)數(shù)值方法幾乎全軍覆沒(méi),而AI系統(tǒng)卻成功算出了其中17個(gè)。

剛剛,谷歌發(fā)布71頁(yè)AI科研報(bào)告,6大領(lǐng)域全面超越專家,幾小時(shí)頂幾個(gè)月

打開(kāi)今日頭條查看圖片詳情

數(shù)值積分任務(wù)的部分示例。谷歌系統(tǒng)在19個(gè)測(cè)試積分中成功求解了17個(gè),而標(biāo)準(zhǔn)數(shù)值方法未能給出結(jié)果。

這說(shuō)明,它并不只是停留在表面,而是真正學(xué)會(huì)了如何在復(fù)雜數(shù)學(xué)場(chǎng)景中找到突破口。

對(duì)科研人員來(lái)說(shuō),這意味著在長(zhǎng)期困擾的數(shù)值計(jì)算上,AI已經(jīng)能給出可用的答案。

時(shí)間序列:零起步構(gòu)建通用預(yù)測(cè)庫(kù)

在通用時(shí)間序列預(yù)測(cè)的GIFT-Eval基準(zhǔn)上,谷歌的系統(tǒng)完成了一件幾乎不可能的事:

從零開(kāi)始,只靠一段代碼不斷爬坡優(yōu)化,硬是煉成了一個(gè)能覆蓋28個(gè)數(shù)據(jù)集、跨越7個(gè)領(lǐng)域、適配從秒到年的10種頻率的通用預(yù)測(cè)庫(kù)。

這意味著,AI不僅能解具體問(wèn)題,還能自己總結(jié)出一套通用方法——科研里最難啃的「跨領(lǐng)域泛化」,它也啃下來(lái)了。

科研范式的轉(zhuǎn)折:AI能創(chuàng)新,也能跨界

如果說(shuō)前面的六個(gè)案例只是成績(jī)單,那么它們背后真正震撼的是:AI已經(jīng)不滿足于模仿,而是在科研中展現(xiàn)出了創(chuàng)新能力與跨學(xué)科的通用性。

在基因組學(xué)任務(wù)中,它能夠自動(dòng)把兩個(gè)不同的專家方法組合起來(lái),得到比人類更優(yōu)的解;

在神經(jīng)科學(xué)任務(wù)里,它甚至首次把生物物理模擬器和深度模型拼接,開(kāi)辟出一種全新的混合思路。

類似的嘗試在學(xué)界和業(yè)界已有先例:比如DeepResearchGym提供了評(píng)測(cè)框架,OpenProblems.bio社區(qū)建立了scRNA-seq的公開(kāi)基準(zhǔn)。

但谷歌的系統(tǒng)首次在這些基準(zhǔn)上全面跑通pipeline,給出了可量化、可復(fù)現(xiàn)的專家級(jí)結(jié)果。

這種創(chuàng)新并不是單點(diǎn)突破,而是跨學(xué)科的普遍現(xiàn)象。

從基因組學(xué)到公共健康,從遙感影像到時(shí)間序列預(yù)測(cè),系統(tǒng)都能快速適配,找到新的路徑。

這些基準(zhǔn)的多樣性使我們能夠綜合評(píng)估其在零樣本泛化、高維信號(hào)處理、不確定性量化、復(fù)雜數(shù)據(jù)語(yǔ)義解釋和系統(tǒng)層面建模等方面的能力。

過(guò)去科學(xué)家依靠反復(fù)試驗(yàn)推進(jìn),如今AI系統(tǒng)也能以相同方式進(jìn)行大規(guī)模試錯(cuò),而且速度提升數(shù)百倍——把幾個(gè)月的探索壓縮到幾小時(shí)。

這意味著科研節(jié)奏可能迎來(lái)真正的「指數(shù)級(jí)加速」。

當(dāng)AI走進(jìn)實(shí)驗(yàn)室,人類該做什么?

AI已經(jīng)能在多個(gè)前沿領(lǐng)域生成新方法、驗(yàn)證結(jié)果、超越專家,人類科學(xué)家的角色也正在被重新定義。

在這套系統(tǒng)里,AI負(fù)責(zé)的是不知疲倦的實(shí)驗(yàn)與探索:

成千上萬(wàn)種方案的嘗試、優(yōu)化和篩選,本來(lái)需要幾個(gè)月甚至更久,如今壓縮到幾小時(shí)或幾天。

我們的系統(tǒng)能夠快速生成專家級(jí)別的解決方案,將一組想法的探索時(shí)間從數(shù)月縮短到數(shù)小時(shí)或數(shù)天。

而科學(xué)家的職責(zé),正逐漸轉(zhuǎn)向提出方向、判斷價(jià)值、定義優(yōu)先級(jí)。

AI可以在技術(shù)路徑上無(wú)限拓展,但科研問(wèn)題本身的意義、背后的社會(huì)價(jià)值,仍然需要人類去設(shè)定和把握。

這意味著,科研分工正在走向一種新的格局:

AI或許會(huì)成為高效實(shí)驗(yàn)員和方法發(fā)明者,人類則站在更高的維度上進(jìn)行選擇與決策。

這意味著,谷歌的系統(tǒng)不再只是一個(gè)「研究工具」的實(shí)驗(yàn),而是邁向了和FunSearch、AI co-scientist等項(xiàng)目同一賽道的下一步——

從單點(diǎn)突破走向跨領(lǐng)域的科研合作者。

值得一提的是,谷歌已經(jīng)將這套系統(tǒng)產(chǎn)出的最佳方案全部開(kāi)源,并提供交互界面讓研究人員追蹤整個(gè)搜索與突破過(guò)程。

這種開(kāi)放姿態(tài),意味著科研界可以直接在真實(shí)任務(wù)里驗(yàn)證、擴(kuò)展這些AI生成解法。

參考資料:

https:///abs/2509.06503

https://research.google/blog/accelerating-scientific-discovery-with-ai-powered-empirical-software/

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多