Aparna Ramani在2024年AI Infra @Scale會(huì)議上發(fā)表開(kāi)幕主旨演講 她負(fù)責(zé)AI基礎(chǔ)設(shè)施、數(shù)據(jù)基礎(chǔ)設(shè)施和開(kāi)發(fā)者基礎(chǔ)設(shè)施。 核心觀點(diǎn)
-----
本年度AI成為科技行業(yè)焦點(diǎn),伴隨著更大更強(qiáng)的模型、新型AI驅(qū)動(dòng)應(yīng)用,以及與會(huì)者們所關(guān)注的大量GPU。在深入探討當(dāng)前狀況前,讓我們回顧歷史,以全面理解當(dāng)下。
AI的歷史可追溯至20世紀(jì)50年代,艾倫·圖靈(Alan Turing)首次提出機(jī)器是否能思考的問(wèn)題。早期熱潮后,AI經(jīng)歷了漫長(zhǎng)的'寒冬'。90年代末,情況好轉(zhuǎn),許多人將'AI寒冬'的結(jié)束歸功于'深藍(lán)'(Deep Blue)。1997年,IBM的'深藍(lán)'在國(guó)際象棋比賽中擊敗世界冠軍加里·卡斯帕羅夫(Garry Kasparov)。'深藍(lán)'由近500個(gè)定制芯片驅(qū)動(dòng),每秒可處理約2億步棋。當(dāng)時(shí)被視為未來(lái),實(shí)際上它只是手工編程計(jì)算機(jī)智能的巔峰。
隨后出現(xiàn)的是神經(jīng)網(wǎng)絡(luò)。Yann LeCun在80年代提出的卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)經(jīng)歷了多次演變。1998年,LeNet-5 CNN在超過(guò)6萬(wàn)個(gè)郵政編碼樣本中以99%以上的準(zhǔn)確率識(shí)別手寫(xiě)郵政編碼。CNN訓(xùn)練困難,一度使循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)更受青睞。2012年,AlexNet的出現(xiàn)被稱為AI的'大爆炸'時(shí)刻。AlexNet是一個(gè)規(guī)模遠(yuǎn)大于LeNet-5的CNN,在當(dāng)時(shí)最大的圖像數(shù)據(jù)集之一ImageNet上訓(xùn)練,包含超過(guò)1400萬(wàn)張圖像,僅使用兩塊GPU。AlexNet大幅提升了圖像標(biāo)注精度,并證明了CNN可并行化訓(xùn)練。 五年后,Google發(fā)表《Attention Is All You Need》,引入Transformer模型概念,推動(dòng)了大規(guī)模語(yǔ)言模型的創(chuàng)新:Google的BERT,隨后是GPT。2021年,擴(kuò)散模型嶄露頭角,DALL·E展示了驚人的文本生成圖像能力。2022年11月,ChatGPT將這些模型突破帶入公眾視野。2023年,Meta開(kāi)放LLaMA 2供研究和商用。隨后我們推出LLaMA 3,包括700億和80億參數(shù)模型,上周發(fā)布了450億參數(shù)的LLaMA 3.1,這是首個(gè)前沿級(jí)開(kāi)源AI模型。這些發(fā)布引發(fā)了行業(yè)創(chuàng)新浪潮,并圍繞LLaMA建立了完整生態(tài)系統(tǒng)。
AlexNet與GPT之間的十年與當(dāng)前創(chuàng)新速度和強(qiáng)度形成有趣對(duì)比。許多與會(huì)者共同推動(dòng)了AI的深入發(fā)展。作為AI Infra @Scale活動(dòng),我想討論模型創(chuàng)新與基礎(chǔ)設(shè)施的聯(lián)系。AI研究與基礎(chǔ)設(shè)施演進(jìn)始終保持共生關(guān)系。計(jì)算能力、分布式系統(tǒng)和大規(guī)模數(shù)據(jù)處理的可用性促成了當(dāng)今AI領(lǐng)域的創(chuàng)新。同樣,AI的發(fā)展路線也塑造了基礎(chǔ)設(shè)施的演進(jìn)。
簡(jiǎn)述數(shù)據(jù)中心計(jì)算歷史:幾十年來(lái),數(shù)據(jù)中心一直由x86架構(gòu)CPU主導(dǎo)。然而,GPU在浮點(diǎn)運(yùn)算方面優(yōu)勢(shì)明顯,而這正是模型學(xué)習(xí)的核心。2012年前,數(shù)據(jù)中心GPU數(shù)量幾乎可忽略。2017年開(kāi)始出現(xiàn)大型研究集群。Meta也建立了首個(gè)研究級(jí)超級(jí)計(jì)算機(jī),數(shù)據(jù)中心GPU數(shù)量隨之增長(zhǎng)。
ChatGPT 2022年發(fā)布后,GPU使用量呈爆炸式增長(zhǎng)。這種轉(zhuǎn)變是根本性的,因此有人說(shuō):'今天的計(jì)算機(jī)不再是PC,而是數(shù)據(jù)中心。'現(xiàn)在,單個(gè)訓(xùn)練任務(wù)可能部署數(shù)萬(wàn)臺(tái)GPU集群,而整個(gè)數(shù)據(jù)中心的GPU數(shù)量甚至達(dá)到數(shù)十萬(wàn)個(gè)。
在Meta數(shù)據(jù)中心,今年年底我們將擁有60萬(wàn)臺(tái)GPU設(shè)備。這是在現(xiàn)有CPU基礎(chǔ)設(shè)施之外的額外投入,使我們能運(yùn)行多個(gè)并行工作負(fù)載。
自'深藍(lán)'和AlexNet早期以來(lái),我們的行業(yè)和社會(huì)雄心已大幅提升。如今,我們討論的是通用智能,即機(jī)器能夠完成任務(wù),甚至復(fù)雜任務(wù),達(dá)到或超越人類水平。無(wú)論你持何種觀點(diǎn),無(wú)可否認(rèn)我們?nèi)蕴幱谶@一旅程的早期階段,還有很多需要學(xué)習(xí)。
讓我們討論擴(kuò)展這些模型以實(shí)現(xiàn)宏偉目標(biāo)時(shí)面臨的挑戰(zhàn)。當(dāng)前模型基于三個(gè)輸入在可預(yù)測(cè)地改進(jìn):數(shù)據(jù)、計(jì)算和算法。
首先是數(shù)據(jù)。訓(xùn)練這些模型所需的數(shù)據(jù)量巨大。每一代模型訓(xùn)練都會(huì)添加更多數(shù)據(jù),達(dá)到數(shù)萬(wàn)億token。例如,LLaMA 3.1的訓(xùn)練使用了超過(guò)15萬(wàn)億個(gè)token。
在基礎(chǔ)設(shè)施方面,我們?cè)跀?shù)據(jù)加載、訓(xùn)練準(zhǔn)備和從數(shù)據(jù)中提取高質(zhì)量信號(hào)方面取得了重大進(jìn)展。我們持續(xù)改進(jìn)數(shù)據(jù)管道和數(shù)據(jù)倉(cāng)庫(kù),以適應(yīng)AI的擴(kuò)展。但這里存在更大、更深層次的挑戰(zhàn)。
人們?cè)絹?lái)越認(rèn)識(shí)到,數(shù)據(jù)可能很快成為瓶頸,甚至在未來(lái)幾年內(nèi)可能發(fā)生。對(duì)于何時(shí)會(huì)耗盡高質(zhì)量人類生成數(shù)據(jù),有各種預(yù)測(cè)。這是難以想象的情景。
作為一個(gè)社區(qū)和行業(yè),我們?cè)撛趺醋??我們必須在?shù)據(jù)本身、數(shù)據(jù)處理和數(shù)據(jù)質(zhì)量上實(shí)現(xiàn)重大效率提升。整個(gè)行業(yè)也在努力生成合成數(shù)據(jù),即模型生成自身數(shù)據(jù),然后進(jìn)行自我評(píng)估。這確實(shí)是非常令人興奮的工作。
第二個(gè)主要輸入是計(jì)算。這與在座每個(gè)人息息相關(guān)。保守估計(jì)顯示,行業(yè)內(nèi)大型模型的訓(xùn)練需求每年增長(zhǎng)約四倍。假設(shè)這種擴(kuò)展趨勢(shì)持續(xù),我們?nèi)栽谂鉀Q一系列基礎(chǔ)設(shè)施挑戰(zhàn)。
首先是購(gòu)買(mǎi)或生產(chǎn)大量GPU。這些芯片價(jià)格昂貴,且制造商很少。約一年前,整個(gè)行業(yè)經(jīng)歷了嚴(yán)重的供應(yīng)鏈危機(jī),大家都在搶購(gòu)GPU。
我們?cè)_(kāi)玩笑說(shuō),在供應(yīng)鏈危機(jī)期間購(gòu)買(mǎi)GPU就像疫情高峰期買(mǎi)廁紙一樣困難。那么,我們?yōu)榻档瓦@一風(fēng)險(xiǎn)做了什么?
Meta和其他一些公司正在開(kāi)發(fā)自有定制芯片。自有芯片的巨大優(yōu)勢(shì)是可針對(duì)我們的工作負(fù)載優(yōu)化,從而在成本和性能上獲得顯著優(yōu)勢(shì)。
此外,大型集群的一個(gè)重大瓶頸是能耗。GPU的能效極低,每個(gè)GPU消耗約0.5-1千瓦電力,而人腦總能耗僅約25瓦。能效差距巨大,除非我們?cè)谀茉搭I(lǐng)域?qū)崿F(xiàn)真正的創(chuàng)新,否則能源將成為擴(kuò)展能力的瓶頸。
訓(xùn)練過(guò)程中也面臨擴(kuò)展挑戰(zhàn)。GPU在訓(xùn)練中必須互聯(lián)并行計(jì)算。不幸的是,單個(gè)GPU故障會(huì)導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷,因?yàn)槟P筒辉偬幱谝恢聽(tīng)顟B(tài)。
目前,每次出現(xiàn)故障時(shí),我們都修復(fù)問(wèn)題,重新啟動(dòng)訓(xùn)練,然后繼續(xù)。停止和重啟相當(dāng)痛苦,隨著GPU數(shù)量增加,故障可能性也會(huì)增加,使問(wèn)題更加嚴(yán)重。
在某個(gè)臨界點(diǎn),故障數(shù)量可能多到壓倒性地步,使我們?cè)诮鉀Q這些故障上花費(fèi)過(guò)多時(shí)間,幾乎無(wú)法完成一次訓(xùn)練運(yùn)行。 對(duì)此,整個(gè)行業(yè)都在關(guān)注和投資。我們致力于縮短故障檢測(cè)時(shí)間、加快重啟速度,甚至研究新范式,如異步訓(xùn)練等。這將是一個(gè)值得關(guān)注的激動(dòng)人心領(lǐng)域。
除此之外,還有許多挑戰(zhàn)等待解決。網(wǎng)絡(luò)需要徹底改造,因?yàn)槲覀兲幚泶笠?guī)模網(wǎng)絡(luò),GPU之間需要互聯(lián)和通信。現(xiàn)有協(xié)議已無(wú)法擴(kuò)展。此外,這些互聯(lián)GPU溫度極高,現(xiàn)有數(shù)據(jù)中心冷卻技術(shù)無(wú)法應(yīng)對(duì),因此我們正為數(shù)據(jù)中心發(fā)明新型冷卻技術(shù)。我們面臨的工程挑戰(zhàn)清單令人驚嘆。
討論完數(shù)據(jù)和計(jì)算,現(xiàn)在談?wù)勀P退惴ū旧?。研究在此快速發(fā)展,基礎(chǔ)設(shè)施方面的任務(wù)是確保盡快將研究突破應(yīng)用于生產(chǎn)和社區(qū)。關(guān)于算法本身,有幾種觀點(diǎn)值得關(guān)注,以了解哪些因素可能導(dǎo)致通用智能的實(shí)現(xiàn)。
首先是'規(guī)模至上'(scale is everything)觀點(diǎn)。在語(yǔ)言模型中,特別是經(jīng)過(guò)良好訓(xùn)練時(shí),模型規(guī)模仍是性能的最大預(yù)測(cè)因素。目前存在激烈爭(zhēng)論:這些在下一個(gè)token預(yù)測(cè)上越來(lái)越出色的模型,是否能在理解、推理、觀察概念和得出結(jié)論方面取得突破。它們是否能應(yīng)用推理和因果關(guān)系,以及所有人類智能共有的特性,還有待觀察。
第二種觀點(diǎn)認(rèn)為,模型需要對(duì)世界有更扎實(shí)的理解——這種理解來(lái)自探索、實(shí)驗(yàn)和互動(dòng),類似兒童與世界互動(dòng)的方式。因此,有一種假設(shè)認(rèn)為我們需要世界模型(world models)來(lái)進(jìn)行前向模擬,提高規(guī)劃和準(zhǔn)確性。這一理念驅(qū)動(dòng)了我們實(shí)驗(yàn)室的部分研究工作,我們團(tuán)隊(duì)正在研究聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA,Joint Embedding Predictive Architectures)。
機(jī)器學(xué)習(xí)的效率遠(yuǎn)低于人類學(xué)習(xí)。機(jī)器可獲得新信息,但需要數(shù)十億個(gè)參數(shù)和大量相似信息的曝光,而人類可以學(xué)習(xí)某個(gè)概念,立即獲得洞察,并用這些洞察做決策。第三種假設(shè)認(rèn)為,我們應(yīng)從人腦中尋找新模型架構(gòu)的線索。
在所有這些討論中,你可能會(huì)問(wèn):什么時(shí)候能實(shí)現(xiàn)通用智能?我不會(huì)對(duì)是否需要兩年還是二十年發(fā)表看法。但我目前所知和相信的是:考慮到支持這種基礎(chǔ)模型創(chuàng)新所需的規(guī)模和大小,全球能做到這一點(diǎn)的實(shí)體非常有限。
我們看到兩種不同方法:封閉方法和開(kāi)放方法。Meta公開(kāi)宣示采用開(kāi)放方法。一般而言,開(kāi)放方法有助于分散創(chuàng)新,防止權(quán)力集中在少數(shù)甚至單一實(shí)體手中。我認(rèn)為這相當(dāng)值得贊賞。
在模型方面,我們致力于構(gòu)建與頂尖專有模型競(jìng)爭(zhēng)的模型。我預(yù)期,只要條件允許,我們將繼續(xù)開(kāi)源這些模型。
我們有開(kāi)源底層基礎(chǔ)設(shè)施的悠久歷史,無(wú)論是開(kāi)源數(shù)據(jù)中心設(shè)計(jì)的Open Compute Project,還是用于構(gòu)建用戶界面的React。更貼近我們的是PyTorch,目前最主流的機(jī)器學(xué)習(xí)開(kāi)發(fā)庫(kù)。我們將繼續(xù)在這些基礎(chǔ)上進(jìn)行社區(qū)建設(shè)。 對(duì)技術(shù)人員來(lái)說(shuō),這是絕佳時(shí)機(jī)。接下來(lái)幾年將改變我們的工作和生活方式。如前所述,沒(méi)有任何單一公司或研究團(tuán)隊(duì)對(duì)迄今為止的所有創(chuàng)新負(fù)責(zé)。進(jìn)展如此之快,部分原因是我們齊心協(xié)力,相互借鑒。一篇論文的發(fā)布、庫(kù)的發(fā)布、新開(kāi)源模型的宣布,這就是@Scale的精神。 ---【本文完】---
|
|
|
來(lái)自: mrjiangkai > 《我的圖書(shū)館》