|
關(guān)鍵詞:AIGC;NLP;ChatGLM;AGI;LLAMA;BERT;GLM;LLVM;LSAT;ChatGPT;深度學(xué)習(xí);高性能計(jì)算;大語(yǔ)言模型;大型語(yǔ)言模型;CPU;GPU;HPC;液冷服務(wù)器;GPU服務(wù)器;GPU工作站;藍(lán)海大腦;人工智能;液冷散熱;A100;V100;A800;H100;H800;AI;水冷工作站 日前,隨著深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練等技術(shù)的保駕護(hù)航,通用人工智能時(shí)代即將到來(lái)。各個(gè)廠商也都在緊鑼密鼓的布局,如AMD MI300X 其內(nèi)存遠(yuǎn)超120GB的英偉達(dá)GPU芯片H100,高達(dá)192GB。 6月22日,英特爾(Intel)宣布,美國(guó)能源部阿貢國(guó)家實(shí)驗(yàn)室已完成新一代超級(jí)計(jì)算機(jī)"Aurora"的安裝工作。這臺(tái)超級(jí)計(jì)算機(jī)基于英特爾的CPU和GPU,預(yù)計(jì)在今年晚些時(shí)候上線,將提供超過(guò)2 exaflops的FP64浮點(diǎn)性能,超越美國(guó)能源部橡樹嶺國(guó)家實(shí)驗(yàn)室的"Frontier",有望成為全球第一臺(tái)理論峰值性能超過(guò)2 exaflops的超級(jí)計(jì)算機(jī)。 Aurora超級(jí)計(jì)算機(jī)是英特爾、惠普(HPE)和美國(guó)能源部(DOE)的合作項(xiàng)目,旨在充分發(fā)揮高性能計(jì)算(HPC)在模擬、數(shù)據(jù)分析和人工智能(AI)領(lǐng)域的潛力。該系統(tǒng)由10624個(gè)刀片服務(wù)器組成,每個(gè)刀片由兩個(gè)英特爾Xeon Max系列CPU(至強(qiáng)Max 9480)和六個(gè)英特爾Max系列GPU組成。 英偉達(dá)前段時(shí)間發(fā)布GH 200包含 36 個(gè) NVLink 開關(guān),將 256 個(gè) GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個(gè)單元。除此之外,英偉達(dá)A100、A800、H100、V100、H800也在大模型訓(xùn)練中更是廣受歡迎。 那么英偉達(dá)A100、A800、H100、V100、H800等卡為何廣受歡迎,國(guó)內(nèi)廠商又是如何布局的呢?下面讓我們一起來(lái)看下。 一、英偉達(dá)大模型訓(xùn)練GPU全系列介紹 自O(shè)penAI發(fā)布ChatGPT以來(lái),生成式人工智能技術(shù)一直是備受關(guān)注的熱門趨勢(shì)。這項(xiàng)技術(shù)需要強(qiáng)大的算力來(lái)生成文本、圖像、視頻等內(nèi)容。在這個(gè)背景下,算力成為人工智能領(lǐng)域的必備條件,而英偉達(dá)作為芯片巨頭所生產(chǎn)的人工智能芯片在其中扮演著至關(guān)重要的角色。英偉達(dá)先后推出V100、A100和H100等多款用于AI訓(xùn)練的芯片,并為了符合美國(guó)標(biāo)準(zhǔn),推出了A800和H800這兩款帶寬縮減版產(chǎn)品,在中國(guó)大陸市場(chǎng)銷售。 V100是英偉達(dá)公司推出的高性能計(jì)算和人工智能加速器,屬于Volta架構(gòu)系列。它采用16nm FinFET工藝,擁有5120個(gè)CUDA核心和16GB到32GB的HBM2顯存。V100還配備Tensor Cores加速器,可提供高達(dá)120倍的深度學(xué)習(xí)性能提升。此外,V100支持NVLink技術(shù),實(shí)現(xiàn)高速的GPU到GPU通信,加速大規(guī)模模型的訓(xùn)練速度。V100被廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景,包括自然語(yǔ)言處理、計(jì)算機(jī)視覺和語(yǔ)音識(shí)別等領(lǐng)域。 A100是英偉達(dá)推出的一款強(qiáng)大的數(shù)據(jù)中心GPU,采用全新的Ampere架構(gòu)。它擁有高達(dá)6,912個(gè)CUDA核心和40GB的高速HBM2顯存。A100還包括第二代NVLink技術(shù),實(shí)現(xiàn)快速的GPU到GPU通信,提升大型模型的訓(xùn)練速度。此外,A100還支持英偉達(dá)自主研發(fā)的Tensor Cores加速器,可提供高達(dá)20倍的深度學(xué)習(xí)性能提升。A100廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景,包括自然語(yǔ)言處理、計(jì)算機(jī)視覺和語(yǔ)音識(shí)別等領(lǐng)域。 在大模型訓(xùn)練中,V100和A100都是非常強(qiáng)大的GPU。以下是它們的主要區(qū)別和優(yōu)勢(shì): 1、架構(gòu) V100和A100在架構(gòu)上有所不同。V100采用Volta架構(gòu),而A100則采用全新的Ampere架構(gòu)。Ampere架構(gòu)相對(duì)于Volta架構(gòu)進(jìn)行一些改進(jìn),包括更好的能源效率和全新的Tensor Core加速器設(shè)計(jì)等,這使得A100在某些場(chǎng)景下可能表現(xiàn)出更出色的性能。 2、計(jì)算能力 A100配備高達(dá)6,912個(gè)CUDA核心,比V100的5120個(gè)CUDA核心更多。這意味著A100可以提供更高的每秒浮點(diǎn)運(yùn)算數(shù)(FLOPS)和更大的吞吐量,從而在處理大型模型和數(shù)據(jù)集時(shí)提供更快的訓(xùn)練速度。 3、存儲(chǔ)帶寬 V100的內(nèi)存帶寬約為900 GB/s,而A100的內(nèi)存帶寬達(dá)到了更高的1555 GB/s。高速內(nèi)存帶寬可以降低數(shù)據(jù)傳輸瓶頸,提高訓(xùn)練效率,因此A100在處理大型數(shù)據(jù)集時(shí)可能表現(xiàn)更出色。 4、存儲(chǔ)容量 V100最高可擁有32GB的HBM2顯存,而A100最高可擁有80GB的HBM2顯存。由于大模型通常需要更多內(nèi)存來(lái)存儲(chǔ)參數(shù)和梯度,A100的更大內(nèi)存容量可以提供更好的性能。 5、通信性能 A100支持第三代NVLink技術(shù),實(shí)現(xiàn)高速的GPU到GPU通信,加快大模型訓(xùn)練的速度。此外,A100還引入Multi-Instance GPU (MIG)功能,可以將單個(gè)GPU劃分為多個(gè)相互獨(dú)立的實(shí)例,進(jìn)一步提高資源利用率和性能。 總的來(lái)說(shuō),A100在處理大型模型和數(shù)據(jù)集時(shí)可能比V100表現(xiàn)更優(yōu)秀,但是在實(shí)際應(yīng)用中,需要結(jié)合具體場(chǎng)景和需求來(lái)選擇合適的GPU。
二、中國(guó)各大廠商如何實(shí)現(xiàn)戰(zhàn)略式布局 全球范圍內(nèi),英偉達(dá)GPU的競(jìng)爭(zhēng)非常激烈。然而,海外巨頭在GPU采購(gòu)方面比較早,并且采購(gòu)量更大,近年來(lái)的投資也相對(duì)連續(xù)。中國(guó)的大型公司對(duì)于GPU的需求和投資動(dòng)作比海外巨頭更為急迫。以百度為例,今年向英偉達(dá)下單的GPU訂單數(shù)量高達(dá)上萬(wàn)塊。盡管百度的規(guī)模要小得多,去年的營(yíng)收僅為1236億元人民幣,相當(dāng)于Google的6%。然而,這顯示出中國(guó)大公司在GPU領(lǐng)域的迅速發(fā)展和巨大需求。 據(jù)了解,字節(jié)、騰訊、阿里和百度是中國(guó)投入最多的AI和云計(jì)算科技公司。在過(guò)去,它們累計(jì)擁有上萬(wàn)塊A100 GPU。其中,字節(jié)擁有的A100數(shù)量最多。不計(jì)算今年的新增訂單,字節(jié)擁有接近10萬(wàn)塊A100和前代產(chǎn)品V100。成長(zhǎng)期的公司商湯也宣稱,其“AI大裝置”計(jì)算集群中已經(jīng)部署了2.7萬(wàn)塊GPU,其中包括1萬(wàn)塊A100。即使是看似與AI無(wú)關(guān)的量化投資公司幻方,也購(gòu)買1萬(wàn)塊A100。 從總數(shù)來(lái)看,這些GPU似乎足夠供各公司訓(xùn)練大型模型使用。根據(jù)英偉達(dá)官方網(wǎng)站的案例,OpenAI在訓(xùn)練具有1750億參數(shù)的GPT-3時(shí)使用了1萬(wàn)塊V100,但訓(xùn)練時(shí)間未公開。根據(jù)英偉達(dá)的估算,如果使用A100來(lái)訓(xùn)練GPT-3,需要1024塊A100進(jìn)行一個(gè)月的訓(xùn)練,而A100相比V100性能提升4.3倍。 中國(guó)的大型公司過(guò)去采購(gòu)的大量GPU主要用于支撐現(xiàn)有業(yè)務(wù)或在云計(jì)算平臺(tái)上銷售,不能自由地用于開發(fā)大模型或滿足客戶對(duì)大模型的需求。這也解釋了中國(guó)AI從業(yè)者對(duì)計(jì)算資源估算存在巨大差異。清華智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤在4月底參加清華論壇時(shí)表示:“如果將中國(guó)的算力加起來(lái),相當(dāng)于50萬(wàn)塊A100,可以輕松訓(xùn)練五個(gè)模型?!?/p> AI公司曠視科技的CEO印奇在接受《財(cái)新》采訪時(shí)表示,中國(guó)目前可用于大型模型訓(xùn)練的A100總數(shù)只有約4萬(wàn)塊。這反映了中國(guó)和外國(guó)大型公司在計(jì)算資源方面的數(shù)量級(jí)差距,包括芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資。最早開始測(cè)試ChatGPT類產(chǎn)品的百度,在過(guò)去幾年的年度資本開支在8億到20億美元之間,阿里在60億到80億美元之間,騰訊在70億到110億美元之間。 與此同時(shí),亞馬遜、Meta、Google和微軟這四家美國(guó)科技公司的自建數(shù)據(jù)中心的年度資本開支最低也超過(guò)150億美元。在過(guò)去三年的疫情期間,海外公司的資本開支持續(xù)增長(zhǎng)。亞馬遜去年的資本開支已達(dá)到580億美元,Meta和Google分別為314億美元,微軟接近240億美元。而中國(guó)公司的投資在2021年后開始收縮。騰訊和百度去年的資本開支同比下降超過(guò)25%。 中國(guó)公司若想長(zhǎng)期投入大模型并賺取更多利潤(rùn),需要持續(xù)增加GPU資源。就像OpenAI一樣,他們面臨著GPU不足的挑戰(zhàn)。OpenAI的CEO Sam Altman在與開發(fā)者交流時(shí)表示,由于GPU不夠,他們的API服務(wù)不夠穩(wěn)定,速度也不夠快。 在獲得更多GPU之前,GPT-4的多模態(tài)能力無(wú)法滿足每個(gè)用戶的需求。同樣,微軟也面臨類似的問(wèn)題。微軟與OpenAI合作密切,他們的新版Bing回答速度變慢,原因是GPU供應(yīng)跟不上用戶增長(zhǎng)的速度。 微軟Office 365 Copilot嵌入了大型模型的能力,目前還沒有大規(guī)模開放,只有600多家企業(yè)在試用??紤]到全球近3億的Office 365用戶數(shù)量,中國(guó)大公司如果想利用大型模型創(chuàng)造更多服務(wù),并支持其他客戶在云上進(jìn)行更多大型模型的訓(xùn)練,就需要提前儲(chǔ)備更多的GPU資源。 三、藍(lán)海大腦大模型訓(xùn)練解決方案 藍(lán)海大腦高性能大模型訓(xùn)練平臺(tái)利用工作流體作為中間熱量傳輸?shù)拿浇?,將熱量由熱區(qū)傳遞到遠(yuǎn)處再進(jìn)行冷卻。支持多種硬件加速器,包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計(jì)算任務(wù)的需求。采用分布式計(jì)算架構(gòu),高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù),為深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練、大型語(yǔ)言模型(LLM)算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化配置??梢钥焖俨渴鸷凸芾砀鞣N計(jì)算任務(wù),提高了計(jì)算資源的利用率和效率。
1、為什么需要大模型? 1)模型效果更優(yōu) 大模型在各場(chǎng)景上的效果均優(yōu)于普通模型 2)創(chuàng)造能力更強(qiáng) 大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn) 3)靈活定制場(chǎng)景 通過(guò)舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景 4)標(biāo)注數(shù)據(jù)更少 通過(guò)學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求 2、產(chǎn)品特點(diǎn) 1)異構(gòu)計(jì)算資源調(diào)度 一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過(guò)強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。 2)穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ) 支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。 3)高性能分布式網(wǎng)絡(luò) 提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過(guò)分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。 4)全方位安全保障 在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉(cāng)庫(kù)的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過(guò)程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。 3、常用產(chǎn)品配置 1)A800工作站常用配置 CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2 內(nèi)存:DDR4 3200 64G *32 數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2 硬盤:3.84T 2.5-E4x4R SSD *2 網(wǎng)絡(luò):雙口10G光纖網(wǎng)卡(含模塊)*1 雙口25G SFP28無(wú)模塊光纖網(wǎng)卡(MCX512A-ADAT )*1 GPU:HV HGX A800 8-GPU 8OGB *1 電源:3500W電源模塊*4 其他:25G SFP28多模光模塊 *2 單端口200G HDR HCA卡(型號(hào):MCX653105A-HDAT) *4 2GB SAS 12Gb 8口 RAID卡 *1 16A電源線纜國(guó)標(biāo)1.8m *4 托軌 *1 主板預(yù)留PCIE4.0x16接口 *4 支持2個(gè)M.2 *1 原廠質(zhì)保3年 *1 2)A100工作站常用配置 CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2 RAM:64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16 SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1 SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2 GPU:NVIDIA TESLA A100 80G SXM *8 網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2 網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1 3)H100工作站常用配置 CPU:英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2 內(nèi)存:動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR5 4800兆赫 *24 存儲(chǔ):固態(tài)硬盤3.2TB U.2 PCIe第4代 *4 GPU :Nvidia Vulcan PCIe H100 80GB *8 平臺(tái) :HD210 *1 散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1 網(wǎng)絡(luò) :英偉達(dá)IB 400Gb/s單端口適配器 *8 電源:2000W(2+2)冗余高效電源 *1 4)H800工作站常用配置 CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2 內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32 系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4 GPU: NVIDIA Tesla H800 -80GB HBM2 *8 GPU網(wǎng)絡(luò): NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8 存儲(chǔ)網(wǎng)絡(luò) :雙端口 200GbE IB *1 網(wǎng)卡 :25G網(wǎng)絡(luò)接口卡 雙端口 *1 |
|
|