|
IT之家 9 月 8 日消息,中國科學(xué)院自動(dòng)化研究所今日官宣,該所李國齊、徐波團(tuán)隊(duì)在發(fā)表原創(chuàng)內(nèi)生復(fù)雜性理論系列論文的工作基礎(chǔ)上,與沐曦 MetaX 合作,打造了類腦脈沖大模型“瞬悉 1.0”(SpikingBrain-1.0),在國產(chǎn)千卡 GPU 算力平臺(tái)上完成全流程訓(xùn)練和推理,實(shí)現(xiàn)了大模型在超長序列推理上數(shù)量級(jí)的效率和速度提升,展示了構(gòu)建國產(chǎn)自主可控的新型非 Transformer 大模型架構(gòu)生態(tài)的可行性。 研究團(tuán)隊(duì)開源了 SpikingBrain-1.0-7B 模型并開放 SpikingBrain-1.0-76B 測試網(wǎng)址,同步公開了經(jīng)工業(yè)界大規(guī)模驗(yàn)證的類腦脈沖大模型 SpikingBrain-1.0 中英文技術(shù)報(bào)告。 當(dāng)前,基于 Transformer 架構(gòu)的大模型在 Scaling law 驅(qū)動(dòng)下,通過增加網(wǎng)絡(luò)規(guī)模、算力資源和數(shù)據(jù)量提升模型智能水平,但模型的基本計(jì)算單元為簡單的點(diǎn)神經(jīng)元模型,我們將此路徑稱為“基于外生復(fù)雜性”的通用智能實(shí)現(xiàn)方法。Transformer 架構(gòu)的固有缺點(diǎn)訓(xùn)練時(shí)開銷隨序列長度呈平方級(jí)增長以及推理時(shí)顯存占用也隨序列長度線性增加,構(gòu)成了資源消耗的主要瓶頸,導(dǎo)致其處理超長序列的能力受限。 研發(fā)團(tuán)隊(duì)借鑒大腦神經(jīng)元內(nèi)部復(fù)雜工作機(jī)制提出“基于內(nèi)生復(fù)雜性”的大模型構(gòu)架方式,打造類腦脈沖大模型“瞬悉 1.0”( SpikingBrain-1.0),在理論上建立了脈沖神經(jīng)元內(nèi)生動(dòng)力學(xué)與線性注意力模型之間的聯(lián)系,揭示了現(xiàn)有線性注意力機(jī)制是樹突計(jì)算的特殊簡化形式,從而清晰地展示了一條不斷提升模型復(fù)雜度和性能的新型可行路徑。
打開今日頭條查看圖片詳情 研發(fā)團(tuán)隊(duì)進(jìn)而構(gòu)建并開源了基于脈沖神經(jīng)元、具有線性(SpikingBrain-1.0-7B)及混合線性復(fù)雜度(SpikingBrain-1.0-76B,激活參數(shù)量 12B)的新型類腦基礎(chǔ)模型,開發(fā)了面向國產(chǎn) GPU(沐曦 MetaX 曦云 C550)集群高效訓(xùn)練和推理框架、Triton 算子庫、模型并行策略以及集群通信原語。 SpikingBrain-1.0 在多個(gè)核心性能上實(shí)現(xiàn)突破:
打開今日頭條查看圖片詳情 中國科學(xué)院自動(dòng)化研究所表示,這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu)、并首次在國產(chǎn) GPU 算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。提出的模型解決了脈沖驅(qū)動(dòng)限制下的大規(guī)模類腦模型性能退化問題,其超長序列處理能力在法律 / 醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實(shí)驗(yàn)、DNA 序列分析、分子動(dòng)力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。本次發(fā)布的大模型為新一代人工智能發(fā)展提供了非 Transformer 架構(gòu)的新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計(jì)算理論和芯片設(shè)計(jì)。 IT之家附 SpikingBrain-1.0-7B 開源地址: 試用網(wǎng)站: |
|
|