|
財聯(lián)社(2025)9月8日電,記者今天從中國科學(xué)院自動化研究所獲悉,近日,該研究所李國齊、徐波團隊與相關(guān)單位合作,成功研發(fā)出類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)。 與當前主流大模型架構(gòu)(Transformer架構(gòu))不同,“瞬悉1.0”借鑒大腦神經(jīng)元內(nèi)部工作機制,清晰地展示了一條不斷提升模型復(fù)雜度和性能的新型可行路徑。 該模型僅需約主流模型2%的數(shù)據(jù)量,就能在多項語言理解和推理任務(wù)中達到媲美眾多主流模型的性能。 這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu),并首次在國產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。其超長序列處理能力在法律與醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。 本次發(fā)布的大模型為新一代人工智能發(fā)展提供了非Transformer架構(gòu)的新技術(shù)路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。 我國在人工智能大模型領(lǐng)域取得重大突破!科研團隊成功研發(fā)出類腦脈沖大模型,取名“瞬息1.0”! 與傳統(tǒng)的大模型不同,這款大模型采用全新架構(gòu),能夠模仿人類大腦工作,是具有劃時代意義的產(chǎn)品,甚至能幫助我們在人工智能領(lǐng)域?qū)崿F(xiàn)“彎道超車”。 簡單來說,訓(xùn)練這款模型只需要傳統(tǒng)大模型的2%數(shù)據(jù)量,非常高效。其特點是擅長超長文本,如法律文書、醫(yī)學(xué)報告、DNA序列等,非常強大!最重要的是它的工作方式是模仿大腦神經(jīng)元,功耗非常低。 總之,這款大模型的出現(xiàn)直接利好我們的國產(chǎn)算力替代和AI芯片,驗證類腦類芯片技術(shù)的可行性,為下一代人工智能芯片指明了方向,也給了我們彎道超車的機會。 9月8號凌晨一點,中科院自動化所機房燈火通明。研究員李國齊盯著屏幕上的曲線:760億參數(shù)的“瞬息1.0”在國產(chǎn)曦云C550 GPU上跑完最后一輪推理,序列長度拉到1000萬token,顯存占用只有同規(guī)模Transformer的1/8,功耗更是低到可以用“家用空調(diào)”來比喻一一同樣任務(wù)下,傳統(tǒng)模型需要60臺8卡A100、320千瓦功耗,而“瞬息”只用千卡國產(chǎn)GPU、45千瓦就搞定,省下的電夠北京一個小區(qū)用半個月。凌晨兩點,團隊把模型開源,不到三小時,下載量沖破兩萬,GitHub熱榜直接沖到第一,評論區(qū)一片“國產(chǎn)之光”。 幕后故事比數(shù)據(jù)更燃。三年前,李國齊和徐波在香山會議上提出“內(nèi)生復(fù)雜性”理論,被國外審稿人批“空想”,經(jīng)費申請兩次被刷;他們干脆把實驗室舊服務(wù)器拼成“土法”集群,用100塊二手GPU日夜跑實驗,終于證明脈沖神經(jīng)元+線性注意力可以撐起大模型。今年5月,沐曦MetaX主動找上門,把最新曦云C550樣機借給團隊,雙方一起寫了27個Triton算子,把脈沖發(fā)放機制做成可微分算子,才讓760億參數(shù)真正跑通?,F(xiàn)在,國內(nèi)三家頂級律所已經(jīng)用“瞬息”審合同,一份300頁的法律文書,傳統(tǒng)模型要拆分段落、人工校正兩天,它一口氣讀完,關(guān)鍵條款定位誤差不到0.3%,直接把外包團隊砍掉一半。 為什么它能“省電又省數(shù)據(jù)”?核心在“脈沖”一一模仿大腦神經(jīng)元只有當膜電位達到閾值才放電,其余時間靜默,計算量呈稀疏爆發(fā);相比Transformer每步都要全局注意力平方級計算,瞬息把復(fù)雜度壓到線性,訓(xùn)練數(shù)據(jù)自然只需2%,推理功耗直接砍一個量級。更妙的是,脈沖天然適合國產(chǎn)芯片:曦云C550的片上SRAM大、計算單元精簡,正好匹配稀疏發(fā)放,不需要高頻率高功耗的矩陣乘法,這讓國產(chǎn)工藝28nm就能跑出7nm的能效,繞過先進制程卡脖子。業(yè)內(nèi)人士算過賬:如果全國搜索、推薦、客服都用瞬息架構(gòu),一年可省電費30億度,相當于三峽電站一周的發(fā)電量。 別急著喊“彎道超車”,路還長。脈沖大模型對芯片的稀疏調(diào)度、編譯器、通信庫全是新需求,生態(tài)剛起步;但政策已經(jīng)開閘一一北京、上海、深圳接連把“神經(jīng)形態(tài)計算”寫進三年行動計劃,明確給芯片流片、模型訓(xùn)練各30%補貼。沐曦下一代曦云D1200已在流片,單卡脈沖算力再翻3倍,明年Q2回片。李國齊在發(fā)布會放下狠話:“五年后,中國要定義自己的大模型賽道,不再跟著Transformer后面吃灰?!?/p> |
|
|