我國科研人員研發(fā)出類腦脈沖大模型

johnhake 2025-09-10 發(fā)布于山東

展開全文

財聯(lián)社（2025）9月8日電，記者今天從中國科學(xué)院自動化研究所獲悉，近日，該研究所李國齊、徐波團隊與相關(guān)單位合作，成功研發(fā)出類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)。

與當前主流大模型架構(gòu)(Transformer架構(gòu))不同，“瞬悉1.0”借鑒大腦神經(jīng)元內(nèi)部工作機制，清晰地展示了一條不斷提升模型復(fù)雜度和性能的新型可行路徑。

該模型僅需約主流模型2%的數(shù)據(jù)量，就能在多項語言理解和推理任務(wù)中達到媲美眾多主流模型的性能。

這是我國首次提出大規(guī)模類腦線性基礎(chǔ)模型架構(gòu)，并首次在國產(chǎn)GPU算力集群上構(gòu)建類腦脈沖大模型的訓(xùn)練和推理框架。其超長序列處理能力在法律與醫(yī)學(xué)文檔分析、復(fù)雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學(xué)軌跡等超長序列任務(wù)建模場景中具有顯著的潛在效率優(yōu)勢。

本次發(fā)布的大模型為新一代人工智能發(fā)展提供了非Transformer架構(gòu)的新技術(shù)路線，并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設(shè)計。

我國在人工智能大模型領(lǐng)域取得重大突破！科研團隊成功研發(fā)出類腦脈沖大模型，取名“瞬息1.0”！

與傳統(tǒng)的大模型不同，這款大模型采用全新架構(gòu)，能夠模仿人類大腦工作，是具有劃時代意義的產(chǎn)品，甚至能幫助我們在人工智能領(lǐng)域?qū)崿F(xiàn)“彎道超車”。

簡單來說，訓(xùn)練這款模型只需要傳統(tǒng)大模型的2%數(shù)據(jù)量，非常高效。其特點是擅長超長文本，如法律文書、醫(yī)學(xué)報告、DNA序列等，非常強大！最重要的是它的工作方式是模仿大腦神經(jīng)元，功耗非常低。

總之，這款大模型的出現(xiàn)直接利好我們的國產(chǎn)算力替代和AI芯片，驗證類腦類芯片技術(shù)的可行性，為下一代人工智能芯片指明了方向，也給了我們彎道超車的機會。

9月8號凌晨一點，中科院自動化所機房燈火通明。研究員李國齊盯著屏幕上的曲線：760億參數(shù)的“瞬息1.0”在國產(chǎn)曦云C550 GPU上跑完最后一輪推理，序列長度拉到1000萬token,顯存占用只有同規(guī)模Transformer的1/8，功耗更是低到可以用“家用空調(diào)”來比喻一一同樣任務(wù)下，傳統(tǒng)模型需要60臺8卡A100、320千瓦功耗，而“瞬息”只用千卡國產(chǎn)GPU、45千瓦就搞定，省下的電夠北京一個小區(qū)用半個月。凌晨兩點，團隊把模型開源，不到三小時，下載量沖破兩萬，GitHub熱榜直接沖到第一，評論區(qū)一片“國產(chǎn)之光”。

幕后故事比數(shù)據(jù)更燃。三年前，李國齊和徐波在香山會議上提出“內(nèi)生復(fù)雜性”理論，被國外審稿人批“空想”，經(jīng)費申請兩次被刷；他們干脆把實驗室舊服務(wù)器拼成“土法”集群，用100塊二手GPU日夜跑實驗，終于證明脈沖神經(jīng)元+線性注意力可以撐起大模型。今年5月，沐曦MetaX主動找上門，把最新曦云C550樣機借給團隊，雙方一起寫了27個Triton算子，把脈沖發(fā)放機制做成可微分算子，才讓760億參數(shù)真正跑通?，F(xiàn)在，國內(nèi)三家頂級律所已經(jīng)用“瞬息”審合同，一份300頁的法律文書，傳統(tǒng)模型要拆分段落、人工校正兩天，它一口氣讀完，關(guān)鍵條款定位誤差不到0.3%，直接把外包團隊砍掉一半。

為什么它能“省電又省數(shù)據(jù)”？核心在“脈沖”一一模仿大腦神經(jīng)元只有當膜電位達到閾值才放電，其余時間靜默，計算量呈稀疏爆發(fā)；相比Transformer每步都要全局注意力平方級計算，瞬息把復(fù)雜度壓到線性，訓(xùn)練數(shù)據(jù)自然只需2%，推理功耗直接砍一個量級。更妙的是，脈沖天然適合國產(chǎn)芯片：曦云C550的片上SRAM大、計算單元精簡，正好匹配稀疏發(fā)放，不需要高頻率高功耗的矩陣乘法，這讓國產(chǎn)工藝28nm就能跑出7nm的能效，繞過先進制程卡脖子。業(yè)內(nèi)人士算過賬：如果全國搜索、推薦、客服都用瞬息架構(gòu)，一年可省電費30億度，相當于三峽電站一周的發(fā)電量。

別急著喊“彎道超車”，路還長。脈沖大模型對芯片的稀疏調(diào)度、編譯器、通信庫全是新需求，生態(tài)剛起步；但政策已經(jīng)開閘一一北京、上海、深圳接連把“神經(jīng)形態(tài)計算”寫進三年行動計劃，明確給芯片流片、模型訓(xùn)練各30%補貼。沐曦下一代曦云D1200已在流片，單卡脈沖算力再翻3倍，明年Q2回片。李國齊在發(fā)布會放下狠話：“五年后，中國要定義自己的大模型賽道，不再跟著Transformer后面吃灰?！?/p>