有沒有人好奇: 大模型那么香,我們將它從云側(cè)拿到端側(cè)開發(fā)應(yīng)用,比如讓每臺手機都標(biāo)配一個大模型,豈不是更香? ——我們還沒實現(xiàn)這個愿望,當(dāng)然不是因為不想,是不能。 ![]() 由于芯片架構(gòu)不同,在端側(cè)部署時往往需要開發(fā)人員對模型網(wǎng)絡(luò)結(jié)構(gòu)進行一通修改才能勉強“上車”,但改完之后性能難保證,更別提功耗、成本等一系列本就存在的問題了。 不過現(xiàn)在,一款號稱現(xiàn)實開源模型直接拿來用,還能讓性能、功耗與自動駕駛領(lǐng)域基于GPU的端側(cè)芯片有得一拼的平臺誕生了。 它叫AX650N,來自愛芯元智,對Transformer架構(gòu)支持效果尤甚。 Transformer不用多說,它是當(dāng)下最火的ChatGPT、Stable Diffusion等大模型背后的基礎(chǔ)架構(gòu)。 ![]() 那么具體效果如何?咱這就展開參數(shù)一一來看。 5分鐘就能完成原版Swin Transformer端側(cè)部署AX650N是AI芯片公司愛芯元智發(fā)布的第三代端側(cè)芯片。 其構(gòu)成包括CPU和NPU等,其中CPU采用的是八核A55處理器,NPU則采用了自研混合精度技術(shù),可以做到43.2TOPs(INT4)或10.8TOPs(INT8)的高算力。 AX650N主要用于端側(cè)視覺感知。 ![]() 目前在該領(lǐng)域,業(yè)界主要還是基于CNN網(wǎng)絡(luò)開發(fā)應(yīng)用。 相反,準(zhǔn)確率和性能雙佳的Swin Transformer并沒有得到突出的大規(guī)模落地,還是多部署于云端服務(wù)器。 愛芯元智表示,這是因為GPU對于MHA結(jié)構(gòu)(Transformer中的多頭注意力機制)計算支持更友好。 而目前的大部分端側(cè)AI芯片由于其架構(gòu)限制為了保證CNN結(jié)構(gòu)的模型效率更好,基本上對MHA結(jié)構(gòu)沒有過多性能優(yōu)化,因此我們需要修改Swin Transformer的網(wǎng)絡(luò)結(jié)構(gòu)才能勉強將其部署在端側(cè)—— 一旦修改網(wǎng)絡(luò)結(jié)構(gòu),就意味著將出現(xiàn)一系列問題,例如精度下降,精度一降就得對模型進行重訓(xùn),這個過程就要以星期甚至是月來計算了。 ![]() 愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉介紹: 用AX650N在端側(cè)部署原版Swin Transformer,從拿到測試板到demo復(fù)現(xiàn),只需要5分鐘,再到在自己的私有環(huán)境里跑起來私有模型,只要1個小時就能搞定。 ——不僅能跑起來,還跑得飛快、性能高且功耗低。 ![]() 具體而言,AX650N端側(cè)部署Swin Transformer性能可達361 FPS。 這是什么概念? 某知名芯片商開發(fā)的基于GPU的高端域控SoC,用于自動駕駛領(lǐng)域,跑的也是400幀以內(nèi)的一個數(shù)字。AX650N基本可與之相媲美了。 不僅性能高,AX650N還能保證準(zhǔn)確率,做到高于市場水平的80.45%精度。 與此同時,功耗也非常低,即能效非常高,它可以跑到199 FPS/W,是上面提到的基于GPU的高端域控SoC的數(shù)倍(該芯片整體TDP大約是15到60W,實測增量功耗20多W,合下來大約是20 FPS/W)。 ![]() 除了這些優(yōu)勢,AX650N還支持低比特混合精度,遇到大規(guī)模參數(shù)的模型,我們就可以采用INT4來減少內(nèi)存和帶寬占用率,從而降低大模型在端側(cè)邊緣側(cè)部署的成本。 基于此,愛芯元智表示,AX650N可以說是成為了目前對Transformer架構(gòu)支持最好的一個端側(cè)部署平臺。 對了,除了上面的Swin Transformer,AX650N還適配ViT/DeiT、DETR在內(nèi)的Transformer模型,Meta最新發(fā)布的視覺模型DINOv2也達到了30幀以上的運行結(jié)果。 因此,有了AX650N,我們在下游進行檢測、分類、分割等操作也更加方便。 ![]() 據(jù)悉,接下來,愛芯元智AX650N將會針對Transformer結(jié)構(gòu)進行進一步優(yōu)化,并且將探索多模態(tài)方向的Transformer模型。 Ps. Swin Transformer以及DETR和EfficientViT的具體部署方法,愛芯元智官方提供了詳細(xì)教程,這里就不再贅述,大家戳文末鏈接即可查看~ ![]() △Swin Transformer性能實測,3.6Tops都能跑100多幀 邊緣側(cè)、端側(cè)部署大模型,是趨勢再回到大模型本身這個話題,大家有沒有思考過它的蓬勃發(fā)展究竟會給我們帶來什么? 奇績創(chuàng)壇CEO陸奇博士在最近的一場演講中提到: 當(dāng)年他剛從CMU畢業(yè)時,買一張地圖需要3美元,現(xiàn)在咱們只需要在網(wǎng)上花費300毫秒就能搜到一張,信息獲取的成本已接近免費。 愛芯元智相關(guān)負(fù)責(zé)人就表示,大模型從某種程度上會重復(fù)如上故事,也就是說,我們可以暢想以后打開手機或者其他終端,就能獲得一個諸如私人醫(yī)生和律師、廚師的AI助理,它無所不知無所不曉,為我們提供成本非常低廉的咨詢等服務(wù)。 另一方面,比如智能音箱,如果能夠在本地用上大模型,它就能做一些真正稱得上是智能的交互,而不是只會提取關(guān)鍵詞。 為了實現(xiàn)諸如這樣的愿望,大模型部署就不會只局限于云端。 ![]() △圖源愛芯元智官網(wǎng) “而從量的角度來講,邊緣側(cè)、端側(cè)的需求一定比云側(cè)更大,畢竟邊緣側(cè)、端側(cè)設(shè)備會更多?!?/span> 像我們今天講的Transformer端側(cè)部署,“但凡是會用到攝像頭的業(yè)務(wù),都會對它感興趣。” 愛芯元智介紹,相比CNN網(wǎng)絡(luò),在端側(cè)部署Transformer最大的好處之一就是可以解決以前長尾場景下,AI智能投入太高的問題。 比如河道垃圾監(jiān)測,用CNN等網(wǎng)絡(luò),可能出現(xiàn)一類新的垃圾就得花數(shù)月去重新采集數(shù)據(jù)進行訓(xùn)練,不然系統(tǒng)就認(rèn)不出來。 而基于Transformer的視覺大模型,采用無監(jiān)督學(xué)習(xí)的方式進行了訓(xùn)練,遇到新的就能直接識別(也就是zero-shot或者one-shot能力),可以省去很大的時間和訓(xùn)練成本。 ![]() 不過要開發(fā)可以讓Transformer模型輕松又高效地在端側(cè)跑起來的平臺,要面對的困難并不少。 例如: 硬件架構(gòu)上早期定位就要準(zhǔn),要對Transformer去做針對性的優(yōu)化,要想辦法能降低大參數(shù)模型帶寬的使用情況,以及加載的時候怎么做到更順暢一些。 軟件上,在推理的時候,則要求做量化、而不是浮點推理,而這就比較需要經(jīng)驗。 …… 在目前的成果之上,愛芯元智AX650N也還有很多迭代要做,比如怎么讓硬件對離散數(shù)據(jù)擁有比較高效的讀取能力,并且配套的計算還要跟上新的讀取速度,以及對網(wǎng)絡(luò)稀疏化、MOE(Mixture of Experts)、硬件底層低比特優(yōu)化等方面的工作。 關(guān)于愛芯元智愛芯元智成立于2019年5月,是一家人工智能視覺感知芯片研發(fā)及基礎(chǔ)算力平臺公司。 ![]() 創(chuàng)始人、董事長兼CEO仇肖莘本碩畢業(yè)于清華大學(xué)自動化專業(yè),博士畢業(yè)于美國南加州大學(xué)電子工程專業(yè)。在創(chuàng)立愛芯元智前,她先后擔(dān)任了美國博通公司副總裁和紫光展銳CTO。 去年,愛芯元智宣布完成8億元A++輪融資,投資方包括騰訊、美團等公司。加上之前的三輪,公司融資總金額已接近20億元人民幣。 截至目前,愛芯元智也成功研發(fā)并量產(chǎn)了三代多顆端側(cè)、邊緣側(cè)智能視覺感知芯片,據(jù)稱所有芯片產(chǎn)品均具備低功耗優(yōu)勢及優(yōu)異的圖像處理能力,應(yīng)用于智能城市、智能交通、智慧制造等領(lǐng)域。 One More Thing愛芯元智基于AX650N推出的愛芯派pro開發(fā)板(類似于樹莓派)即將上線某寶,相關(guān)教程和工具也可以在GitHub找到。 對Transformer深度研究有需求的伙伴,可以去“整活”啦。 友情鏈接: — 完 — 量子位 QbitAI · 頭條號簽約 關(guān)注我們,第一時間獲知前沿科技動態(tài) |
|
|