每經(jīng)編輯|程鵬
近日,突破北京大學人工智能研究院孫仲研究員團隊聯(lián)合集成電路學院研究團隊,瓶頸片成功研制出基于阻變存儲器的國成功研高精度、可擴展模擬矩陣計算芯片,制新首次實現(xiàn)了在精度上可與數(shù)字計算媲美的型芯模擬計算系統(tǒng)。
該芯片在求解大規(guī)模MIMO信號檢測等關(guān)鍵科學問題時,突破計算吞吐量與能效較當前頂級數(shù)字處理器(GPU)提升百倍至千倍。瓶頸片相關(guān)論文于10月13日刊發(fā)于《自然·電子學》期刊。國成功研

對于大多數(shù)習慣了數(shù)字計算機(0和1)的公眾而言,“模擬計算”是型芯一個既古老又新奇的概念,什么是突破模擬計算呢?
孫仲首先用生動的比喻對其進行解釋:“現(xiàn)在的所有芯片都是數(shù)字計算,數(shù)據(jù)都需要先轉(zhuǎn)換成0和1的瓶頸片符號串。比如數(shù)字‘十’,國成功研需要轉(zhuǎn)譯成‘1’和‘0’,制新計為‘1010’。型芯”如果用二進制來表示“1+1=2”,則應該記作“1+1=10”。
孫仲說,“而模擬計算則無需這層‘轉(zhuǎn)譯’,它是一種‘類比計算’(analogue computing),可以直接用連續(xù)的物理量(如電壓、電流)來類比數(shù)學上的數(shù)字。比如,數(shù)學上的‘十’,可以直接用十伏或十毫伏的電壓來表示?!?/p>
模擬計算機在計算機發(fā)展早期(上世紀30-60年代)曾被廣泛應用,但隨著計算任務日益復雜,其精度瓶頸凸顯,逐漸被數(shù)字計算取代。孫仲指出,此次研究的核心正是要解決模擬計算“算不準”這一痛點。
當前的市面上的主流CPU和GPU都是數(shù)字芯片,并都采用馮諾依曼結(jié)構(gòu),將計算和存儲功能分開,通過01數(shù)字流的編譯+計算+解碼實現(xiàn)信息計算和傳輸。
基于阻變存儲器的模擬計算的優(yōu)勢之一在于取消了“將數(shù)據(jù)轉(zhuǎn)化為二進制數(shù)字流”這一過程,同時不必進行“過程性數(shù)據(jù)存儲”,進而將數(shù)據(jù)計算過程與數(shù)據(jù)存儲合而為一,實現(xiàn)算力解放。
孫仲指出,與其他“存算一體”方案對比,國內(nèi)外許多團隊集中于研究矩陣乘法(AI推理的核心),而他的團隊特色在于專注于更具挑戰(zhàn)性的矩陣方程求解(AI二階訓練的核心)。矩陣求逆操作要求的計算精度極高,時間復雜度達到了立方級。而模擬計算憑借物理規(guī)律直接運算的方式,具有低功耗、低延遲、高能效、高并行的天然優(yōu)勢,只要能夠不斷降低計算誤差,不斷提升計算精度,將為傳統(tǒng)GPU的算力解放帶來爆炸性突破。
高精度全模擬矩陣計算求解矩陣方程在計算精度方面,團隊在實驗上成功實現(xiàn)16×16矩陣的24比特定點數(shù)精度求逆,矩陣方程求解經(jīng)過10次迭代后,相對誤差可低至10??量級。在計算性能方面,在求解32×32矩陣求逆問題時,其算力已超越高端GPU的單核性能;當問題規(guī)模擴大至128×128時,計算吞吐量更達到頂級數(shù)字處理器的1000倍以上,傳統(tǒng)GPU干一天的活,這款芯片一分鐘就能搞定。
關(guān)于應用前景,孫仲認為,模擬計算在未來AI領(lǐng)域的定位是強大的補充,最有可能快速落地的場景是計算智能領(lǐng)域,如機器人和人工智能模型的訓練。
談及與現(xiàn)有計算架構(gòu)的關(guān)系,孫仲強調(diào)未來將是互補共存:“CPU作為通用‘總指揮’因其成熟與經(jīng)濟性而難以被淘汰。GPU則專注于加速矩陣乘法計算。我們的模擬計算芯片,旨在更高效地處理AI等領(lǐng)域最耗能的矩陣逆運算,是對現(xiàn)有算力體系的有力補充?!?/p>
封面圖片來源:視覺中國(資料圖 圖文無關(guān))
每日經(jīng)濟新聞綜合自北京大學、科技日報(記者:張蓋倫)
(責任編輯:知識)