當前,基于邊緣智能計算設備運行的人工智能應用日趨復雜和高精度。為降低邊緣設備運行的延遲和功耗,存算一體技術被應用在邊緣設備端,通過減小數據搬運的開銷最大化減少邊緣設備上的延遲與功耗。而傳統的存算一體宏僅支持使用整數型數據計算,難以支持日趨高精度、高復雜度以及片上訓練的邊緣端智能計算任務。僅使用單一模擬或數字方案的存算一體宏,難以在能量效率、面積效率和精度上取得最優化。如何有效結合模擬存算與數字存算模式優勢,在總體上取得更高的能量效率和面積效率,并盡可能保證高精度,以及如何探索數?;旌戏桨傅脑O計空間,仍是存算一體宏領域亟需解決的問題。
中國科學院微電子研究所劉明院士團隊等研發出基于外積運算的數?;旌洗嫠阋惑w宏芯片,設計了數?;旌细↑cSRAM存內計算方案,提出了模擬與數字存算宏的混合方法,結合了使用模擬存算方案進行高效陣列內位乘法和使用數字存算方案進行高效陣列外多位移位累加的優點,達到了整體上高能量效率與面積效率。研究通過殘差式數模轉換器架構,使數模轉換器所需分辨率僅為輸入位精度的對數,實現了高吞吐率和低開銷。通過基于矩陣外積計算數學原理的浮點/定點存算塊架構,矩陣-矩陣-向量計算可通過累加器元件完成。與之前的數字存算方案使用矩陣內積原理的大扇入、多級加法器樹相比,可以降低運算的傳輸延遲,總的計算吞吐率更高。該架構支持細粒度的非結構激活稀疏性以進一步提升總體能效。該存算一體宏芯片在28nm?CMOS工藝下流片,可支持BF16浮點精度運算以及INT8定點精度運算。BF16浮點矩陣-矩陣-向量計算峰值能效達到72.12TFLOP/W,INT8定點矩陣-矩陣-向量計算峰值能效達到111.17TFLOP/W。上述成果為采用數?;旌戏桨傅拇嫠阋惑w架構芯片提供了新思路。
近日,相關研究成果以A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC為題,發表在2024國際固態電路會議(ISSCC 2024)上。該研究由微電子所和北京理工大學合作完成。研究工作得到國家重點研發計劃、國家自然科學基金和中國科學院戰略性先導科技專項等的支持。