Hala Point為第一個擁有11.5億個神經元的神經擬態系統,提升效率及延展性,為永續AI鋪路
英特爾宣布推出全球最大的仿神經形態系統(neuromorphic system),代號 Hala Point,最初布署在桑迪亞國家實驗室,採用英特爾 Loihi 2 處理器,支援類人腦 AI 的最新研究,以因應當今 AI 面臨的效率和永續性等挑戰。Hala Point 以英特爾第一代大規模研究系統 Pohoiki Springs 為基礎,進行架構提升,神經元容量能增加 10 倍以上,效能提高 12 倍。
英特爾實驗室神經形態運算總監 Mike Davies 表示:「當今訓練和布署 AI 模型的成本增加速度過快,業界需要有翻轉現況的新作法,因此英特爾實驗室開發出 Hala Point,它結合深度學習效率、類人腦持續學習和最佳化功能。我們希望透過 Hala Point,突破大規模 AI 的技術效率,並讓 AI 系統適應變化。」
Hala Point 是業界第一款可在主流 AI 工作負載中,展現卓越運算效率的大規模仿神經形態系統,經過測試驗證,能支援每秒高達 20 千兆次(20 petaops)的傳統深度神經網路運算,超過每瓦 15 兆次 8 位元運算(TOPS/W),此速度等同於甚至超越目前的 GPU 和 CPU 架構。Hala Point 的獨特功能可望在未來 AI 應用的即時連續學習方面帶來突破,例如科學和工程的問題解決、物流、智慧城市基礎設施管理、大型語言模型(LLM)和 AI 代理。
目前桑迪亞國家實驗室已計劃使用 Hala Point 進行先進的大腦規模運算研究,用於解決元件物理學(device physics)、電腦結構、資訊工程和資訊學方面的科學運算問題。
桑迪亞國家實驗室 Hala Point 組長 Craig Vineyard 表示:「Hala Point 協助桑迪亞團隊,在科學建模提供了強大助力,讓我們能隨著 AI 技術演進,在商業、國防、基礎科學同步發展,更深入研究運算、建模等領域。」
目前 Hala Point 仍處於原型階段,未來將可進一步應用於提升商業系統,英特爾預計這些經驗將帶來實際突破進展,例如提升大型語言模型(LLM)從新數據中持續學習的能力,進一步強化 AI 模型的訓練精準度,並大幅降低布署 AI 的訓練成本。
近期深度學習模型的參數規模已達數兆,不僅突顯 AI 領域嚴峻的永續性挑戰,同時強調針對最基礎硬體架構的創新必要性。仿神經型態運算是全新的運算機制,此機制借鑑神經科學,將記憶體、運算與高度細粒度的並行性相結合,將資料移動性最小化。在今年四月「聲學語音和訊號處理國際會議(ICASSP)」的報告中,英特爾發表 Loihi 2 處理器在新興小規模邊緣工作負載的應用,結果顯示其效率、速度和適應性都有大幅提升1。
Hala Point 是在前一代 Pohoiki Springs 的基礎上大量改善,將仿神經形態性能和效率提升的優勢,延伸至視訊、語音和無線通訊等即時工作負載的主流深度學習模型中,推出後廣獲業界矚目,在今年世界行動通訊大會中,愛立信研究中心透過 Loihi 2 改善電信基礎設施效率的成果成為展會焦點。
Loihi 2 神經形態處理器是 Hala Point 的核心基礎,此處理器應用非同步、基於事件的脈衝神經網路(Spiking Neural Network,SNN)、整合記憶和運算,以及關聯性推論類人腦運算原理;相較於目前需要定期使用不斷成長的數據集,重新訓練此類模型的方式,Loihi 2 神經形態處理器不須透過記憶體,改以神經元直接相互溝通的作法,可有效降低整體功耗。
Hala Point 將 1,152 個基於Intel 4 製程的 Loihi 2 處理器封裝於六機架資料中心機殼內(相當於微波爐大小),該系統可支援高達 11.5 億個神經元和 1280 億個突觸分佈在 140,544 個神經形態處理核心,耗電最大 2,600 瓦。系統包含數量超過 2,300 個嵌入式 x86 處理器,主要用於執行輔助運算。
架構部分,Hala Point 將處理、記憶及溝通管道整合於一個高度平行架構中,可提供共 16 PB/s 的記憶頻寬、3.5 PB/s 的核間通訊頻寬及 5 TB/s 晶片間通訊頻寬。此系統每秒運算超過 380 兆次 8 位元突觸操作(TOPS)以及 240 兆次以上神經元操作。
應用於脈衝神經網路模型時,系統能以生物神經元的 20 倍速度,執行全部 11.5 億個神經元,而低負載時效率更提升將近 200 倍。儘管並非用於神經科學建模,但 Hala Point 的神經容量相當於貓頭鷹大腦或捲尾猴的大腦皮質。
以 Loihi 為基礎的 Hala Point 系統,能以高於傳統 CPU 或 GPU 50 倍速度、低於 100 倍能耗的優勢1,執行推論並達成最佳化。透過高達 10 比 1 的稀疏連通性和事件驅動的活動測試,Hala Point 的初步結果顯示,系統無需將資料收集到批次中,即可實現高達 15 TOPS/W 的深度神經網路效率2,此為常見的 GPU 最佳化方式,即因應顯著延遲處理即時傳輸的數據(例如攝影機所拍攝的影像)。目前 Hala Point 雖仍處於研究階段,但未來可持續學習的神經形態大型語言模型,將可不再倚靠需定期投入數量規模不斷成長的數據集重新訓練,達成節省數百萬度的耗電。
將 Hala Point 布署於桑迪亞國家實驗室,是英特爾首次計劃與研究合作夥伴共享新一代大規模仿神經形態研究系統,未來英特爾將使神經形態運算應用能克服功耗與延遲的限制,降低 AI 在現實世界中即時布署的阻礙。
英特爾將持續致力推動類人腦 AI,與領先的學術團體、國家級實驗室、研究機構及全球企業等超過 200 個英特爾神經形態研究社群(INRC)成員共同努力,將這項技術從研究原型推進為業界領先的商業產品。
更多資訊請見英特爾實驗室。
1 See “Efficient Video and Audio Processing with Loihi 2,” International Conference on Acoustics, Speech, and Signal Processing, April 2024, and “Advancing Neuromorphic Computing with Loihi: Survey of Results and Outlook,” Proceedings of the IEEE, 2021.
2 Characterization performed with a multi-layer perceptron (MLP) network with 14,784 layers, 2048 neurons per layer, 8-bit weights stimulated with random noise. The Hala Point implementation of the MLP network is pruned to 10:1 sparsity with sigma-delta neuron models providing 10 percent activation rates. Results as of testing in April 2024. Results may vary.