近日,AMD發布了計算加速卡“Alveo V80”,專為內存密集型工作負載提供靈活的加速,也是AMD第一款大規模市場化的FPGA加速卡產品。
它有著豐富的應用領域和場景,比如基因組學、分子動力學、傳感器處理等高性能計算,欺詐檢測、公共事業、醫療分析、供應鏈分析等數據分析,風險分析、算法交易、Web3應用等金融科技,數據包監控、防火墻等網絡安全,存儲,推薦引擎、大語言模型等AI計算,等等。
簡單地說,它和AMD Instinct這樣的產品都屬于計算加速器,但不是負責在算力上進行加速,而是專門用于解決大數據集計算負載中經常存在的內存以及網絡瓶頸,打通整個計算鏈條。
這也是AMD的獨特優勢產品,更是其全棧計算解決方案中的重要一環。
這是傳統的大數據集工作負載處理流程示意圖,可以看出有兩個地方容易成為瓶頸。
一是內存,無論是DDR4還是DDR5,帶寬其實都是有限的,無法和PCIe相媲美,經常無法滿足CPU、FPGA等各種芯片、計算傳輸的需要。
二是網絡,傳統方案往往是固定網絡接口與帶寬,一旦需要超大規模數據傳輸,就可能滿足不了。
另外,整個工作流程也缺乏全方面的安全防護。
AMD Alveo V80加速卡就是為解決這類問題而來。
首先將板載的獨立內存升級為整合HBM,其優勢就是超高帶寬,又與主芯片緊密集成,已經在HPC/AI加速器中廣泛應用。
其次是支持從10G到800G的廣泛網絡連接,可以按需選擇、組合,滿足靈活應變的計算。
另外就是全程都有安全連接,對于敏感應用是非常關鍵的。
這就是AMD Alveo V80加速卡的整體設計與規格,全高、3/4長度的擴展卡形態,也就是高約111毫米、長約234毫米。
主芯片采用7nm工藝制造,是一顆Versal HBM XCV80自適應SoC,集成了多達260萬個LUT可編程邏輯單元、10848個DSP計算邏輯單元,還整合封裝了32GB HBM2E高帶寬內存,帶寬高達820GB/s。
如果需要,還可以通過板載的DDR4 DIMM標準插槽,再擴展最多32GB內存。
網絡方面采用QSFP56光纖模塊,支持最高800G帶寬,可實時處理傳入的海量數據,并支持4X200G,以及4X10G/25G/40G/50G等不同工作模式,能通過以太網擴展到數百個節點,組建計算集群。
同時內置400G加密引擎、600G以太網硬塊,再加上FPGA的硬件靈活性,可以實現線速數據包檢測,以及AI支持的異常檢測,確保網絡安全。
卡上還設置了MCIO擴展端口,可以直連NVMe存儲,并完成板對板仿真開發工作。
系統連接總線支持一路PCIe 4.0 x16或者兩路PCIe 5.0 x8。
整卡電氣功耗300W,熱設計功耗190W,可以采用被動散熱,也可以根據元器件和服務器來定制熱設計功耗水平。
Versal HBM自適應SoC芯片的整體架構圖,可以看到兩個Cortex-A72應用處理器核心、兩個Cortex-R5F實時處理器核心、可編程邏輯引擎、DPS引擎等核心組件,其中DSP性能比上代提升了2-3倍。
它硬化了與基礎設施的連接,包括DDR內存控制器、DMA PCIe控制器、可編程片上網絡等,集成度更高,連接更方便。
此外就是網絡部分,集成多個高帶寬核心,包括一個100G以太網核心、一個600G以太網核心、一個600G Interlaken核心,以及一個400G加密引擎。
傳統架構是固定的緩存層次,數據的讀取和寫入必須非常“規矩”,一旦有不規則的訪問,就會大大降低效率。
自適應計算新架構則非常靈活,就是在計算附近分配內存,可以大大降低延遲、功耗,而且可以靈活適應自定義的數據類型和數據遷移。
預構建硬化的數據中心基礎設施連接,可以非常方便地連接板載擴展內存、以太網絡、MCIO端口,以及高性能的EPYC處理器。
相比于傳統的GPU加速器,Alveo V80這樣的網絡附接加速卡自然不是用來完全取代的,但在很多應用中也有自己獨特的優勢。
尤其是GPU加速卡都要與CPU連接,擴展數量存在很大的限制,網絡附接加速卡就更靈活一些,包括低時延傳入網絡、繞開CPU與加速器之間的PCIe連接瓶頸、無需獨立網卡,從而實現加速卡和計算密度的最大化。
同時,對于傳入網絡數據可以靈活管理,包括按需限速、在線加密、數據包監控等等。
這是和上一代Alveo U55C的性能對比:
內存帶寬提升至1.8倍,邏輯單元密度提升至2倍,網絡帶寬提升至4倍(200G變成800G),PCIe帶寬提升至2倍(PCIe 4.0升級到PCIe 5.0)。
Alveo V80加速卡應用案例,澳大利亞國家級研究機構CSIRO(聯邦科學與工業研究組織)參與建設的世界最大射電天文天線陣列,通過處理無線電波,研究早期宇宙及其演化,擁有多達13.1萬個天線,持續傳感器傳輸帶寬高達15Tbps。
該陣列目前配備420塊Alveo U55C加速卡,用于波束成形和相關器,需要占用21臺服務器和4個機架空,已經逐漸無法滿足越發復雜的負載需求。
為此,CSIRO升級到了Alveo V80,只需要140塊加速卡、14臺服務器,分別減少了2/3、1/3,性能提升了2-3倍,但同時功耗也降低了多達55%,三年TCO成本還可降低最多達21%。
再比如具備壓縮與數據分析功能的服務器存儲節點,引入Alveo V80進行壓縮,可以減少61%的服務器空間、44%的服務器成本、55%的功耗,三年TCO總成本可以節省多達56%。
還有網絡安全、金融科技方面的用例,Alveo V80加速卡都可以帶來更高的價值,這里就不展開了。
Alveo V80主要面向傳統的FPGA軟硬件開發人員,可以繼續利用AMD Vivado設計套件、Alveo Versal示例設計(AVED),后者已可在GitHub上獲取。
?