11月9日消息,RISC-V服務器芯片設計廠商VentanaMicroSystems在2023 RISC-V峰會上發佈其第二代服務器CPU——VeyronV2,在指令擴展、內核設計、互聯標準、制程工藝等眾多方面進行全面升級。
官方宣稱其性能超越AMD的高端服務器芯片Epyc 9754,堪稱最強RISC-V服務器CPU!同時,Ventana還能夠讓客戶將定制加速器添加到定制片上系統 (SoC) 藍圖中。
早在2022年12月,Ventana公司就曾發佈全球首款基於RISC-V架構的服務器CPU——Veyron V1。
采用5nm制程工藝,基於Ventana自研的高性能RISC-V內核,8流水線設計,支持亂序執行,主頻超過3GHz,每個集群最多16個內核,多集群最多可擴展至192核,擁有48MB共享三級緩存,擁有高級側信道攻擊緩解措施、IOMMU和高級中斷架構(AIA)、支持全面的RAS功能、自上而下的軟件性能調整方法,可以滿足數據中心的各種需求。號稱性能可超越AMD EPYC 7763!
根據Ventana的計劃,Veyron V1將於今年下半年上市,但是截至目前仍未有客戶選擇采用。這或許也是為什麼Ventana急於推出Veyron V2的原因。
據Ventana 營銷和產品副總裁 Travis Lanier介紹,全新的Veyron V2將融入RISC-V規范中的所有更新,比如RVA23功能集,這是今年的RISC-V最新的指令集配置文件,實現RISC-V輸入輸出內存管理單元(IOMMU)規范,同時還支持小芯片的UCIe互聯標準。
Lanier表示,IOMMU 規范的批準“在 RISC-V 領域是一件大事”。“隻要您擁有虛擬機,並且想要直接訪問其中一個 PCIe 設備,您就不必執行所有軟件開銷來切換它,因此這對於數據中心應用程序來說是一項關鍵功能。”
Veyron V2也希望成為一種基於RISC-V標準的兼容性設計,因此 RISE 支持很重要。
“這也是RISC-V軟件生態計劃(RISE)兼容性的關鍵部分,這是一個行業項目,旨在圍繞RISC-V構建必要的應用生態系統。”Lanier進一步解釋道。
Ventana還利用RISC-V矢量擴展規范在其核心中添加512位矢量處理單元,還具有 AI 矩陣擴展功能。Lanier聲稱這將“對某些生成式 AI 或推理工作負載有很大幫助”。
另外,對於DSA和Chiplet標準UCIe的支持,使得他可以更快地制造芯片,並且可以讓客戶添加 FPGA,添加 ASIC 加速器等。這增加靈活性,但也降低進入門檻,因為它允許使用使用 UCIe 和 I/O 集線器的較小 IP 塊來構建軟件包。
Ventana聯合創始人兼首席執行官Balaji Baktha在RISC-V峰會上也表示,Ventana客戶可以使用其知識產權和其他知識產權在Veyron V2 上創建的潛在CPU設計。
具體到Veyron V2的核心配置方面,基於臺積電4nm工藝,依然是基於8流水線設計,支持亂序執行,主頻高達3.6GHz,單個集群的內核數量提升到32個,相比上一代提升一倍,多集群最多可擴展至192核。緩存的大小也增加到每個核心1MB二級緩存,以及128MB 的共享集群級三級緩存。
Lanier聲稱,Veyron V2 的所有新的升級使得其性能相比上一代提高近40%。官方提供的性能預測數據顯示,192核的Veyron V2性能超越AMD高端服務器芯片Epyc 9754!
下面對於Veyron V2幾大關鍵升級進行詳細介紹:
互聯標準的轉變
Veyron V2 的一個重大轉變是將支持作為Chiplet(小芯片)連接標準的UCIe(Universal Chiplet Interconnect Express )標準,而不是上一代的Veyron V1中的BoW(Bunch of Wires)接口互聯總線協議標準。
據解,BoW協議是一個開放的標準,由開放計算項目中的開放域特定架構小組控制。
包括Ampere Computing、阿裡巴巴、AMD、Arm、思科系統、戴爾、Eliyan、富達投資、高盛、谷歌、惠普企業、IBM、英特爾、聯想、Meta Platforms、微軟、諾基亞、英偉達、Rackspace、希捷科技、Ventana和Wiwynn都支持BoW,這種廣泛而廉價的芯片到芯片互連協議,使跨工藝和供應商混合小芯片的承諾成為現實。
但是在2022年3月,英特爾、AMD、Arm、高通、臺積電、三星、日月光、Google雲、Meta(Facebook)、微軟等十大行業巨頭成立Chiplet標準聯盟,正式推出通用Chiplet的高速互聯標準“UCIe”,旨在定義一個開放的、可互操作的標準,用於將多個矽芯片(或芯粒)通過先進封裝的形式組合到一個封裝中。
UCIe 標準希望與其他連接標準(如 USB、PCIe 和 NVMe)一樣普遍,同時為Chiplet連接提供卓越的功率和性能指標,降低IP移植及產品SKU數量提升的成本,加速Chiplet設計的創新。
雖然HPE、IBM和Nvidia等大廠並沒出現在最初的創始名單當中,但最終他們也加入UCIe聯盟。
Balaji Baktha表示,其在與46傢現有的和潛在的客戶討論Veyron V1和V2 CPU設計時,很明顯,UCIe是小芯片互連的發展方向。因此,Ventana公司加快Veyron V2的發佈,其中包括大量的RISC-V核心增強,因為它采用UCI Express而不是BoW進行小芯片互連。
以下是BoW、AIB 2.0和UCIe 1.1互連的比較,這是Lei Shan撰寫的一篇論文的補充。Lei Shan曾在IBM TJ Watson研究中心從事互連硬件工作,現在在Arm服務器芯片新創公司Ampere Computing工作:
正如您所看到的,UCIe的數據速率是BoW的兩倍,總線帶寬可以相同或高出4倍。信道覆蓋范圍是UCIe距離的一半,但鏈路的功率效率提高兩倍,延遲不到BoW的一半,每毫米的帶寬也高出35%到65%。
Balaji Baktha表示:“如果芯片設計者想使用小芯片,他們必須支持UCIe”。
“UCIe背後有著巨大的推動力,因為每個人都想要一個統一的標準。BoW本可以成為這樣一個標準的。但我們不想繼續構建它,因為UCIe標準有效地解決封裝成本,並且正在以最佳水平實現。UCIe還解決3D內存堆疊問題。
因此,利用UCIe很容易實現Express 2.0,並利用我們自己的專業知識彌合與UCIe 1.0之間的差距。例如,UCIe根本沒有提供到AMBA CHI一致接口總線的鏈接。因此,我們在UCIe 2.0上添加AMBA功能。”
支持512位矢量擴展
Ventana希望迅速抓住,並將其納入Veyron V2核心設計的另一個重大變化是RISC-V Vector 1.0 512位矢量擴展。
該擴展類似於英特爾至強Phi處理器從2015年開始提供的擴展,以及2017年在“Skylake”至強SP處理器中提供的擴展。
一年前,該擴展也剛剛被添加到AMD Genoa Epyc處理器中。這些512位矢量引擎實際上並不是英特爾AVX-512的克隆(就像AMD Genoa芯片中的那些至少在軟件級別上),但它們足夠接近,不會給想要將代碼從X86移植到RISC-V的Linux開發人員帶來一場軟件噩夢。
此外,512位矢量擴展將為HPC和AI工作負載提供與X86和Arm處理器有競爭力的性能,在這些工作負載中,CPU將進行AI計算,而不是像GPU和其他加速器一樣在CPU上或CPU外部使用加速器。
Ventana為Veyron V2核心添加512位矢量擴展,使矢量引擎能夠支持矩陣運算,並允許客戶將自己的矩陣引擎添加到架構中,無論是在核心中還是在使用UCIe鏈路的離散小芯片中與之相鄰。
順便說一句,Veyron V1核心沒有任何向量引擎或矩陣引擎擴展,這顯然是一個問題,因為許多人工智能推理仍在CPU上進行,在某些情況下,人工智能訓練和HPC模擬和建模也在CPU上完成。
全新的內核架構
Veyron V2設計的另一個重大變化是Ventana創建一個顯著改進的RISC-V內核架構。
通過在Veyron V2核心中更積極地融合指令處理並進行許多其他調整,Ventana已經能夠將一攬子工作負載的每時鐘指令(IPC)性能提高20%。
與3GHz主頻的Veyron V1內核相比,Veyron V2主頻也提高到3.6 GHz,這將內核的性能再提高20%,從而在Ventana的Veyron RISC-V CPU內核設計中,從V1內核到V2內核的整體性能提高40%。
Veyron V2核心是基於臺積電4nm工藝設計的,相比上代基於臺積電5nm工藝的Veyron V1得到進一步提升。
Veyron V2內核還支持RVA23體系結構配置文件,該配置文件強制使用512位矢量擴展。還有一些在矢量引擎上運行的加密函數。
Ventana的Veyron V2內核還支持RV64GC規范,並實現一個超標量、無序流水線,每個時鐘周期可以解碼和調度多達15條指令。由於其IOMMU設計和高級中斷體系結構(AIA),Veyron V2核心可以支持類型1和類型2的服務器虛擬化管理程序以及嵌套虛擬化。
Veyron V2核心還具有用於調試、跟蹤和性能監控的端口。
以上所有這些都是現代超大規模數據中心服務器CPU所應有的能力。
V1和V2內核都沒有同時的超線程,就像亞馬遜雲和Ampere Computing的Arm內核沒有,未來“Sierra Forest”Xeon SP處理器中使用的“Siera Glen”內核也沒有。
另外,Veyron V2內核具有512 KB的L1指令緩存和128 KB的L1數據緩存以及1 MB的L2數據緩存。這些內核還有一個4MB的L3緩存,與之相關的是,在Veyron V2的小芯片復合體中的32個內核中,總共擁有128MB的L3緩存。
每個小芯片上的核心使用專有的片上網狀網絡相互連接,該互連為CPU核心、內存和其他I/O提供高達5TB/秒的聚合帶寬。
四個Veyron V2小芯片可以與UCIe互連,以創建一個128核的復合體,如果你真的想突破極限,你可以將最多六個小芯片連接在一起,獲得192核。
以下是基於Veyron V2內核的CPU的概念圖,它有一個I/O管芯和六個32核Veyron V2小芯片,以及一些特定於領域的加速器鏈接:
上圖顯示I/O集線器與PCI Express 5.0控制器和DDR5內存控制器的鏈接,但如果Ventana公司願意,可以換成HBM3內存控制器。
默認設計為六個Veyron V2小芯片上有十二個DDR5內存控制,四個Veyron V2小片上有八個,這與我們目前在任何服務器CPU中看到的配置是一樣的。
性能超越AMD Epyc 9754
Ventana的Veyron V1發佈之時,號稱性能超越AMD EPYC 7763。那麼Veyron V2的性能又能有多強呢?
以下是Ventana如何模擬Veyron V2的整數性能,以及每個插槽的原始SPECint2017性能:
按照Ventana公佈的數據來看,一個192核的Veyron V2 RISC-V CPU的整數吞吐量將比AMD“Bergamo” Epyc 9754處理器高23%,該處理器在相同的360瓦功率范圍內有配備128核和256線程;
同樣,Veyron V2也比96核的AMD“Genoa” Epyc 9654高34%左右;與56核的Intel “Sapphire Rapids”Xeon SP 8480+相比,Veyron V2性能更是達到其2.7倍。
這並不奇怪,因為Veyron V2有3.4倍的內核和1.7倍的線程,盡管Veyron V2內核必須以較低的時鐘速度運行;
另外一款基於Arm Neoverse V2的64核產品似乎的是亞馬遜雲(AWS)Graviton3的替代品,擁有64核心,性能比Intel Sapphire Rapids Xeon SP 8480+芯略高,但是也僅為Veyron V2的一半不到。
支持DSA
Veyron V2還支持 DSA(面向某個特定的領域定制優化的設計),該功能允許客戶向其 SoC 添加定制加速器芯片。
Lanier 表示,這是針對可能希望提高數據中心特定工作負載的超大規模客戶,例如壓縮和加密、網絡中的 TCP 卸載處理或數據庫中的鍵/值處理。這些加速器小芯片由 Veyron V2內核通過 Ventana 添加的自定義指令提供支持,這是整個 RISC-V 架構的一大賣點。
在這種情況下,自定義指令使軟件能夠調用加速器,這可以看作是英特爾處理器使用指令調用浮點單元 (FPU) 的方式的回響,當時其中一個是可選的單獨的浮點單元 (FPU)。
△Ventana 可編程 DSA
總結來說,Ventana 的目標是讓其客戶設計使用這些 DSA 小芯片(無論是 FPGA 還是 ASIC)來提供更好的工作負載效率,而不僅僅是最大 SPECint 吞吐量。
安全性大幅提升
Veyron V2 的另一個特色是,支持全面的RAS,具有ECC能力、防數據中毒等。
如今,數據中心處理器還需要具有安全啟動和身份驗證能力。Veyron V2 設計也能夠更好地抵禦側信道攻擊,例如Spectre 和 Meltdown缺陷,這些缺陷可能導致服務器內存中的數據被竊取。
不過,Lanier強調,這並不意味著Veyron V2芯片不可能被此類攻擊,隻是 V2 在設計時就解這些攻擊的執行方式,可以在一定程度上進行預防。“數據中心客戶為受影響的服務器運行軟件補丁或緩解措施的成本通常可能會降低 10% 甚至 20% 的性能。”
2024年第三季度投入生產
Ventana還將提供基於Veyron V2的192 核 1U 服務器參考設計,有四個128核的小芯片和12通道的DDR5-5600內存,小芯片上有UCI Express互連,還有一個I/O接口,可以將它們放在服務器CPU插槽內。
據介紹,Veyron V2將於2024年第三季度投入生產,屆時用於互連小芯片的UCIe 1.1 PHY有望上市。
編輯:芯智訊-浪客劍
資料來源:
https://www.theregister.com/2023/11/07/ventana_riscv_server/
https://www.servethehome.com/ventana-veyron-v2-risc-v-cpu-launched-for-the-dsa-future/
https://www.nextplatform.com/2023/11/07/ventana-launches-veyron-v2-risc-v-into-the-datacenter/