自12代Alderlake產品發佈以來,藍色巨人終於扭轉自己在桌面端產品在綜合多線程性能上遜於對方的場面,並且在遊戲性能上取得長足的進步,徹底改變自傢11代Rocketlake產品在很多遊戲中性能不如10代Cometlake產品的窘境,也扭轉將近一年以來遊戲/理論性能雙雙不如超威半導體Zen3產品的窘境。
關於Alder lake系列產品的測評前面我們也已經做過,具體鏈接如下:
1. https://www.bilibili.com/read/cv13858032?spm_id_from=333.999.0.0
2. https://weibo.com/ttarticle/p/show?id=2309404713343930990967#_0
盡管 Intel 通過 Golden Cove 與 Gracemont 兩種微架構的混合產品 12900K 提供幾乎足夠與 AMD Ryzen R9 5950X 匹敵多線程性能以及略勝一籌的單線程性能,但是較高的 P core 頻率與相對較少 E core 數量使得該產品在相對高壓力的性能測試下能效相較於對方略遜一籌。
北京時間 2022.9.28 日,時隔十一個月之後,Intel 發佈他們全新的一代的桌面端產品Raptor lake-S--猛禽湖,在制程沒有大的換代的情形下,通過將 Contact Gate Pitch(CPP)進一步從 54 nm 放寬至 60 nm 的方式進一步獲得終極版 10nm 制程,最終提供的相較於 Alder lake 系列產品超過 0.5 Ghz 的 Pcore 頻率。與此同時,Intel 還在 i5 i7 i9 產品中翻倍 Ecore,並提供更多的 L2/L3 緩存,以提高應用與遊戲性能,最終使性能達到一個全新的高度。
當然,在 Raptor lake-S 中,Intel 也修復一些前代產品中的一些問題。
在產品的發佈前,OneRaichu 跟 ECSM_Official 共同合作,我們對 Raptor lake-S 的旗艦產品,Intel Core i9 13900K 進行相應的測評。
測試平臺:
CPU1: Intel Core i9 13900K
CPU2: Intel Core i9 12900KF
DRAM: DDR5-6000 CL30-38-38-76,DDR4-3600 CL17-19-19-39,Trefi=262143,其他小參=Auto。
主板:Z690 Taichi RAZER Editon and Z790 ****
BIOS 版本:12.01 與 ****
GPU:AMD Radeon RX 6900 XTXH OC 2700MHz
散熱:NZXT Kraken X73
CPU-Z 圖:
其中 Intel Core i9 13900K 的核心睿頻為
P:1-2C 58x,3-8C 55x
E:1-16C 43x
內存默認支持到 JEDEC-5600MHz(即默認內存不超頻下能支持的最高頻率內存,僅限於 1DPC+2CH 或 2DPC+1CH 時)
Intel Core i9 12900K 的 核心睿頻為
P:1C 52x 2C 51x 8C 49x
E:1-4E 39x 5-8E 37x
內存默認支持到 JEDEC-4800MHz(即默認內存不超頻下能支持的最高頻率內存,僅限於 1DPC+2CH 或 2DPC+1CH 時)
首先是理論測試部分,這一部分由 OneRaichu 進行
一、AIDA64 快餐帶寬測試
我們首先進行的是 AIDA64 的緩存/內存測試,由於當前的 AIDA64 並不能識別 13900K 的具體型號,許多細節也並不完全正確,這裡的對比測試僅供參考。詳細的 CPU 帶寬/延遲測試,我們會在後面的具體測試中一一進行。
二、CPU 核間延遲測試。
緊接著我們進行核心間通訊延遲的具體測試,使用的是求秒的延遲測試工具,相較於 microbench 的工具來說準確度更高,延遲均勻性更好,我們的精確度選擇 level 10(最高級)。
相較於 Intel Core i9 12900K 來說,由於 Ring bus 結構與設計的變動,當 Ecore 有負載的時候,Ringbug Frequency 不會再由 4700 MHz 掉至 3600 MHz 這樣的大幅度變化,其變化主要由 5000 MHz 變化至 4600 MHz,此時 Ringbus 的延遲將不再成為核心訪問延遲的負累,再加上 Ring bus 拓撲結構的可能變動致使 Intel Core i9 13900K 的核心延遲產生比較有趣的變化。
即 P 與 E 之間的通訊不再存在一個明顯的訪問懲罰,幾乎所有核心間的通訊速度都維持到一致的水平,大約在 30-33 ns 之間,除同 Cluster 內的小核心仍舊因為沒有總線探聽器的緣故具有一定的訪問延遲懲罰,而同 Cluster 內的 E 核心延遲也有少許的改進。
三、理論延遲與帶寬測試
在核心通訊測試之後,我們進行兩個產品的內緩存延遲測試(使用 Clamchowder 的測試工具)。
首先是默認頻率下的情況:
P:
E:
由於實際的頻率更高,因此即便是緩存明顯增大的情況下,不論是 P/E 核心在全范圍內的延遲仍然均低於上一代。
在這裡,我們還進行兩代產品同頻下的內緩存延遲對比,使用 Cycle(周期)表示延遲情況。
P:
可以看見 13 代 Core 的 Raptor Cove 核心為增加緩存的容量,在 L2 跟 L3 的同頻延遲上實際上對比 12 代的 Golden Cove 有些許的變化,其中 L2 大約多 1 Cycle,但容量增加 60%,L3 則是在前半段大約 16M 內平均多 3 cycle,16M 後低 2-3cycle。
E:
如果說 Pcore 的延遲在緩存容量增加時略微做一些妥協,在不同的部分有增有減,那麼 13 代的 Ecore 的延遲幾乎在整個 Cache 范圍內都優於 12 代 Ecore。其中 L2 在容量翻倍的情況下維持住延遲不變,L3 延遲甚至在部分場景下比上代低甚至超過 10 cycle。這種變動對 Ecore 來說無疑會帶來相當幅度的同頻性能增加。
完成延遲部分的測試之後,我們還針對緩存/內存的帶寬進行相應的測試。
首先是單線程讀取/寫入部分。
這裡我們直接對單線程帶寬進行頻率歸一化處理,可以看見實際上同頻的 12 代 Pcore 的 L1-Read 帶寬相較於 13 代 P-core 的 L1-Read 帶寬略高一些,L2 的帶寬則基本相同,L3 的帶寬則略高一些,其中 L1 R 的帶寬下降不排除可能是當前 bios 存在的問題所致。
類似的,我們也測試 Ecore 的 1T 讀寫帶寬,可以看見除因為緩存容量增加擴大一些 L2/L3 cover 范圍外,沒有太多明顯的變動。
我們還測試多線程的情況,相較於單線程來說,多線程的情況發生一點變化。L1/L2 的帶寬增加主要由 13 代增加的 E 核心提供,然而 L3 的帶寬變化則有所不同,其中 P core 的 L3-Read 帶寬在這裡也有一些變化,其由 12 代的 3MB/Core 10 way 64bytes line 64threads 變動為 13 代的 3MB/Core 12way 64bytes line 128threads。
這就導致到 L3 cover 的范圍,13900K P+E 的總帶寬在 L3 部分范圍甚至翻倍還多,在絕大多數 L3 cover 范圍中都是,AIDA64 測試的帶寬盡管是純 Pcore 的范圍,但也有類似的體現。
為此,我們還單獨測試純 Pcore 的情況,結果如圖所示:
可以看見在整個 L3 覆蓋范圍內到出 L3 為止,13 代的純 Pcore L3 多線程讀取帶寬均為 12 代的 1.5 倍以上。
這種大幅度的 L3 帶寬增加,可能會在多線程測試中帶來較為明顯的變化,尤其是依賴緩存吞吐的相關應用。
關於內存帶寬,兩者均受限於 DDR5-6000,因此均在 93-94 GB/s 的范圍,其中 13 Gen 受益於更高的緩存吞吐速度,因而稍高一些。
四、指令帶寬與理論吞吐:
進一步的,我們進行 NOP 指令的帶寬測試,可以看見由於微架構沒有明顯的改變,在 NOP8/4 的指令測試中兩代 P/E core 沒有明顯的區別,隻有在緩存變化的位置有變動。
此外,我們還測試理論吞吐的情況,可以看見在本測試的條件下(不同平臺可能測試結果略微有些許不同),13 代 Pcore 有少數指標對比 12 代略有變化,已經標出,不排除是測試平臺帶來的誤差。
註:測試時均開啟小核心,故沒有 AVX512 部分。
五:性能測試
完成上述的理論測試後,我們進入到性能測試的環節,其中我們對 13900K 的測試分為兩個擋位
Unlimited power test
此設置下功耗完全放開,無功耗限制。
253w PL2 test
此測試下沿用 13900K 默認的 255W PL2。(敬請期待 測評 part2)
5.1 首先進行的是熟悉的 CB 部分測試
5.2 3DMark 部分
5.3 SuperPI 部分
提升幅度與比例
5.4 CPU-Z 部分
5.5 解壓縮部分
5.6 AIDA64 理論測試部分
多線程匯總:
六:IPC 測試
在性能測試的基礎上,我們分別使用 SPEC CPU 2017 1.1.8 以及 Geekbench 5.4.4 進行對應的 IPC 測試,同時測試默認頻率的情況以及 3.6Ghz 時的情況,僅供參考。
SPEC CPU 2017:
OS:WSL2-Ubuntu 20.04
編譯器:GCC/Gfortran/G++ 10.3.0
測試參數:-O3,對應測試與 cfg 附於網盤之中,鏈接:https://pan.baidu.com/s/1G0yD_FC3yXOJl3tkkyzjSg 提取碼:pa37,歡迎各位取用測試。
P 核心部分:
我們首先測試默認頻率下單線程性能,可以看見在默頻情形下,提升大約在 12.5% 左右。
進一步的,我們進行 3.6GHz 的同頻測試,可以看見 RPC/GLC 兩個核心的同頻性能基本一致,而 RPC 由於具有更大的 L2 cache 致使其的訪存延遲相對更低,再加上更加合理的睿頻機制,最終導致其在頻率更高,且均跑滿的情形下的大部分項目性能損失更低(5.8GHz VS 5.2GHz)。值得註意的是 520/549 子項在這裡出現嚴重瓶頸,此項目與 L3-DRAM 覆蓋范圍的延遲性能直接相關。
我們還測試 E 核心的 IPC:
由於內緩存部分的明顯優化,以及核心訪問延遲的進一步優化,Ecore 的 IPC 產生明顯的變化,平均 IPC 提升大約在 6% 左右。
除 GCC 部分外,我們還使用 Clang 10+Gfortran 12 的組合測試 SPECint2017,在下列的表格中我們去掉 548.exchange2_r 項目的分數,僅用於比較 C/C++ 項目性能,以便用於與移動端手機 SOC 進行比較。
需要註意的是,本測評使用的內存非 JEDEC-規格,因為性能相較於使用 JEDEC 內存時有些許變化。
Geekbench 5.4.4:
P 核心部分:
我們首先測試默認頻率下單線程性能,可以看見在默頻情形下,提升大約在 13% 左右。
進一步的,我們進行 3.6GHz 的同頻測試,與 SPEC2017 的結果一致,可以看見 RPC/GLC 兩個核心的同頻性能基本一致。RPC 由於具有更大的 L2 cache 致使其的訪存延遲相對更低,再加上更加合理的睿頻機制,最終導致其在頻率更高,且均跑滿的情形下的性能損失更低。
我們還測試 E 核心的 IPC:
由於 Geekbench 的考察更偏向於 ALU 部分,對內緩存的考察相對較弱,這裡的結果與 SPEC2017 中有些許的偏差,在 GB5 中,Ecore 的 int 部分幾乎沒有變動,而 FP 部分則與 SPEC2017 的結果接近,大約有 6% 的提升。
七:遊戲測試
由於 RPL 依舊兼容 DDR4,所以這裡額外安排 DDR4 3600 C17-19-19-39 Trefi 262143 的平臺測試。
為確保測試公平統一,所以均采用遊戲內自帶的 Demo 和幀數統計,並且每款遊戲均運行五次 Demo,取平均值,如成績出現與其他四次較大的差距,那麼本次成績無效,補測一次,若遊戲本身幀數統計包含小數,則會保留相應位數的小數,否則一律四舍五入。
在側重 CPU 較多的高幀遊戲中,例如奇點灰燼,CSGO 等,13900K 相較於 12900K 的提升可以在 10%+,如果將顯卡換成更高端的型號,那麼這個差距將繼續被放大。
2K 分辨率依舊難以被撼動,均幀除 CSGO,提升都在個位數,但是 13900K 同樣也帶來最低幀提升,也就是說,使用 13900K 的遊戲體驗會更流暢。
Intel 通過魔改 Ring 總線,帶來 Ecore 訪問延遲的降低,同時 RPL 的 Ring 頻率和 Ecore 脫鉤,不會再出現 ADL 上小核負載時 Ring 大幅度降速的問題。
不過 RPL 還是會降速,13900K 會從 Auto 5000MHz 降頻至 4600MHz,但是相對於 12900K 的提升大很多,但這意味著你依舊可以通過關閉 Ecore 來提升遊戲性能。
除魔改 Ring 總線以外,Intel L2 增量,L3 增速都會給遊戲帶來一定的提升,尤其是在 DDR5 平臺下,L3 的增速將會放大 DDR5 帶來的優勢。
八:能效測試:
我們首先進行簡單的功耗測試:
在 AIDA64 FPU 場景下,13900K DDR5 的功耗約為 253w,此時的各核心頻率約為 *** 與 ***。
在 Z690 主板搭配八月份的 BIOS 中,解鎖功耗墻之後的功耗約為 343w,此時的電壓在 1.4V 附近,各核心頻率約為 P 核心 5.5 GHz,E 核心 4.3 GHz。
隨後,我們同時使用 Geekbench 5 多線程 int 與 Cinebench R23 的分數進行能效測試,用以模擬輕/重負載下的性能,不同功耗下的輕重負載性能(百分比)如圖所示:
(圖文省略.jpg)
問:數據呢?圖呢?為什麼我看不見 253w 的性能和能效/功耗曲線?
答:為準確的測試相關功耗數據,我們使用新到的 Z790 主板進行相關測試,然而該主板仍處於 NDA 狀態中,因此暫時無法展示相關數據,我們將在解禁後的第一時間內補上關於能效測試的部分。
以下是小劇場:
描:我搞一張 Z790 板子,順便還更新到最新版 BIOS,能效有些變化,電耗子我們用那個測吧,肯定準!
雷:大描老師,測啊測啊!剛好我還沒測完能效。
結果雖然什麼都測,但是這一部分的數據是在 Z790 上測試的,可因為板子有 NDA,跟大描老師商量之後決定暫時不放出來相關的數據。
剩下的部分,請期待我們的第二部分測評-能效與對決。
大描老師:Part2 不僅會加入能效部分的測試,同時會加入不知名 16C CPU 的對比,但是由於 NDA 的問題,這個時間點可能需要等到紅廠新品正式發佈之後。
九:結語
在 Alder lake 產品發佈的一年之後,Intel 通過進一步放寬 CPP 的 10nm Enhanced Super Fin plus(Intel 7+)工藝,獲得頻率更高,能效也來的更好的新一代產品 Raptor lake。通過增加頻率和小核心的數量,在提升大約 12% 的單線程性能時,又一次大幅的提升多線程性能,用以與超威半導體今年發佈的新品 Zen 4 進行競爭。
不論本世代最終鹿死誰手,誰又將成為本世代的單線程/多線程性能之王,我想這都應當都是近十年來半導體發展最好的時代。
因為這是競爭最激烈的時代,自然也是對消費者最有利的時代,有激烈的競爭,才會有不斷的進步,不論什麼領域均不外如是。
其實我們很早就展開聯合測試,並且在月初就完成數據統計和問題分析,也考慮到並猜測 AMD 的 FCLK 帶來的相關限制,所以原來的結果均在 6400 C34 下測出,但是我們實在是沒想到 Zen4 的甜點僅有 6000MHz,所以我們掀掉以往的測試結果,通宵將 6000 C30 重測出來,我感受到 AMD 深深的背刺。
此時此刻,描和雷的眼圈又黑一度。
最後,也感謝每一位讀者對本評測的閱讀,以上的所有數據均由 ECSM_Official & OneRaichu 提供,測試的結果可能有所不同,與不同的軟硬件有關。
如有不對,勞煩指正,如有不足,敬請諒解。