您現在的位置是:首頁 > 動作武俠首頁動作武俠

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

簡介全員Golden Cove與消費級處理器不同的是,Sapphire Rapids只有P-Core,即全員Golden Cove,並首次使用芯粒(或者稱為小晶片)封裝,利用嵌入式多芯互連橋技術(Embedded Multi-die Inter

ultra oc什麼意思

在跳票一年半後,基於Intel 7工藝的Sapphire Rapids至強可擴充套件處理器終於開始交付客戶試執行。依照英特爾推廣能力,Sapphire Rapids以及為其搭建的Intel Eagle Stream平臺一旦啟用,很快將會大規模計算、資料中心中得到推廣,幫助英特爾重奪商用領域的市場份額。

在物理層面,Sapphire Rapids最多可以擁有60個核心,LGA4677封裝介面,LGA4677封裝介面,八通道DDR5-4800,擴充套件連線提供80條PCIe 5。0/4。0通道,最多可以整合64GB HBM2e記憶體。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

長時間的跳票說明了Sapphire Rapids飽受各種問題的困擾,引用Intel高階研究員Ronak Singhal的觀點,Sapphire Rapids會優先保證質量,而不是釋出的時間。因此我們能看到首發的Sapphire Rapids最多56個核心,而非設計層面的完全體。

但可以確定的是Intel Eagle Stream平臺與Sapphire Rapids的到來,終於能夠幫助英特爾在伺服器市場競爭中解決核心數量不足的難題,並尋找商用解決方案新方向,引入x86高階矩陣擴充套件(AMX),CXL 1。1,DDR5,PCIe 5。0等新技術。

因此在1月份正式釋出之前,不妨讓我們花點時間,一起來了解一下這款被延期數次的Sapphire Rapids和Eagle Stream平臺。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

全員Golden Cove

與消費級處理器不同的是,Sapphire Rapids只有P-Core,即全員Golden Cove,並首次使用芯粒(或者稱為小晶片)封裝,利用嵌入式多芯互連橋技術(Embedded Multi-die Interconnect Bridge,EMIB)最大限度的減少延遲和拓寬頻寬,核心數量也進一步提升,因此被英特爾發稱為十年來資料中心級處理器最大的提升。

源自於Alder Lake的Golden Cove與Ice Lake 的Cypress Cove相比,單執行緒IPC效能提升19%,主要得益於架構發生較大變化,包括:

16B → 32B 長度解碼

4-wide → 6-wide 解碼

5K → 12K 分支目標

2。25K → 4K μop 快取

5 → 6 寬分配

10 → 12 個執行埠

352 → 512 條目重排序緩衝區

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

伺服器上的Golden Cove將圍繞多執行緒表現性進行,不僅啟用AVX-512,並且每個核心配備2MB二級快取,與最新的13代酷睿中的Raptor Cove相當,支援x86高階矩陣擴充套件(AMX)和加速器介面架構指令集(AIA),以支援對加速器和裝置的有效排程、同步。

AMX指令用於加速機器學習速度,屬於DL Boost系列的AVX512_VNNI、AVX512_BF16之後的第三項指令,與前兩者均建立在AVX512之上不同,AMX自帶儲存和操作的獨立擴充套件,它引入了一套新的矩陣暫存器堆,包括8個1024-bit暫存器,呼叫方式則與AVX512相似,因此在整體結構上不需要做出修改,能夠與其他x86交錯使用。同時在呼叫向量和矩陣指令時,每個核心都會有獨立的細粒度電源控制器,以避免消費級CPU在執行AVX時候遇到頻率下降的情況。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

AIA提高了計算核心和加速器之間的同步效率,用來支援排程、訊號與同步,同時核心與加速器之間還使用了共享記憶體,以提升併發程序、容量和虛擬機器的效率。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

英特爾將AIA描述為基於PCIe的加速器,並圍繞AIA推出了兩個強力的技術,其中一個是在Skylake上已經出現的Intel Quick Assist Technology(QAT)技術,配套PCIe加速卡可以不消耗太多CPU資源實現壓縮與解壓,最高支援400Gb/s對稱加密,是上一代的兩倍。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

另外一個則是英特爾資料流加速器(Data Streaming Accelerator,DSA),這是一種高效能資料複製和轉換加速器,用於DMA重對映硬體單元或者IOMMU輸入輸出的記憶體管理單元將資料從儲存和記憶體傳輸到系統的其他部分。其中DSA向來是特定超大規模計算客戶的需求,他們希望透過DSA完成內部的雲架構部署,並擴充套件到英特爾的其它基礎設施處理單元中,在EGS平臺中,DSA相當於對Purley (SKL+CLX) 平臺上的Crystal Beach DMA的升級。

除此之外,Sapphire Rapids還支援半精度AVX512_FP16指令用於加速AI工作負載,並作為DL Boost策略的其中一部分。同時FP16指令還可以作為AMX的一部分使用。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

另外CXL被認為是未來技術升級的主要方向,作為全新的連線標準,CXL能夠在PCIe的基礎上實現資料傳輸之外的工作,三個分支分別為CXL。io,CXL。cache和CXL。memory,但Sapphire Rapids不包含CXL。memory協議相關內容,因此你會在Sapphire Rapids和EGS平臺宣傳中,仍然只會看到最高支援CXL 1。0標準。與此同時,英特爾也已經明確在下一步更新中推動CXL 2。0規範。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

連通每一個芯粒

在Sapphire Rapids之前,你看到的所有至強可擴充套件處理器都是單晶片狀態。透過一塊矽片來實現核心之間的快速互聯和統一的電源管理。現在我們已經知道隨著工藝節點越來越小,一整塊矽片的加工和批次生產已經越來越難,特別是堆高核心數量的時候,成本會明顯增加,這也是為什麼AMD更早啟動分割成若干個芯粒的設計原因之一。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

透過更小的矽片設計,能夠幫助英特爾更好的實現量產,並根據不同的功能和特性提供可選配置,同時也可以在同一塊處理器上獲得更大的芯片面積和更多的電晶體數量。英特爾表示每個芯粒的面積為400mm

2

,4個芯粒加起來就能達到1600mm

2

數個芯粒封裝最簡單的封裝就是透過處理器的基板連線,本質上相當於PCB走線,但會帶來連通性和功率損耗兩大問題。因為透過PCB傳輸資料會消耗更多的能量,並且頻寬會低很多,無法做到矽那般密集,因此還要仔細考慮PCB路線規劃和距離,這是在單晶片設計時從來不會考慮的。

為了克服傳統封裝遺留下來的問題,設計團隊通常會考慮矽連線的方式,也就是將所有芯粒放在一整個矽片上,讓矽片作為中介層,提供更好的通訊能力和功率。這樣的做法稱為2。5D封裝。這套封裝的成本比傳統封裝形式稍高,但效率提升也顯而易見,但前提是中介層必須做到比所有矽片加起來都要大。

英特爾Sapphire Rapids選擇了一套可以克服中介層缺點的方式,即在基板內部內建超小型中介層,透過嵌入到預先設定正確位置,使得芯粒之間實現互聯,在物理上儘可能接近的那單晶片設計系統。這套方式被稱為嵌入式多晶片互連橋接技術(Embedded Multi-Die Interconnect Bridge,EMIB)。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

事實上EMIB技術已經被英特爾推進了十多年時間,這套技術目前達到了是三個主要階段,即能夠以高良率橋接嵌入到封裝中,能夠以高良率與晶片橋接,能夠高效能連線兩個矽片。其中高效能連線實現並不容易,兩個芯粒之間會由於效能、發熱量、熱膨脹係數不同,連線與橋接穩定性被削弱。在此之前,英特爾EMIB主要是圍繞CPU/GPU連線高頻寬記憶體的設計執行,直至2019年才透過EMIB將兩個FPGA芯粒連線到一起,完成了效能攻關。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

在Sapphire Rapids上,4個芯粒依靠10個EMIB完成連線,連線間距為55微米。照理說4組芯粒之間用2個EMIB連線的話,使用8個EMIB即可,那麼為什麼要用到10個EMIB?這裡要從Sapphire Rapids的設計說起。從系統層面來看,Sapphire Rapids作為完整處理器,需要考量到在主機板上的佈局問題,因為PCIe、QPI介面不是均勻散佈在CPU周圍,在橫向連線的時候使用了3個EMIB,縱向保持2個,最終3x2+2x2=10個EMIB。

聊聊芯粒內部

在每個芯粒中,包含有核心、快取、Mesh網路、2個64位DDR5記憶體控制器、UPI通道、加速器通道和PCIe通道。雖然從演示圖片來看,四個芯粒的功能區都是對稱相等的,只需要旋轉對稱即可。但實際製造中,矽晶圓映象佈局必須完全重新設計。因此Sapphire Rapids本質上設計了兩套芯粒佈局,並最終以2x2的方式變成現在這樣的組合。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

這裡可以提一嘴第一代AMD EPYC,同樣使用了2x2芯粒佈局方式,但AMD使用旋轉對稱方式,即在矽片上建立了4個連線口,每次旋轉只使用其中三個。這樣的設計方式以犧牲芯片面積為代價,也幫助AMD控制住了研發成本。而在EPYC後續的設計中,AMD使用了中央IO晶片的方式解決了這個問題,設計上也更為合理。

兩套芯粒方案佈局的英特爾顯然沒打算使用中央IO晶片的設計方案,但效率得到了很好的保障。由於每個芯粒都擁有2個64bit,也就是128bit DDR5記憶體介面,4個芯粒合計獲得512bit DDR5,使用8個64bit記憶體控制器對每個插槽8個或者16個記憶體模組進行控制,即使在少核心版本的入門級至強處理器中也會保持這樣的特性。原因是為低端處理器專門遮蔽和刪減記憶體控制器本身就是很高的成本。

當然,針對更低端的市場,英特爾還會準備單個芯粒版本的Sapphire Rapids,核心數量和記憶體通道也會縮減到四分之一。

定製的HBM

Sapphire Rapids帶來另一個重大變化是將包含HBM版本,第一個客戶是美國阿貢國家實驗室的Aurora Exascale超級計算機專案,每個芯粒都會獲得一個單獨的HBM封裝,考慮到空間佈局,HBM不是傳統的方塊形狀,而是定製的長方形。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

因此使用HBM封裝的Sapphire Rapids尺寸也更大一些,達到100x57mm,而非Sapphire Rapids標準版的78x57mm。HBM將以類似於傲騰的方式執行,作為快取或者CPU的L4快取使用。同時HBM也會增加封裝功耗,進一步影響CPU頻率,具體還是要看客戶對至強處理器的實際需求進行取捨。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

UPI 2.0拓展

在設計中,英特爾希望能夠最高支援8個CPU同時協作執行,併為其增加了頻寬,把Ice Lake時代的通道數量升級到了4個,並轉向支援UPI 2。0。因此每個Sapphire Rapids都包含4組UPI 2。0 x24,以確保與其他處理器進行連線。

8個插槽設計形成一個立方體拓展結構,4個CPU為一組,如下圖所示,每個CPU都能在結構中找到另外3個CPU與之組合,最終實現8槽位CPU拓展。

跳票一年半的英特爾Sapphire Rapids,還值得期待嗎?

寫在最後

按照最初設計預想,英特爾Sapphire Rapids推出應該需要與AMD Milan或者Milan的3D V-Cache快取堆疊版本展開競爭。但實際上Sapphire Rapids推出的節骨眼不得不面臨AMD Zen 4的次時代挑戰。但英特爾伺服器級處理器的優勢永遠不是核心數量那麼簡單,透過特定的加速器優勢,Sapphire Rapids仍然會成為未來一段時間伺服器市場換新的主要考量。

從PCIe 5。0、DDR 5到核心的升級,也將帶動服務端新一輪產業升級,再加上轉向芯粒方式提升量產成功率,Sapphire Rapids後續表現依然讓人期待。只是在對手拉著Fabless策馬狂奔的時候,留給英特爾IDM模式反擊的時間,也已經不多了。

Top