英特爾從2023年12月開始在膝上型電腦中發售首款 Meteor Lake 第 14 代 Core Ultra 晶片,開啟新的“AI PC”時代。這款晶片採用了全新的架構,將CPU分為四塊“瓷磚”(tiles):CPU Tile,SoC Tile,Graphics Tile和I/O Tile,從而降低功耗並提高產量。而圖形效能翻倍和新的人工智慧引擎有助於滿足尋求新功能的消費者。
傳統上,英特爾 CPU 分為封裝在一起的兩個主要部分:CPU 和平臺控制中心 (PCH)。直接媒體介面 (DMI) 匯流排將兩者連線起來。在此方案中,很容易將其視為 CPU 和“其他一切”:I/O、記憶體等。英特爾在Meteor Lake上採用的tiles則解決了幾個問題。首先,每塊瓷磚都可以按照自己的路線圖單獨加工,並按照其所需的製造工藝進行製造。英特爾使用其Foveros 技術將它們連線並堆疊在一起。在 14 納米制造工藝停滯多年後,英特爾的新計劃是透過在四年內以前所未有的速度跨越五種新制造工藝技術,重新獲得製造領先地位,並在Meteor Lake上採用了新的製程技術:Intel 4。英特爾的新模組還意味著其邏輯可以智慧地相互分離,從而節省電力。每個塊都透過提供大約 128GB/s 頻寬的結構連線。除此以外,tiles還有一個巨大的次要好處:可製造性。英特爾的Intel 4工藝是第一個使用極紫外(EUV)光刻技術的技術,該技術解決了一個基本問題:英特爾從其光阻矽晶圓上雕刻出的電晶體小於蝕刻過程中使用的光的波長。EUV(需要裝置內部的硬真空)被視為邁向 Intel 4 及更高版本的道路。英特爾甚至不自己生產所有的瓷磚。英特爾的 Meteor Lake GPU 模組由臺積電採用 5nm N5 工藝製造;SOC模組由臺積電採用6nm N6工藝製造,而CPU模組由英特爾採用Intel 4工藝製造。(英特爾沒有透露其 I/O 模組的製造商是誰)
接下來,我們詳細地看一下Meteor Lake的這四個Tiles。
CPU Tile
與第 13 代 Raptor Lake 一樣,英特爾第 14 代 CPU 模組由兩個主要部分組成:效能核心(P 核心)(現稱為 Redwood Cove)和代號為Crestmont的新效率核心(E 核心)。我們不太瞭解 Raptor Lake 的 P 核和 E 核與 Meteor Lake 中的核之間有什麼區別。然而,Redwood Cove 確實提供了更高的效能效率和頻寬,並具有更大但未公開的二級快取。
英特爾也沒有透露任何有關 Redwood Cove 效能改進的資訊。不過,英特爾客戶端系統和軟體部門的研究員 表示,與 Raptor Lake 相比,Crestmont 的每時鐘指令數的效能提升快了 4% 到 6%。(IPC 改進意味著,如果 Raptor Lake 和 Meteor Lake 以相同的速度執行,Meteor Lake 的 Crestmont E 核的執行速度將快 4% 到 6%。)
SOC Tile:低功耗的E-核心
Meteor Lake 的兩個新的低功耗 E 核心包含在 SOC 模組中,就其功能陣列而言,SOC 模組是 Meteor Lake 中最複雜的。雖然 CPU 區塊包含 CPU 核心,但 SOC 區塊本質上是舊的 PCH,包含 Meteor Lake 的絕大多數輔助功能。在這裡,您將找到低功耗 E 核、新的 NPU AI 引擎以及顯示引擎、PCI Express 等。為什麼要把低功耗E核放在SOC模組中?同樣,這是英特爾低功耗計劃的一部分:透過將低功耗 E 核心與 CPU 模組分離,這意味著只有 SOC 模組(或其特定部分)需要被喚醒進入活動電源狀態。這樣可以節省電量,延長膝上型電腦的電池壽命。
低功耗E核呢是一個“新”E-core,是 Gracemont 架構的不同版本。E 核最初是為低功耗任務而設計的。新的低功耗 E 核是為高管們所說的後臺“IT 任務”而設計的,但目前尚不清楚這些任務到底是什麼。我們也不知道這些新核心的“功耗”有多低。這些“IT 任務”所涉及的一個相當例子是,英特爾使用低功耗 E 核來播放《鋼鐵之淚》,這是一個被廣泛用來測量膝上型電腦電池壽命的開源影片檔案。從歷史上看,直到 2017 年左右,播放影片都需要整個 CPU 的注意力。從Lakefield 和 Alder Lake,英特爾開始將該任務分配給 E 核和 P 核。僅根據這項任務,膝上型電腦的電池壽命就有顯著增加。
英特爾還大規模改變了 Thread Director,這是 Meteor Lake 中執行緒或工作負載在核心之間分流的機制。Windows 或 Linux 知道需要做什麼並指示 CPU 接管。然後該工作將交給 Thread Director。在Core i9-13900K 上執行的Thread Director 2中,任務首先路由到效能核心,然後在需要時分流到 E 核心。
在 Meteor Lake 中,情況恰恰相反:執行緒首先分配給低功耗 E 核,然後分配給全功率 E 核,最後分配給 P 核。Thread Director 為任務分配不同的優先順序,然後相應地分配任務。(任務的評級不是根據其表現,而是根據其他特徵:“0”是“空閒”,“2”是“持續”,“3”是“突發”)。如果低功耗 E 核心完成任務並被釋放,即使 P 核心可用,可用執行緒也會被推送給它。即使在 P 核空閒且英特爾執行緒控制器針對性能進行了最佳化(可能透過Windows 電源滑塊)的情況下,任務也會首先分配給 低功耗E 核。
儘管英特爾似乎能夠將 Thread Director 作為一項政策進行調整最佳化,但我們不知道它是否會這樣做。比如遊戲最佳化膝上型電腦是否可以主要採用 P 核,並讓 Thread Director 首先將執行緒路由到 P 核?英特爾技術人員評論可以根據遊戲的需要調整 Thread Director。尚不完全清楚的是,例如,在低功耗 E 核上啟動遊戲執行緒,然後逐步進入 E 核,然後進入 P 核,是否會造成效能損失?
SOC 塊也是英特爾所稱的 NPU的所在地。2022年,英特爾CEO基辛格確認AI即將登陸Meteor Lake,開啟“AI PC時代”,英特爾將出貨“數百萬”臺此類人工智慧電腦。順便說一句,英特爾證實,該 NPU 將出現在所有版本的 Meteor Lake 上。
英特爾實際上正在開發第三代人工智慧:第一代是它於 2016 年從 Movidius 購買的,第二代將獨立卡內建到三星 Galaxy Book3 Ultra等一些 PC 中,使這些 PC 能夠透過 Windows Studio 進行背景模糊和噪聲過濾效果。(雖然 Windows Studio Effects 使用 Movidius 技術,但 Zoom、Teams、Google Meet 和其他工具只需使用 PC 的 CPU 或 GPU。)
英特爾試圖做的是將個人電腦定位為未來的人工智慧應用,展示了一款 AI 藝術生成器Stable Diffusion ,還演示了音訊編輯器 Audacity 的外掛,該外掛不僅將人聲與伴奏樂器分開,而且後來使用文字提示改變了樂器風格。英特爾的目標似乎是齊頭並進,加速 WinML、DirectML 等 AI API 及其自有的 OpenVINO 推理引擎。英特爾 SOC 設計總經理 Tim Olson 在一次單獨的演講中表示:“我們的目標是讓人工智慧平民化。”NPU 就是其中的一部分。英特爾的 NPU 包括一對神經計算引擎,每個引擎內部都有兩個 VLIW Shade DSP,推理引擎每個週期最多可處理 8 條指令。即使對於習慣於解析每個晶片的核心數量、基本時鐘和渦輪時鐘的消費者來說,這也沒有多大意義。英特爾試圖傳達的是,人工智慧每個週期需要大量乘法累加 (MAC) 指令,而這些引擎每個可以執行 2,048 次 MAC 計算。
不過,英特爾的秘密武器不僅僅在於 AI NPU,還在於 CPU、GPU 和 NPU 如何相互幫助。以下面的例子為例。英特爾運行了 20 次Stable Diffusion迭代,嘗試了各種組合:在 CPU 上執行所有計算、在 GPU 上執行所有計算、在 NPU 上執行所有計算以及三者的組合。在 NPU 上執行所有這些任務需要 20.7 秒,總功耗為 10 瓦,這是最有效的利用。但全部在 GPU和NPU 上執行需要 11.3 秒,消耗 30W。
Graphics Tile
Meteor Lake的 XeLPG 圖形模組結合了整合顯示卡和獨立顯示卡兩個市場的元素,更新了過去幾年一直內置於 Core 處理器中的 Xe(或 XeLP)整合 GPU。從本質上講,英特爾正在儘可能地從其獨立的 Arc GPU 中汲取靈感,並將其放入整合的 Meteor Lake GPU 中,目標是實現早期 Xe 核心效能的兩倍,以及每瓦效能的兩倍。英特爾正在提高 XeLPG 的時鐘速度,為其投入更多晶片,並提高其效率。英特爾將 Arc A770 的 8 個 Xe 核心以及 8 個光線追蹤單元引入 Meteor Lake,這意味著光線追蹤現在是基本整合 GPU 的一部分,而不僅僅是一個獨立晶片。
Meteor Lake 的 XeLPG 還支援 XeSS,這是英特爾對 Nvidia DLSS 的回應。英特爾的技術以較低的解析度渲染幀,然後將其超級取樣為高解析度影象。這樣可以節省能源並改善影象。Meteor Lake 引入了英特爾所謂的 Endurance Gaming,它將使用英特爾 Arc Control 應用程式進行電源管理。該應用程式直接與英特爾的移動驅動程式對話,調節效能並提高效率;在“常規遊戲”模式下,Arc Control 可以為整個系統分配 28W,包括 CPU 和 GPU。在 Endurance Gaming 中,總功耗可以削減至 10W,只為 CPU 提供 1W 功耗。根據英特爾的測試, 《火箭聯盟》這款遊戲可以在不到1W的功率下以每秒30幀的速度執行。
I/O Tile
I/O Tile包含處理器 PCI-Express 介面的物理層介面,以及 Thunderbolt 和 USB4 等 PCIe 衍生介面。I/O Tile本質上是 SoC 塊的擴充套件。英特爾認為需要單獨的 I/O Tile,因為這將允許他們使用不同大小的 I/O Tile來滿足不同的處理器型號。演示中的 I/O 模組採用頂級配置,擁有最多的 PCIe 通道、USB4 和 Thunderbolt 介面,英特爾打算在“Meteor Lake”中提供這些介面,不過一些低端 SKU 可能會配置較少的 PCIe 通道,並且缺少 Thunderbolt,使用物理上較小的 I/O Tile。不僅僅是 I/O Tile,還可能存在 P 核數量較少的計算塊的變體,從而導致物理塊更小。
作者個人Blog(HYs Blog):https://blog.yanghong.dev