。
AI就緒設(shè)計(jì)
【IDC圈注】“AI就緒設(shè)計(jì)(AI-Ready design)”指的是為應(yīng)對人工智能應(yīng)用而特別優(yōu)化和配置的數(shù)據(jù)中心設(shè)計(jì)
。這類設(shè)計(jì)通過采用最新的硬件和電力系統(tǒng)來支持AI的高功率和高密度計(jì)算需求。例如
,它們集成了高效的電力傳輸
、冷卻系統(tǒng)和計(jì)算密度,能夠支持AI訓(xùn)練和推理任務(wù)所需的強(qiáng)大計(jì)算能力
。AI就緒設(shè)計(jì)通常包括更高的功率密度
、先進(jìn)的冷卻技術(shù)(如液冷)
,并針對GPU和AI工作負(fù)載進(jìn)行優(yōu)化,以實(shí)現(xiàn)更高的性能和能效
。這樣,數(shù)據(jù)中心能夠更好地滿足AI應(yīng)用的性能需求
,并降低整體的總擁有成本(TCO)。
Meta原有的“H"型舊設(shè)計(jì)
,對建筑整體建設(shè)部署成本較高:通過計(jì)算發(fā)電機(jī)組數(shù)量比較會(huì)發(fā)現(xiàn),其"H"型建筑最多配備36個(gè)發(fā)電機(jī)組
,但Google使用更大容量的發(fā)電機(jī)僅需34個(gè)
,而且其單體建筑面積是Google建筑的一倍多
?div id="4qifd00" class="flower right">
?紤]到規(guī)模和結(jié)構(gòu)的復(fù)雜性
,建設(shè)周期差異很大:"H"建筑從開工到竣工需要約兩年時(shí)間
,而Google的建筑僅需6-7個(gè)月
。
然而,以上都不是做出設(shè)計(jì)改變的根本動(dòng)因
,更重要的是功率密度:Meta原有的“H"型建筑每平方英尺千瓦數(shù)不足Google數(shù)據(jù)中心的1/3,哪怕"H"建筑在能源效率方面具有顯著優(yōu)勢
,依然無法抵消其在生成式AI競爭中的劣勢。因?yàn)槿魏螣o法提供更高密度液體冷卻能力的數(shù)據(jù)中心
,將來都無法為客戶帶來顯著的性能與總擁有成本(TCO)改進(jìn)
,進(jìn)而導(dǎo)致在生成式AI競爭中落后。
02 算力密度增加帶來“新變”
近年來
,數(shù)據(jù)中心的性能演進(jìn)正逐步適應(yīng)高功率密度和AI工作負(fù)載的需求
,但這一過程面臨著技術(shù)和經(jīng)濟(jì)上的多重挑戰(zhàn)
。
數(shù)據(jù)中心的性能演進(jìn)
首先
,高功率密度方面,目前大多數(shù)現(xiàn)有托管數(shù)據(jù)中心都還沒有準(zhǔn)備好支持單機(jī)架功率密度超過20 KW的需求
。盡管預(yù)計(jì)2024年芯片供應(yīng)瓶頸將有所緩解
,但對于超大規(guī)模企業(yè)和托管服務(wù)提供商可能仍然會(huì)面臨數(shù)據(jù)中心容量的限制
,尤其是在人工智能方面相關(guān)因素的準(zhǔn)備不足
。例如
,傳統(tǒng)托管設(shè)施中普遍存在的12-15kW功率限制等,都可能會(huì)成為建設(shè)AI集群數(shù)據(jù)中心理想物理密度的障礙
。
AI集群數(shù)據(jù)中心
一般來說
,在新建數(shù)據(jù)中心中部署背板式熱交換器和液冷方案,可以有效解決功率密度問題
。但與采用傳統(tǒng)設(shè)計(jì)方案的已建設(shè)數(shù)據(jù)中心進(jìn)行改造相比,從頭設(shè)計(jì)融入這些解決方案的新數(shù)據(jù)中心其實(shí)更合理
。因?yàn)楦脑飕F(xiàn)有的數(shù)據(jù)中心會(huì)存在各種各樣不可預(yù)知的問題。比如
,可能缺乏足夠的物理空間容納額外的2-3 MW發(fā)電機(jī)
、不間斷電源(UPS)
、開關(guān)設(shè)備或變壓器等
,而且重新鋪設(shè)管道以適應(yīng)液冷所需的冷卻分配單元(CDU)等設(shè)備在某些情況下難度也會(huì)比較大
。Meta也正是因?yàn)橐庾R(shí)到這一點(diǎn)
,所以暫停了原有的數(shù)據(jù)中心項(xiàng)目,轉(zhuǎn)而重新設(shè)計(jì)專為人工智能工作負(fù)載定制的新型數(shù)據(jù)中心
。
以NVIDIA的DGX H100服務(wù)器為例,為了滿足高功率密度
,其部署方式會(huì)受到數(shù)據(jù)中心的電力和制冷能力限制有所不同,單個(gè)機(jī)架內(nèi)可能僅能部署2到3臺(tái)DGX H100服務(wù)器
,并將相鄰機(jī)架留空。
服務(wù)器部署方式
此外
,隨著越來越多的數(shù)據(jù)中心開始支持人工智能工作負(fù)載
,通過增加專用氣流設(shè)備
,單個(gè)機(jī)架的功率密度有望達(dá)到30-40 kW
,甚至更高
,并且仍采用空氣冷卻的方式
。未來采用液冷技術(shù)可以減少風(fēng)扇的用電量
,從而降低單機(jī)架的能耗約10%,并通過減少或消除對環(huán)境空氣冷卻的依賴
,使電力使用效率(PUE)降低0.2-0.3。當(dāng)然
,這對大多數(shù)數(shù)據(jù)中心來說也是最后一波顯著的PUE優(yōu)化空間。
數(shù)據(jù)中心空氣冷卻方式
更值得關(guān)注的是,AI訓(xùn)練和推理對數(shù)據(jù)中心的工作負(fù)載有著獨(dú)特的要求
,這與現(xiàn)有數(shù)據(jù)中心中部署的典型硬件有很大不同
。
AI訓(xùn)練工作負(fù)載非常耗電
,AI硬件的運(yùn)行功率通常接近其熱設(shè)計(jì)功率(TDP),每臺(tái)AI服務(wù)器現(xiàn)在都超過了10KW
。再考慮到AI訓(xùn)練對延遲不敏感,以及對靠近人口中心重要性的降低
,這意味著與傳統(tǒng)工作負(fù)載相比,對于AI訓(xùn)練來說
,大量廉價(jià)電力的可用性(未來獲得任何電網(wǎng)供應(yīng)的可能性)對于工作負(fù)載而言具有更高的相對重要性。而對于AI推理來說
,最終將會(huì)產(chǎn)生比訓(xùn)練更大的工作負(fù)載,總體規(guī)模將是巨大的
,但不同于訓(xùn)練,推理可以是相當(dāng)分布式的
,芯片并不需要集中放置。
03 電力需求提升引發(fā)“新變”
AI訓(xùn)練和推理的巨大需求正在成為數(shù)據(jù)中心規(guī)劃建設(shè)諸多變化的主要驅(qū)動(dòng)力
,使得電力供應(yīng)緊張加劇
,更重要的是電力需求提升將正在導(dǎo)致電力或冷卻系統(tǒng)問題頻發(fā)
,進(jìn)而持續(xù)影響著整個(gè)產(chǎn)業(yè)格局
。
AI訓(xùn)練和推理
電力需求有多大?
一個(gè)包含20,840個(gè)Nvidia H100集群的數(shù)據(jù)中心需要約25.9MW的核心IT功率容量
。而目前,整個(gè)數(shù)據(jù)中心行業(yè)正在建設(shè)容量更高的100,000個(gè)H100集群和千兆瓦級(jí)(Gigawatt)集群
,數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電能力需求還將繼續(xù)飆升
。
數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電能力需求
Source:SemiAnalysis Datacenter Model
數(shù)據(jù)中心的電力挑戰(zhàn)
以Nvidia為例
,其GB200系列的高功率需求(每個(gè)機(jī)架超過130kW)與以往的數(shù)據(jù)中心設(shè)計(jì)截然不同,這也就導(dǎo)致當(dāng)前新建數(shù)據(jù)中心(智算中心)在電力系統(tǒng)方面要格外重視
。
未來
,任何數(shù)據(jù)中心的電力或冷卻系統(tǒng)問題都可能導(dǎo)致運(yùn)營中斷,進(jìn)而帶來巨大的收入損失和聲譽(yù)損害
。這對于云服務(wù)提供商(CSP,如Azure和AWS)以及托管服務(wù)提供商(如托管數(shù)據(jù)中心房地產(chǎn))尤為重要
。確保高正常運(yùn)行時(shí)間(Uptime)是確保收入的關(guān)鍵
,這很大程度上依賴于電力與冷卻系統(tǒng)的可靠性
。盡管電氣故障相對更常見,但通常其影響范圍較小
,而冷卻系統(tǒng)故障的破壞性往往更大
。
從數(shù)據(jù)中心和電力流角度來看
,現(xiàn)代數(shù)據(jù)中心正在通過模塊化方式構(gòu)建
,一座數(shù)據(jù)中心通常被分解為多個(gè)機(jī)房(Data Halls,藍(lán)色矩形)
,每棟數(shù)據(jù)中心建筑(約25萬平方英尺)的關(guān)鍵IT容量(Critical IT capacity)為48MW,每棟建筑分為五個(gè)機(jī)房
,即每個(gè)機(jī)房9.6MW。
數(shù)據(jù)中心模塊化方式構(gòu)建
Source:Google Earth,SemiAnalysis
在一個(gè)機(jī)房內(nèi)有多個(gè)"Pod",每個(gè)Pod都有自己專用的一組電氣設(shè)備:發(fā)電機(jī)(Generator,橙色矩形)
、變壓器(Transformer,綠色矩形)
、不間斷電源(UPS)和開關(guān)設(shè)備(Switchgear)。在上圖中,可以看到每個(gè)機(jī)房有四個(gè)發(fā)電機(jī)和變壓器
。還有四個(gè)Pod
,這也意味著四個(gè)低壓配電板(Switchboards)和八個(gè)UPS系統(tǒng)(假設(shè)2N配電冗余)。
機(jī)房發(fā)電機(jī)
Source:Legrand
機(jī)房通常劃分為Pod以實(shí)現(xiàn)模塊化和標(biāo)準(zhǔn)化的設(shè)計(jì),主要有以下兩個(gè)原因:
1.模塊化:設(shè)施可以根據(jù)負(fù)載需求逐步擴(kuò)展
,以實(shí)現(xiàn)快速適應(yīng)高負(fù)載的能力。
2.標(biāo)準(zhǔn)化:Pod的設(shè)計(jì)使其與標(biāo)準(zhǔn)化的電氣設(shè)備相匹配
,這些設(shè)備在市場上更易于采購且成本較低
,避免了訂制設(shè)備的高昂價(jià)格
。
以Nvidia的下一代Blackwell數(shù)據(jù)中心設(shè)計(jì)為例,在新的架構(gòu)中
,一個(gè)通道甚至一整排機(jī)架都將作為機(jī)房中的新“Pod”。
數(shù)據(jù)中心設(shè)計(jì)
而在電力傳輸架構(gòu)中
,每個(gè)機(jī)架需要兩個(gè)(NVL36)或四個(gè)(NVL72)33kW電源架,考慮到空間和密度限制
,不太可能使用機(jī)架內(nèi)BBU(Battery Backup Unit,電池備份單元)
,這意味著中央U(xiǎn)PS依然是必需的。
中央U(xiǎn)PS
因此
,電力需求的大幅增長將導(dǎo)致供應(yīng)商的供貨量顯著提升,這很可能進(jìn)一步加劇供應(yīng)鏈緊張
。
模塊化UPS
傳統(tǒng)UPS是數(shù)據(jù)中心用電效率"殺手"
,導(dǎo)致數(shù)據(jù)中心PUE居高不下
。而現(xiàn)代UPS系統(tǒng)大多采用模塊化設(shè)計(jì):不再使用單一的大型設(shè)備,而是將其拆分為若干可堆疊
、并聯(lián)工作的小型"電力模塊"。以Vertiv最新產(chǎn)品為例
,單個(gè)電力模塊的容量為200kVA或400kVA
,模塊化UPS產(chǎn)品可在單機(jī)柜內(nèi)集成多達(dá)10個(gè)電力模塊
,多機(jī)柜并聯(lián)可進(jìn)一步擴(kuò)容
,單系統(tǒng)最大容量可達(dá)27MW
。此外
,現(xiàn)代模塊化UPS采取了多項(xiàng)節(jié)能設(shè)計(jì)。比如Vertiv的產(chǎn)品支持"變頻節(jié)能模式"(VFD mode)
,可繞過變流器
,將效率提升至99%以上
。但這種模式下切換時(shí)間可能延長數(shù)毫秒,存在瞬時(shí)斷電風(fēng)險(xiǎn)
。
模塊化UPS
Source:Vertiv
此外
,超大規(guī)模數(shù)據(jù)中心通常采用4N3R(四套可用設(shè)備對應(yīng)正常運(yùn)行所需的三套)或N+2C(也稱為"Catcher")等方案,以提高UPS負(fù)載利用率(更高效)
,并降低每兆瓦的資本支出(CapEx)。
在Catcher方案中
,沒有配置兩個(gè)滿載能力的UPS系統(tǒng)(如下例中的2*3MW)
,而是采用N+1設(shè)計(jì)
,包含多個(gè)較小的UPS(3*1MW)和一個(gè)冗余單元
。當(dāng)出現(xiàn)故障時(shí),我們使用靜態(tài)轉(zhuǎn)換開關(guān)(Static Transfer Switches
,STS)將負(fù)載瞬間從一個(gè)UPS切換到另一個(gè)。STS比自動(dòng)轉(zhuǎn)換開關(guān)(ATS)快得多
,因?yàn)樗鼈円揽侩娏﹄娮釉菣C(jī)械部件
。在4N3R方案中
,我們使用四套獨(dú)立的配電系統(tǒng)
,從配電一直到背板(即從電源線一直到發(fā)電機(jī)和變壓器),其中僅需三套即可保證運(yùn)行
。
Catcher方案
Source:SOCOMEC
OCP機(jī)架與電池備份
值得關(guān)注的是
,超大規(guī)模企業(yè)往往會(huì)突破常規(guī)
,另辟蹊徑
。比如Meta十年前推出的OCP(Open Compute Project)開放計(jì)算機(jī)架就是個(gè)典型案例
。在傳統(tǒng)機(jī)架設(shè)計(jì)中
,服務(wù)器通過配置在機(jī)柜內(nèi)的PDU獲得交流市電
,再經(jīng)服務(wù)器內(nèi)置的整流器轉(zhuǎn)換為直流。而OCP的思路是:不如集中配置一個(gè)功能強(qiáng)大的電源架(Power Shelf)
,直接輸出直流電
,再通過bus bar統(tǒng)一配送到各服務(wù)器,從而省去每臺(tái)服務(wù)器配備AC/DC轉(zhuǎn)換器的重復(fù)投入
。
此外,OCP電源架還可集成BBU
,相當(dāng)于一個(gè)"微型UPS",可在市電斷供時(shí)持續(xù)輸出直流電幾分鐘
,保障服務(wù)器安全關(guān)機(jī)
。由于電源架位于機(jī)柜內(nèi)部
,所以BBU的直流電可就近輸送給服務(wù)器
,免去了傳統(tǒng)UPS系統(tǒng)中兩次AC/DC的轉(zhuǎn)換損耗。而機(jī)房由于不再需要集中的A
、B雙路UPS,所需電池容量也減少了一半
。為進(jìn)一步降低布線損耗
,Google在此基礎(chǔ)上提出了48V直流供電方案。
當(dāng)然
,在機(jī)柜內(nèi)大規(guī)模部署鋰電池
,對防火、環(huán)控等配套設(shè)施提出了更高要求。傳統(tǒng)UPS電池多集中布置在獨(dú)立的電池室內(nèi)
,易于統(tǒng)一管理
,這一點(diǎn)OCP設(shè)計(jì)還難以企及
。
傳統(tǒng)UPS電池布置
Source:Schneider Electric
柴油發(fā)電機(jī)的前景與變化
與此同時(shí)
,隨著AI的快速發(fā)展超大規(guī)模數(shù)據(jù)中心正迅速擴(kuò)展
,并努力縮短數(shù)據(jù)中心的建設(shè)周期
。柴油發(fā)電機(jī)也因此面臨挑戰(zhàn)
,尤其是因其噪音和污染物排放而受到的許可限制。
柴油發(fā)電機(jī)
Source:SemiAnalysis
實(shí)時(shí)圖像分析顯示
,Meta正考慮完全繞過發(fā)電機(jī)。而Microsoft的超大型數(shù)據(jù)中心將只使用部分發(fā)電機(jī)負(fù)載
,X.AI在孟菲斯的項(xiàng)目也采用了電池儲(chǔ)能系統(tǒng),發(fā)電機(jī)作為現(xiàn)場電源的備選
,這種變革顯示出備用電源正在向更環(huán)保的電池儲(chǔ)能解決方案轉(zhuǎn)移。
電池儲(chǔ)能解決方案
當(dāng)然
,在當(dāng)前的超大規(guī)模數(shù)據(jù)中心內(nèi),發(fā)電機(jī)依然是不可或缺的選擇
,在超大規(guī)模數(shù)據(jù)中心內(nèi)
,備用發(fā)電機(jī)的單機(jī)容量一般為2~3MW
,園區(qū)內(nèi)動(dòng)輒部署數(shù)十臺(tái)發(fā)電機(jī)
。當(dāng)前,這些發(fā)電機(jī)通常以柴油為燃料
,但未來天然氣可能會(huì)成為主要的替代選擇
。它們的儲(chǔ)油量一般可滿足24~48小時(shí)的滿負(fù)荷應(yīng)急供電
。盡管柴油發(fā)電的能效更高,但煙氣污染也更嚴(yán)重
。因此
,在環(huán)保要求嚴(yán)格的地區(qū)
,柴油發(fā)電機(jī)往往配備有尾氣處理裝置,造價(jià)也更高
。
最后,還有一個(gè)略微產(chǎn)生影響的變化因素是冗余度(Redundancy Level)的降低——超大規(guī)模運(yùn)營商已經(jīng)開始這樣做
。在大規(guī)模訓(xùn)練過程中
,由于GPU節(jié)點(diǎn)上的高故障率,訓(xùn)練框架被迫發(fā)展出了強(qiáng)大的容錯(cuò)機(jī)制
,使得現(xiàn)代訓(xùn)練系統(tǒng)具備了較好的抗故障能力(Robustness),這使得數(shù)據(jù)中心端較低的冗余水平變得越來越可以接受
。
總之
,當(dāng)前數(shù)據(jù)中心建設(shè)與AI技術(shù)的發(fā)展密不可分,尤其對于正處于火熱建設(shè)中的中國智算中心建設(shè)市場來說
,快速的市場變化需要強(qiáng)有力的設(shè)計(jì)和運(yùn)營合作伙伴,以應(yīng)對增長的功率密度需求和不斷變化的技術(shù)趨勢
。供應(yīng)商之間的合作將推動(dòng)更高效、更具擴(kuò)展性的滿足AI的數(shù)據(jù)中心設(shè)計(jì)
,并在競爭激烈的市場中取得領(lǐng)先地位
。
參考資料及文章內(nèi)容來源:
1.Deploying The AI Factory
2.Datacenter Anatomy Part 1_ Electrical Systems
3.Al Datacenter Energy Dilemma
4.Generational growth Al,data centers and the coming US power demand surge
5.Powering Up Europe:AI datacenters and electrification to drive+c.40%-50%growth in electricity consumption etc.
Copyright ?英和數(shù)據(jù) 版權(quán)所有
蘇ICP備2022020863號(hào)
咨詢熱線:
0510-68186618
電 話:0510-68186618
、68186628
地 址:無錫市梁溪區(qū)人民西路98號(hào)12樓