中國自動化學會專家咨詢工作委員會指定宣傳媒體
文摘詳情
gkongbbs

綠色數(shù)據(jù)中心:風冷GPU服務(wù)器和水冷GPU服務(wù)器綜合分析

http://casecurityhq.com 2022-02-17 10:49 金藍海科技有限公司

導語

隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、高性能計算的快速發(fā)展,數(shù)據(jù)中心面臨著嚴峻的挑戰(zhàn)。主要歸結(jié)于GPU驅(qū)動應用程序推動,使得業(yè)務(wù)和IT增長需協(xié)調(diào)一致。隨著數(shù)據(jù)中心內(nèi)部溫度升高,運營商正爭先恐后地尋找可行、更節(jié)能的散熱解決方案。在此我們將討論其中最可行和最實用的冷卻方法,并對比分析風冷冷卻和液體冷卻。

1  冷卻技術(shù)運作原理

風冷冷卻

傳統(tǒng)的風冷數(shù)據(jù)中心通過空氣處理機上的進氣口將外部空氣帶入??諝獗挥嬎銠C房空調(diào)(CRAC)單元冷卻,然后在高架地板帶動下進入服務(wù)器機架"冷過道"。冷空氣通過并冷卻服務(wù)器,然后離開"熱通道",通過充氣室排放返回空氣處理器。

圖片

液體冷卻

液體冷卻的工作原理是:液體相較于空氣是更好的熱導體。

  • 服務(wù)器垂直安裝在水平定向的介質(zhì)(電非導電)流體冷卻液槽中。

  • 冷卻液通過與服務(wù)器組件的直接接觸傳遞熱量。

  • 加熱的冷卻液從機架頂部流出,并在機架和連接到溫水回路的冷卻分配單元(CDU)之間循環(huán)。另一側(cè)包含冷卻塔或干式冷卻器作為散熱最終形式。

  • 冷卻的液體從熱交換器返回到機架。

圖片

2  復雜性和前期成本

圖片

圖片

風冷冷卻

看似簡單的服務(wù)器機架系統(tǒng)實際上有很多活動部件:高架地板,通道遏制策略,冷卻器,空氣處理器,濕度控制,過濾系統(tǒng)和增壓室的某種組合。為了支持上述功能,風冷數(shù)據(jù)中心還必須運行相對較大的輔助基礎(chǔ)設(shè)施(特別是備用發(fā)電機、UPS和電池)。

這些必要的復雜性等同于相對較大資本支出(CAPEX)。

圖片

液體冷卻

自 2009 年開創(chuàng)該技術(shù)以來,一直在挖掘液體冷卻的最大價值(簡單性)。

考慮只需三個活動部件:冷卻液泵,水泵和冷卻塔,干式冷卻風扇,并且不需要高架地板,也不需要通過通道封閉浪費空間。液體冷卻可以將數(shù)據(jù)中心的資本支出降低50%甚至更低。

由于機架可以緊密地間隔在一起,液體冷卻不需要對氣流進行CFD分析,甚至可放置在裸露的混凝土地板上。電氣支持系統(tǒng)縮小尺寸。

在假設(shè)簡單性會影響性能之前,補充一點說明GRC ICEraQ™系統(tǒng)可以輕松冷卻100 kW /機架(甚至更高),遠遠超過最好的風冷操作能力。

3  效率和運營費用

圖片

風冷冷卻

顯而易見空氣是比液體更有效的熱導體(效率低1200倍) 。不僅使風冷數(shù)據(jù)中心本質(zhì)上效率降低,而且會產(chǎn)生連鎖反應,對運營費用產(chǎn)生嚴重影響。

風扇占服務(wù)器功耗的20%。為提高空氣有效性,需冷卻器和空氣處理器等消耗能源的制冷組件。這些反過來又會影響電力基礎(chǔ)設(shè)施規(guī)模。

鑒于上述情況,風冷冷卻需要數(shù)據(jù)中心技術(shù)中極高的運營費用,同時大約產(chǎn)出1.35至1.69的PUE。

液體冷卻

用三個移動部件(GRC移除風扇以優(yōu)化服務(wù)器浸入式),零制冷組件,大大降低基礎(chǔ)設(shè)施要求,液體冷卻使冷卻能量減少90%,數(shù)據(jù)中心總能耗降低50%。因此,可以實現(xiàn)<1.03的PUE。

從電力角度來看,風冷冷卻基礎(chǔ)設(shè)施不僅增加成本,而且還可能附帶高昂的維護費用。液體冷卻則沒有這些問題。

4  冷卻能力和高密度性能

風冷冷卻

確實,一些風冷數(shù)據(jù)中心能夠冷卻30-35 kW機架。但實際上,風冷數(shù)據(jù)中心在15 kW 機架以上非常低效。

行業(yè)趨勢使形勢變得更為嚴峻。耗電 GPU 正在進軍,以應對物聯(lián)網(wǎng)和 AI 等 HPC 應用。用一個例子說明,英特爾®的新Skylake版本消耗高達250 W的能量。將其中兩個放在1U服務(wù)器上,為其他電子設(shè)備添加200 W以上,乘以40服務(wù)器,基于CPU的系統(tǒng)則有28 kW。添加處理器和加速器,將遠遠超出風冷冷卻的限制。

為滿足以上需求,數(shù)據(jù)中心運營商傾向于創(chuàng)建混合密度的機架。就風冷而言,不可避免地會導致熱點,從而導致硬件故障。

值得一提的是,硬件演變將為風冷數(shù)據(jù)中心的運營商(下一次硬件更新)帶來真正的清算時刻。

圖片

液體冷卻

GRC ICEraQ™ 和 ICEtank™ 系統(tǒng)通過精心設(shè)計突破熱障,將數(shù)據(jù)中心計算帶入下一次演進,甚至更進一步。任何一種解決方案都可以輕松冷卻每個機架高達100 kW的功率,理論上與冷卻液一起使用時可以冷卻高達200 kW的功率。

4  可靠性和位置靈活性

風冷冷卻

任何風冷冷卻技術(shù)都注定要面臨硬件可靠性問題。究其原因在于IT資產(chǎn)暴露于潛在有害的空氣污染物以及空氣本身的不利影響(主要指腐蝕和氧化)。

風險取決于空氣質(zhì)量和無調(diào)節(jié)空氣本身的自然濕度水平。顯然,濕度高、空氣污染或風吹顆粒物的地方都可能會對數(shù)據(jù)中心造成嚴重破壞。隨著對遠程邊緣部署的需求增加,這些問題也會凸顯出來。

說到位置靈活性,風冷冷卻固有的復雜性和巨大的基礎(chǔ)設(shè)施要求為數(shù)據(jù)中心的放置帶來重大障礙。

綜上所述,即便采用最佳的通道布置方法,傳統(tǒng)的風冷冷卻也會產(chǎn)生導致硬件故障的熱點。

液體冷卻

三個主要因素使液體冷卻在此類別中得分最高:

  • 市場上最簡單實用冷卻形式。出錯的更少:沒有冷卻器,空氣處理器,濕度控制等;并且沒有服務(wù)器風扇來產(chǎn)生可以增加MTBF(平均故障間隔時間)的振動。

  • 沉浸式處理,使IT資產(chǎn)與外部空氣完全隔離,從而消除環(huán)境問題。

  • 數(shù)據(jù)中心中沒有熱點。事實上,ICEraQ或ICEtank系統(tǒng)中的任何兩個點都在兩個溫度范圍內(nèi)工作。

5  藍海大腦水冷GPU服務(wù)器

Water Cool (JD).png

基于藍海大腦超融合平臺的水冷GPU服務(wù)器及水冷GPU工作站采用 Gluster 分布式架構(gòu)設(shè)計提供大存儲量,擁有開放融合的特性和超能運算的能力。支持多塊GPU顯卡,提供出色的靜音效果和完美的溫控系統(tǒng)。借助 NVIDIA GPU計算卡可加快神經(jīng)網(wǎng)絡(luò)的訓練和推理速度,更快地創(chuàng)作精準的光照渲染效果,提供高速視頻、圖像、聲音等處理能力,加速AI 并帶來更流暢的交互體驗。

6  總結(jié)

綜上所述,隨著數(shù)據(jù)中心的規(guī)模越來越大,部署的機架越來越密集,對服務(wù)器負載的要求越加苛刻,傳統(tǒng)的風冷冷卻技術(shù)不再滿足數(shù)據(jù)中心的制冷要求。為解決這個問題,很多企業(yè)在其數(shù)據(jù)中心開始采用液體冷卻技術(shù)。

版權(quán)所有 中華工控網(wǎng) Copyright?2024 Gkong.com, All Rights Reserved