中國自動化學會專家咨詢工作委員會指定宣傳媒體
文摘詳情
gkongbbs

建設“綠色計算”,解讀“智算中心”

http://casecurityhq.com 2022-01-06 10:23 金藍??萍加邢薰?/a>

在深度學習、元宇宙的迅速推動下,大數(shù)據(jù)分析、高性能計算、人工智能、CAE仿真等領域得到快速發(fā)展。

僅2021年上半年,中國新增的人工智能企業(yè)就超過30多萬家,一是可見的人工智能公司數(shù)量增長,二是越發(fā)膨脹的算力需求。

信通院發(fā)布的中國算力發(fā)展指數(shù)白皮書顯示2020年中國智能計算的算力占算力規(guī)模的41%。預測到2030年,占比將迅速攀升到70%。

智算中心概念

內涵及功能定位

概念界定

智算中心是基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數(shù)據(jù)服務和算法服務的公共算力新型基礎設施,通過算力的生產、聚合、調度和釋放,高效支撐數(shù)據(jù)開放共享、智能生態(tài)建設、產業(yè)創(chuàng)新聚集,有力促進AI產業(yè)化、產業(yè)AI化及政府治理智能化。

微信圖片_20220105194130.png

主要內涵

一. 算力公共基礎設施

智算中心面向政府、行業(yè)、企業(yè)等多用戶群體提供人工智能應用所需算力服務、數(shù)據(jù)服務和算法服務,能夠匯聚各行業(yè)領域數(shù)據(jù)資源、支撐各行業(yè)領域AI計算需求,智算中心作為公共算力基礎設施,通過提供共性的算力、數(shù)據(jù)及算法服務,讓算力服務更為易用,使得智慧計算像水電一樣能成為基本公共服務。

二. 計算架構技術領先、生態(tài)成熟

智算中心基于AI模型提供高強度的數(shù)據(jù)處理、智能計算能力,集成先進的智能軟件系統(tǒng)和智能計算編程框架,實現(xiàn)云端一體化,形成技術領先、可持續(xù)發(fā)展的高性能、高可靠計算架構。智算中心核心計算單元采用先進的人工智能芯片,面向新型的人工智能場景,采用異構計算,能大幅提升對基礎算力的使用效率和算法的迭代效率。同時集成生態(tài)成熟的智能軟件系統(tǒng)和智能計算編程框架,便于不斷迭代升級。

三. 算力、數(shù)據(jù)和算法的融合平臺

智算中心以融合架構計算系統(tǒng)為平臺,以數(shù)據(jù)為資源,以強大算力驅動AI模型對數(shù)據(jù)進行深度加工,使算力、數(shù)據(jù)、算法三個基本要素成為一個有機整體和融合平臺。智算中心為AI算法研發(fā)提供大規(guī)模數(shù)據(jù)處理能力,也為AI產業(yè)應用提供充足的計算資源,全面支撐各類人工智能技術的應用和演進。

四. 以產業(yè)創(chuàng)新升級為目標

圍繞智算中心基礎設施建設,以數(shù)據(jù)流引導技術流、業(yè)務流、資金流、人才流聚集,實現(xiàn)以數(shù)據(jù)驅動產業(yè)創(chuàng)新發(fā)展新模式是智算中心的核心目標。通過打造人工智能開放服務平臺,面向AI產業(yè)、傳統(tǒng)產業(yè)提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,全面匯聚并賦能各產業(yè)領域AI應用,助力加速孵化新業(yè)態(tài),推進數(shù)字經濟與傳統(tǒng)產業(yè)深度融合,實現(xiàn)AI與產業(yè)的聚合并帶動形成一個多層級的AI產業(yè)生態(tài)體系,全面賦能產業(yè)創(chuàng)新升級。

功能定位

智算中心是智能時代面向社會全域多主體的新型公共基礎設施,集算力生產供應、數(shù)據(jù)開放共享、智慧生態(tài)建設和產業(yè)創(chuàng)新聚集四大功能于一體,為有海量數(shù)據(jù)存儲、處理、分析及應用支撐需求的各類場景提供載體支撐。

一. 算力生產供應平臺

AI計算是智能時代發(fā)展的核心動力。智算中心以數(shù)據(jù)為資源,以強大算力驅動AI模型對數(shù)據(jù)進行深度加工,源源不斷產生各種智慧計算服務,面向全行業(yè)領域提供基于深度學習技術的人工智能算法能力、算法框架和相關接口,為政府、企業(yè)及科研院所等多方用戶提供生產生活各領域智慧服務,發(fā)揮新型基礎設施的社會價值,降低社會服務成本,讓智慧計算服務更快的普及到每個人、每個企業(yè)。

二. 數(shù)據(jù)開放共享平臺

智算中心是新型公共基礎設施,通過全量匯聚各行業(yè)領域數(shù)據(jù)資源,開放共享全面提升AI算法訓練數(shù)據(jù)質量。同時,隨著數(shù)據(jù)匯聚共享能力的提升,通過跨領域數(shù)據(jù)的多次開發(fā)利用,以數(shù)據(jù)流引領技術流、業(yè)務流、資金流、人才流等聚集,深度分析挖掘應用需求,使沉淀的數(shù)據(jù)資源在各個應用場景中實現(xiàn)價值最大化。

三. 智能生態(tài)建設平臺

智算中心是集人工智能、大數(shù)據(jù)、云計算等多種技術和AI算力服務、數(shù)據(jù)服務和模型服務于一體的新型IT基礎設施。其廣泛應用將加速推動產業(yè)AI化和AI產業(yè)化,以智能算力生態(tài)聚合帶動形成多層級產業(yè)生態(tài)體系,賦能多個產業(yè)、惠及多類主體,助推數(shù)字經濟與傳統(tǒng)產業(yè)深度融合,加速孵化新業(yè)態(tài)。

四. 產業(yè)創(chuàng)新聚集平臺

以AI算力生產供給為核心的智算中心,面向政府、企業(yè)及科研機構等多主體,圍繞數(shù)據(jù)、算法和算力三大要素著力構建AI全產業(yè)鏈。其通過生產、聚合、調度和釋放算力推動AI 產業(yè)要素資源聚集,匯聚不同主體資源優(yōu)勢打造產業(yè)創(chuàng)新聚集平臺,在政府主導下,科創(chuàng)企業(yè)、科研機構和傳統(tǒng)企業(yè)發(fā)揮各自在AI方面的技術優(yōu)勢、研發(fā)優(yōu)勢和場景優(yōu)勢,加速AI應用場景落地,助力傳統(tǒng)產業(yè)轉型升級,催生經濟新業(yè)態(tài)新模式,優(yōu)化公共服務供給。

智算中心基礎設施

隨著旺盛的需求和建設迅速發(fā)展,新的問題被提出來。歸納起來為開放、融合、綠色、普惠、服務。

開放

目前,智算中心面臨的首要問題是開放性。AI應用數(shù)量的增加和迭代速度對智算中心的生命力提出挑戰(zhàn)。

智算中心作為一種新型基礎設施,不能僅僅解決材料或基因等某一領域的問題。

同時,智算中心的建設要避免在斥巨資建設智算中心一兩年之后,智算中心的功能就大幅衰減的情況。

關于業(yè)界智算中心的建設的兩種思路:

一. 垂直一體化整合模式

每一層由建設者獨立實現(xiàn),優(yōu)點是避免不同技術路線之間的適配過程。

二. 多元協(xié)作模式

適配難度會大一點,但對開發(fā)者更友好,更有利于產業(yè)發(fā)展。通過芯片、算法、框架和模型的全面開放和兼容,構建多元集成基礎架構,實現(xiàn)計算基礎的最大易用性,降低遷移成本,為未來開發(fā)者帶來更好的環(huán)境,進而通過建設智算中心,促進整個產業(yè)鏈的健康發(fā)展。

融合

隨著AI技術的不斷發(fā)展,各行業(yè)對智能化、數(shù)字化轉型的認識和需求不斷增強,從產業(yè)橫向來看,AI賦能的領域越來越多,從智慧城市到工業(yè)制造再到農業(yè)生產、科學計算等等。從行業(yè)縱向角度來看,AI應用正在從垂直領域逐步向縱深領域發(fā)展,以解決行業(yè)內部的關鍵問題。

AI應用多樣,對算力的需求同樣多樣。有些應用需要高精度的算力,而有些則需要低精度算力?;旌暇群投嘣懔Τ蔀橹撬慊A設施發(fā)展的必然趨勢。

綠色

除了AI的應用越來越多,AI模型的參數(shù)和智算中心的算力也在逐年上升。

尤其是現(xiàn)在大模型越來越多,以GTP-3為例,相關數(shù)據(jù)顯示,如果GPT-3的所有程序都運行一次,該模型產生的碳排放量相當于一輛車行駛70萬公里,大約是從地球到月球的兩倍距離。

在雙碳目標下,智算中心的節(jié)能減排形勢相當嚴峻。

藍海大腦冷板式液態(tài)智算中心通過將需要散熱的設備固定在一塊冷板上(通常為銅鋁等導熱金屬構成的封閉腔體),將發(fā)熱器件的熱量間接傳遞給循環(huán)流動的冷卻液體,液體在通過冷板的時候將設備熱量帶走,以達到散熱的目的。

技術特點

  • 散熱能力強:局部熱流密度達150W/CM²

  • 維護方便,技術成熟

  • 環(huán)境適應性強:適用于軍民領域各種應用環(huán)境

  • 冷卻介質多為導電液體,存在泄漏安全隱患

關鍵技術

  • 系統(tǒng)匹配設計

  • 流量分配設計

  • 冷板流道優(yōu)化設計

  • 焊接

  • 自密封連接

基于藍海大腦冷板式液態(tài)技術已經完全達到了國家要求數(shù)據(jù)中心碳排放標準,實現(xiàn)從規(guī)劃設計、中心建設、到平臺運營的完整配套服務,貫穿智算基礎設施的全生命周期。

普惠

目前,智算中心的價格有兩個特點:

一. 貴

作為一種新型的算力基礎設施,如果通過將建設成本轉換為算力單價來計算,算力成本較高。

二. 亂

這是一個新興市場,而算力的價格與智算中心所在地區(qū)等多方面因素有關。

從長遠來看,一定要有非常普惠的算力提供給AI用戶和開發(fā)者,讓AI產業(yè)持續(xù)發(fā)展,也能降低各地政府的投資建設壓力。

服務

目前大部分智算中心采用取建、運分離的模式,運營方面還沒有成熟的商業(yè)模式,運營主體普遍處于模糊地帶,有可能出現(xiàn)運營缺乏的情況。

但是,對于要建設智算中心服務區(qū)域經濟各地政府來說,智算中心的運營是剛需,是必須要解決的問題。

總結

智算中心的建設仍處于初期階段,要從開放、融合、綠色、普惠、服務五個方面進行智算基礎設施的建設,提高智算中心的運營效益。

隨著AI產業(yè)和產業(yè)AI的不斷發(fā)展,智算基礎設施建設熱度持續(xù)升高。與傳統(tǒng)的數(shù)據(jù)中心相比,智算中心在當?shù)禺a業(yè)經濟發(fā)展可能會帶來更明顯的作用,如何建好、管好、用好智算中心是一個持續(xù)迭代更新的命題。

液冷智算中心案例

隨著數(shù)字經濟高速發(fā)展,數(shù)據(jù)量與日俱增,海量的數(shù)據(jù)處理、存儲、傳輸?shù)倪^程都離不開智算中心。智算中心作為新基建的重要組成部分,數(shù)字經濟的堅實底座,其重要性已上升到國家戰(zhàn)略層面。

從需求量上看,在數(shù)字經濟時代,全國的數(shù)據(jù)量平均每兩年翻一番,數(shù)據(jù)處理剛需依然存在,可預見智算中心規(guī)模也將相應地增長。截止至 2019 年,全國數(shù)據(jù)中心產值已達 1,562.5 億元,與 2018 年相比,增長27.2%。預計 2035 年產值將達 6,057.5 億元。  

   

利用高性能服務器的人工智能集群技術。多個液冷機器可以聚集在一起,以擴大吞吐量,以進一步訓練和推理加速,并支持數(shù)十億至數(shù)萬億參數(shù)模型。大型數(shù)據(jù)中心和高性能服務器通常有數(shù)百到數(shù)千個節(jié)點,需要數(shù)月或數(shù)年時間才能建成,占用數(shù)據(jù)中心機柜空間及增加耗電量,并且通常吸引超過 10MW 的設備。相比之下,每臺液冷GPU服務器提供相當于10s-100s傳統(tǒng)節(jié)點的計算等價物。此外,冷卻系統(tǒng)、供配電、空調功耗和資源池虛擬化技術的發(fā)展和優(yōu)化,推動PUE 值持續(xù)降低,數(shù)據(jù)中心總體能效水平有所提高。

在以前的20多年里,大多數(shù)智算解決方案都采用行業(yè)標準互連的大規(guī)模服務器集群。隨著人工智能、大數(shù)據(jù)等技術和應用的日益成熟落地,實際業(yè)務對數(shù)據(jù)中心等底層基礎設施的性能要求越來越高。性能提高直接導致服務器功耗不斷增加,尤其是芯片制程提升變慢導致功耗提升加速,通用 CPU 的 TDP(Thermal Design Power ,散熱設計功耗)持續(xù)增加,已從最初的 100W 左右逐步增加到最高可達 400W。單臺通用服務器滿載功率已逼近 1 kW,用于 AI 訓練的機器單機功率甚至高達 2.6kW,未來AI 訓練 GPU 單機預計最高可達 10kW。

另一方面,云計算數(shù)據(jù)中心的單體規(guī)模越來越大。截止至 2020 年,全國數(shù)據(jù)中心總機架數(shù)約 428.6 萬架。數(shù)據(jù)中心總機架數(shù)增長規(guī)律與總產值相似,均以相對穩(wěn)定地增幅逐步上漲,預計至 2035 年全國數(shù)據(jù)中心總機架數(shù)約 1,491.1 萬架。無論是對于局部散熱還是整個數(shù)據(jù)中心散熱而言,風冷技術均趨于能力極限,且每年會產生大量的電力消耗,增加了數(shù)據(jù)中心的運維成本。

液冷技術通過液體作為熱量傳輸媒介,達到降低設備溫度的目的。液體可以直接導向熱源帶走熱量,不像風冷一樣間接通過空氣制冷。對于密度高、規(guī)模大、散熱需求高的數(shù)據(jù)中心優(yōu)勢明顯。

液冷數(shù)據(jù)中心解決方案

對于需要最大性能、密度和效率的大型系統(tǒng)的客戶,高性能服務器提供液冷機柜,高性能服務器提供液冷機柜,支持高性能計算配置中所有組件的液體冷卻系統(tǒng)。

這種架構包含許多支持高瓦數(shù)CPU和GPU(超過500W)的創(chuàng)新功能,極大地減少了互連布線需求,降低了操作成本。液冷式基礎設施還帶來了更緊湊的系統(tǒng)結構,減少使用昂貴的光互連電纜。

此外,其基礎設施經過精心設計,支持多處理器體系結構和加速器選項,至少在未來十年內與下一代CPU、GPU和互連技術保持向前兼容。

機柜架構

液冷機柜的計算和交換機基本構件包括:

  • 服務器機柜:一臺機柜可容納8臺機箱,最多支持64個計算刀片和512個處理器。

  • 計算刀片:刀片是機箱中的模塊,包括CPU、結構連接、印刷電路板,以及冷卻和電源組件。預裝四個雙插座節(jié)點。從機柜前部插入機箱。

  • 交換機機箱:可容納8臺交換機箱,最多支持64個交換機。從機柜后部插入機箱。

  • 交換機刀片:包含光纖交換機,電路板,用于連接計算刀片和冷卻所需的所有組件和電源。

每個機柜包含8個服務器機箱和8個交換機機箱,直接從交換機連到刀片上,無需布線。交換機和交換機端口都是直接液冷冷卻。刀片垂直放置,交換機水平放置,交換機可以直接與刀片相連接。

預裝的液冷計算刀片配備四臺雙處理器服務器。所有組件均采用直接液體冷卻方式。機柜未配置風扇。

網絡

  • 64 口交換機,提供  12.8 Tb/s 帶寬

  • 每個交換機機箱最多支持8個交換機刀片,每個計算刀片最多支持8個光纖連接

  • 每個機箱2個交換機,用于向32個計算節(jié)點(8個計算刀片)單點連接 (每個節(jié)點一個網絡連接)

  • 每個機柜有16個交換機,用于向256個計算節(jié)點(64個計算刀片)單點連接 (每個節(jié)點一個網絡連接)

  • 任何端點間,最多3次連接

電源

液冷機柜可以支持高達300千瓦的功率。

每面機柜都有一系列PDU和整流器,將輸入的480V或400V三相交流電源轉換為380V直流電源,分配給單獨的計算和交換機刀片。計算和交換機刀片上的直流到直流轉換器將輸入的380V直流電源首先轉換為48V直流電源,然后轉換為各種組件的直流電壓。機柜支持頂部或底部供電。

冷卻

機柜和所有組件冷卻由貫穿整個計算設施的循環(huán)液體完成。冷卻分配單元(CDU)通過數(shù)據(jù)中心的熱交換器冷卻液體將熱水循環(huán)。整個冷卻回路是一個源自CDU的閉環(huán)。一個CDU最多可以支持四臺液冷機柜。CDU將冷卻液保持在一定溫度,并通過熱傳遞機制將熱量轉移到數(shù)據(jù)中心的水里。

液體冷卻通過一系列流管到達液冷柜中的各個刀片和部件,這些流管將冷卻液從主管道分配到各個刀片和交換機,然后將熱的液體回流管道。機柜前面配備計算刀片的冷卻管,后面配備交換機的冷卻管。計算刀片和交換機刀片之間的連接快速且無滴漏,可在不關閉整個系統(tǒng)的情況下卸下刀片對服務器進行維護。冷板直接去除CPU中的熱量。當NIC夾層卡位于CPU上方時,由CPU冷板冷卻。液冷高性能服務器的功率和冷卻預算大大小于風冷裝置。

微信圖片_20220105190304.png

總結

  • 擴展:機柜內的無電纜網絡減少外部電纜和光纜。

  • 總體擁有成本TCO:在產品使用壽命內節(jié)省電力和水的運營成本。

  • 靈活性:靈活高度集成的液冷基礎設施提供廣泛的計算平臺、可升級的網絡解決方案及未來的兼容性。

  • 可靠性:減少電纜使用、無風扇以及高度可靠的電源和冷卻解決方案,有助于提高平臺的整體可靠性。

在“marketing@lanhy.cn”獲取完整版《智能計算中心規(guī)劃建設指南》完整版。

END

版權所有 中華工控網 Copyright?2024 Gkong.com, All Rights Reserved