正在閱讀:

超30城火拼智算中心:從建起來到用起來,要翻過這五道坎

掃一掃下載界面新聞APP

超30城火拼智算中心:從建起來到用起來,要翻過這五道坎

“智算中心正由1.0粗放擴張階段走向2.0精細規(guī)劃階段?!?/p>

文 | 智東西 李水青

編輯 | 漠影

近來,對話式AI模型ChatGPT一夜間刷屏圈內(nèi)外,自動駕駛模型訓練速度提升超百倍,AI助力靶向藥研究成果頻登頂刊……AI(人工智能)技術(shù)正更深入人們的生產(chǎn)生活,背后的算力需求呈現(xiàn)指數(shù)級增長態(tài)勢。

智能計算中心(簡稱:智算中心)是一種面向AI技術(shù)研發(fā)與應(yīng)用的數(shù)據(jù)中心,專門滿足海量而多元化智能算力需求。

2023年1月10日,國家工業(yè)信息安全發(fā)展研究中心推出《智能計算中心2.0時代展望報告》(簡稱:《報告》),指出經(jīng)過5年多發(fā)展,智算中心正由1.0粗放擴張階段走向2.0精細規(guī)劃階段。

什么是智算中心2.0時代?我國智算中心發(fā)展面臨什么樣的真實挑戰(zhàn)?隨著當下各行各業(yè)數(shù)字化轉(zhuǎn)型加快,作為數(shù)字化基礎(chǔ)設(shè)施的智算中心的又遵循什么樣的發(fā)展規(guī)律?回答這些問題具有很強的實際意義。

近日,智東西通過對話智算中心領(lǐng)域代表企業(yè)中科曙光相關(guān)負責人,對這些問題進行了深入探討?!秷蟾妗肥珍浟硕囗椣蠕h實踐,其中,曙光憑借5A級智算中心、浸沒式相變液冷技術(shù)、全國一體化算力服務(wù)平臺等多項方案成果成為典型樣板。

01. 超30城落地智算中心,1.0時代面臨五大挑戰(zhàn)

隨著人工智能產(chǎn)業(yè)發(fā)展,我國智算中心建設(shè)自2017年以來按下快進鍵,進入十四五發(fā)展新時期更是被要求“適度超前發(fā)展”。根據(jù)《報告》,2017~2022年以來,我國超30城快速布局智算中心,涌現(xiàn)出包括京津冀大數(shù)據(jù)智算中心、長沙5A級智能計算中心等多個典型案例。

曙光相關(guān)負責人告訴智東西,當下智算中心主要分為企業(yè)自建和公共基礎(chǔ)設(shè)施,全國30城智算中心大多是第二種情況,用于支持地方產(chǎn)業(yè)AI化、AI產(chǎn)業(yè)化及智能化治理等。

比如曙光目前在運營中的合肥、長沙等地中心,已為科學研究、工業(yè)制造、政務(wù)服務(wù)等多領(lǐng)域提供支撐,助藥物研發(fā)、材料解析等近百項成果登上國際頂刊《Science》雜志,累計服務(wù)用戶突破10萬+。

根據(jù)《報告》,當下智算中心已逐漸賦能區(qū)域產(chǎn)業(yè)集群發(fā)展,但值得注意的是,其在多元算力融合、上下游協(xié)同、建設(shè)應(yīng)用聯(lián)動、能源消耗、使用價格等方面仍面臨至少以下五大挑戰(zhàn):

1、通用算力和專用算力待融合。在自動駕駛、智慧醫(yī)療、智慧城市等不同場景中,算力需求不同。單一化算力方案難以滿足多元算力需求,不能兼顧多產(chǎn)業(yè)和多領(lǐng)域。

2、算力、算法和數(shù)據(jù)協(xié)同不足。這些年來建設(shè)的智算中心,不同的芯片平臺、算法模型、數(shù)據(jù)庫、應(yīng)用層面部分處于垂直一體化“孤島”狀態(tài),軟硬件兼容性問題有待改進。

3、投資建設(shè)運營有待聯(lián)動。智算中心投資、建設(shè)和運營往往由不同主體負責。前期建設(shè)單位往往對建設(shè)后運營的模式、服務(wù)標準投入不足,出現(xiàn)了管頭不管尾、建設(shè)運營割裂的現(xiàn)象,影響客戶體驗。

4、碳排放和能耗高。設(shè)備自身的能耗排放帶來非常大的挑戰(zhàn),比如OpenAI公司的超大規(guī)模預(yù)訓練模型GPT-3訓練所需的耗電量為19萬千瓦時,相當于2021年人均用電量的228倍。

5、投資成本和應(yīng)用價格待規(guī)范。智算中心的投建成本較高,部分智算中心每 100P半精算力的投資成本高達5-6億元,遠遠高出正常市場價格,同時使用成本也較高,比如據(jù)保守估計GPT-3大模型訓練費用超過1200萬美元。

02. 智算中心2.0時代:算力融合、告別煙囪、綠色低碳

按照《報告》對產(chǎn)業(yè)的洞察,我國智算中心產(chǎn)業(yè)發(fā)展正在克服1.0時代的挑戰(zhàn)進入2.0時代,背后來自于產(chǎn)業(yè)和政策兩方面的驅(qū)動。

一方面,各行業(yè)數(shù)字化轉(zhuǎn)型加快,智慧城市、智能制造、無人駕駛、數(shù)字孿生等大量場景需求拉動了數(shù)據(jù)計算分析的需求。根據(jù)知名行研機構(gòu)羅蘭貝格報告顯示,2030年人工智能的算力需求將是2018年的算力需求的390倍。

另一方面,“十四五”規(guī)劃與中長期發(fā)展綱要明確強調(diào),要加快構(gòu)建全國一體化大數(shù)據(jù)中心體系,強化算力統(tǒng)籌、智能調(diào)度。2022年2月東數(shù)西算啟動,我國智算中心在10大國家數(shù)據(jù)中心集群拉開新序幕。東數(shù)西算對數(shù)據(jù)中心提出集約化建設(shè)、能耗低碳等要求,催促智算中心由粗放式擴張走向精細式規(guī)劃建設(shè)的2.0階段。

智算中心2.0階段為產(chǎn)業(yè)發(fā)展提供了新的指引,那么它有什么特征?

根據(jù)《報告》,智算中心2.0階段標志著一個“有序發(fā)展”和“算網(wǎng)一體”建設(shè)新格局產(chǎn)生,賦予了以下7大新內(nèi)涵:

1、算力融合,通用和專用算力融合供應(yīng)。智算中心在1.0階段主要提供同構(gòu)計算、專用算力,2.0階段則需要利用CPU、GPU等加速芯片的異構(gòu),實現(xiàn)“高精度通用算力+低精度專用算力”融合供應(yīng)。包括谷歌、英特爾、阿里、曙光、百度等國內(nèi)外企業(yè)都在研發(fā)異構(gòu)計算結(jié)構(gòu)。

2、軟硬協(xié)同,加快增強產(chǎn)業(yè)發(fā)展協(xié)同性。在1.0階段,智算中心主要采用垂直一體的軟硬件煙囪式方案,通用性和兼容性較低;在2.0階段,智算中心更強調(diào)產(chǎn)業(yè)鏈上下游的開放協(xié)同,要實現(xiàn)算力、模型和數(shù)據(jù)集的橫向兼容,確保各層次靈活構(gòu)建。

3、建運一體,逐步完善一體化服務(wù)體系。在1.0階段,智算中心主要聚焦在算力基礎(chǔ)設(shè)施建設(shè)上;2.0階段,更加關(guān)注規(guī)劃建設(shè)和服務(wù)的統(tǒng)籌全局性。

4、能耗低碳,加快部署能耗低碳化技術(shù)。傳統(tǒng)的數(shù)據(jù)中心較多采用風冷方式,散熱效率較低;在2.0階段,數(shù)據(jù)中心的冷卻方式需要綠色節(jié)能,液冷方式發(fā)展起來。

5、成本優(yōu)化,持續(xù)優(yōu)化成本實現(xiàn)價格的普惠。在1.0階段,較高的投建成本稀釋了算力的價值;2.0階段應(yīng)該發(fā)算力基礎(chǔ)設(shè)施的公共屬性,尤其要推進智能算力網(wǎng)絡(luò)建設(shè),促進不同地區(qū)、不同應(yīng)用之間的算力普惠發(fā)展。

6、需求牽引,從建起來到用起來。1.0階段,大多數(shù)智算中心是規(guī)劃牽引的政府規(guī)劃、財政撥款建設(shè);2.0階段,應(yīng)更強調(diào)市場需求牽引、平臺化運營,多元化的模式來進行智算中心建設(shè)。

7、安全可信,落實新基建安全要求。在1.0階段,自主創(chuàng)新程度還是比較低;2.0階段要充分考慮信息安全和產(chǎn)業(yè)安全,以自主“通用芯片+AI芯片+操作系統(tǒng)+硬件設(shè)備+框架模型”為基礎(chǔ)技術(shù)體系來構(gòu)建生態(tài)、發(fā)展應(yīng)用。

可以看到,2.0階段的智算中心正從拼規(guī)模向拼質(zhì)量發(fā)展。

曙光相關(guān)負責人對智東西說,國家十四五數(shù)字經(jīng)濟發(fā)展規(guī)劃中提及“有序發(fā)展”,意味著此前幾年存在的一些無序狀態(tài)將要改變;同時智算中心建設(shè)強調(diào)協(xié)同,從原來的單打獨斗走向上下游軟硬件廠商的協(xié)同作戰(zhàn),將算法、算力、數(shù)據(jù)廠商聯(lián)動起來。

03.開放架構(gòu)曙光5A級智算中心打造行業(yè)樣板

基于2.0階段的要素特征,《報告》給出當前產(chǎn)業(yè)內(nèi)示范樣例,為智算中心從“建好”到“用好“提供借鑒與指導。值得一提的是,以曙光為代表的ICT企業(yè)憑借多個實際應(yīng)用案例正成為典型樣板。

《報告》指出,“中科曙光推出5A級智算中心可通過分布式異構(gòu)并行體系結(jié)構(gòu),覆蓋全算力精度,實現(xiàn)多樣化算力供應(yīng)?!遍_放是曙光5A級智算中心的最核心宗旨,通過硬件、算法、框架、模型的全面開放、兼容,構(gòu)建多元集成的基礎(chǔ)架構(gòu),實現(xiàn)算力底座最大程度的易用性,降低遷移成本。

當下國內(nèi)智算中心推進格局就像“爬珠峰”一樣,分化出南坡、北坡等不同的架構(gòu)“爬坡”路線。有的企業(yè)選擇用自己的芯片、操作系統(tǒng)、模型框架等技術(shù)形成一個垂直架構(gòu)閉環(huán),有的選擇多方協(xié)作的開放架構(gòu)。而曙光推出的5A級智算中心,是要做第二種路線的典范。

目前,5A級智算中心在長沙、合肥等多地投運,致力為千行百業(yè)注入AI活力,打造智能算力領(lǐng)域的行業(yè)樣板。

04.結(jié)語:開放融合共建智算中心從“建起來”到“用起來”

《報告》以2022年十四五規(guī)劃及行業(yè)政策的陸續(xù)出臺為分界點,將智算中心的發(fā)展劃分為高速擴張的1.0階段與行業(yè)引導的2.0階段,2.0階段的智算中心將從粗放擴張轉(zhuǎn)向精細式規(guī)劃建設(shè)。

如同“攀珠峰”一般,國內(nèi)智算中心建設(shè)也開出了多條爬坡路徑。無論何種路徑,開放生態(tài)、綠色低碳、算力融合都是作為公共基礎(chǔ)設(shè)施的智算中心規(guī)模落地的必由之路。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

超30城火拼智算中心:從建起來到用起來,要翻過這五道坎

“智算中心正由1.0粗放擴張階段走向2.0精細規(guī)劃階段?!?/p>

文 | 智東西 李水青

編輯 | 漠影

近來,對話式AI模型ChatGPT一夜間刷屏圈內(nèi)外,自動駕駛模型訓練速度提升超百倍,AI助力靶向藥研究成果頻登頂刊……AI(人工智能)技術(shù)正更深入人們的生產(chǎn)生活,背后的算力需求呈現(xiàn)指數(shù)級增長態(tài)勢。

智能計算中心(簡稱:智算中心)是一種面向AI技術(shù)研發(fā)與應(yīng)用的數(shù)據(jù)中心,專門滿足海量而多元化智能算力需求。

2023年1月10日,國家工業(yè)信息安全發(fā)展研究中心推出《智能計算中心2.0時代展望報告》(簡稱:《報告》),指出經(jīng)過5年多發(fā)展,智算中心正由1.0粗放擴張階段走向2.0精細規(guī)劃階段。

什么是智算中心2.0時代?我國智算中心發(fā)展面臨什么樣的真實挑戰(zhàn)?隨著當下各行各業(yè)數(shù)字化轉(zhuǎn)型加快,作為數(shù)字化基礎(chǔ)設(shè)施的智算中心的又遵循什么樣的發(fā)展規(guī)律?回答這些問題具有很強的實際意義。

近日,智東西通過對話智算中心領(lǐng)域代表企業(yè)中科曙光相關(guān)負責人,對這些問題進行了深入探討?!秷蟾妗肥珍浟硕囗椣蠕h實踐,其中,曙光憑借5A級智算中心、浸沒式相變液冷技術(shù)、全國一體化算力服務(wù)平臺等多項方案成果成為典型樣板。

01. 超30城落地智算中心,1.0時代面臨五大挑戰(zhàn)

隨著人工智能產(chǎn)業(yè)發(fā)展,我國智算中心建設(shè)自2017年以來按下快進鍵,進入十四五發(fā)展新時期更是被要求“適度超前發(fā)展”。根據(jù)《報告》,2017~2022年以來,我國超30城快速布局智算中心,涌現(xiàn)出包括京津冀大數(shù)據(jù)智算中心、長沙5A級智能計算中心等多個典型案例。

曙光相關(guān)負責人告訴智東西,當下智算中心主要分為企業(yè)自建和公共基礎(chǔ)設(shè)施,全國30城智算中心大多是第二種情況,用于支持地方產(chǎn)業(yè)AI化、AI產(chǎn)業(yè)化及智能化治理等。

比如曙光目前在運營中的合肥、長沙等地中心,已為科學研究、工業(yè)制造、政務(wù)服務(wù)等多領(lǐng)域提供支撐,助藥物研發(fā)、材料解析等近百項成果登上國際頂刊《Science》雜志,累計服務(wù)用戶突破10萬+。

根據(jù)《報告》,當下智算中心已逐漸賦能區(qū)域產(chǎn)業(yè)集群發(fā)展,但值得注意的是,其在多元算力融合、上下游協(xié)同、建設(shè)應(yīng)用聯(lián)動、能源消耗、使用價格等方面仍面臨至少以下五大挑戰(zhàn):

1、通用算力和專用算力待融合。在自動駕駛、智慧醫(yī)療、智慧城市等不同場景中,算力需求不同。單一化算力方案難以滿足多元算力需求,不能兼顧多產(chǎn)業(yè)和多領(lǐng)域。

2、算力、算法和數(shù)據(jù)協(xié)同不足。這些年來建設(shè)的智算中心,不同的芯片平臺、算法模型、數(shù)據(jù)庫、應(yīng)用層面部分處于垂直一體化“孤島”狀態(tài),軟硬件兼容性問題有待改進。

3、投資建設(shè)運營有待聯(lián)動。智算中心投資、建設(shè)和運營往往由不同主體負責。前期建設(shè)單位往往對建設(shè)后運營的模式、服務(wù)標準投入不足,出現(xiàn)了管頭不管尾、建設(shè)運營割裂的現(xiàn)象,影響客戶體驗。

4、碳排放和能耗高。設(shè)備自身的能耗排放帶來非常大的挑戰(zhàn),比如OpenAI公司的超大規(guī)模預(yù)訓練模型GPT-3訓練所需的耗電量為19萬千瓦時,相當于2021年人均用電量的228倍。

5、投資成本和應(yīng)用價格待規(guī)范。智算中心的投建成本較高,部分智算中心每 100P半精算力的投資成本高達5-6億元,遠遠高出正常市場價格,同時使用成本也較高,比如據(jù)保守估計GPT-3大模型訓練費用超過1200萬美元。

02. 智算中心2.0時代:算力融合、告別煙囪、綠色低碳

按照《報告》對產(chǎn)業(yè)的洞察,我國智算中心產(chǎn)業(yè)發(fā)展正在克服1.0時代的挑戰(zhàn)進入2.0時代,背后來自于產(chǎn)業(yè)和政策兩方面的驅(qū)動。

一方面,各行業(yè)數(shù)字化轉(zhuǎn)型加快,智慧城市、智能制造、無人駕駛、數(shù)字孿生等大量場景需求拉動了數(shù)據(jù)計算分析的需求。根據(jù)知名行研機構(gòu)羅蘭貝格報告顯示,2030年人工智能的算力需求將是2018年的算力需求的390倍。

另一方面,“十四五”規(guī)劃與中長期發(fā)展綱要明確強調(diào),要加快構(gòu)建全國一體化大數(shù)據(jù)中心體系,強化算力統(tǒng)籌、智能調(diào)度。2022年2月東數(shù)西算啟動,我國智算中心在10大國家數(shù)據(jù)中心集群拉開新序幕。東數(shù)西算對數(shù)據(jù)中心提出集約化建設(shè)、能耗低碳等要求,催促智算中心由粗放式擴張走向精細式規(guī)劃建設(shè)的2.0階段。

智算中心2.0階段為產(chǎn)業(yè)發(fā)展提供了新的指引,那么它有什么特征?

根據(jù)《報告》,智算中心2.0階段標志著一個“有序發(fā)展”和“算網(wǎng)一體”建設(shè)新格局產(chǎn)生,賦予了以下7大新內(nèi)涵:

1、算力融合,通用和專用算力融合供應(yīng)。智算中心在1.0階段主要提供同構(gòu)計算、專用算力,2.0階段則需要利用CPU、GPU等加速芯片的異構(gòu),實現(xiàn)“高精度通用算力+低精度專用算力”融合供應(yīng)。包括谷歌、英特爾、阿里、曙光、百度等國內(nèi)外企業(yè)都在研發(fā)異構(gòu)計算結(jié)構(gòu)。

2、軟硬協(xié)同,加快增強產(chǎn)業(yè)發(fā)展協(xié)同性。在1.0階段,智算中心主要采用垂直一體的軟硬件煙囪式方案,通用性和兼容性較低;在2.0階段,智算中心更強調(diào)產(chǎn)業(yè)鏈上下游的開放協(xié)同,要實現(xiàn)算力、模型和數(shù)據(jù)集的橫向兼容,確保各層次靈活構(gòu)建。

3、建運一體,逐步完善一體化服務(wù)體系。在1.0階段,智算中心主要聚焦在算力基礎(chǔ)設(shè)施建設(shè)上;2.0階段,更加關(guān)注規(guī)劃建設(shè)和服務(wù)的統(tǒng)籌全局性。

4、能耗低碳,加快部署能耗低碳化技術(shù)。傳統(tǒng)的數(shù)據(jù)中心較多采用風冷方式,散熱效率較低;在2.0階段,數(shù)據(jù)中心的冷卻方式需要綠色節(jié)能,液冷方式發(fā)展起來。

5、成本優(yōu)化,持續(xù)優(yōu)化成本實現(xiàn)價格的普惠。在1.0階段,較高的投建成本稀釋了算力的價值;2.0階段應(yīng)該發(fā)算力基礎(chǔ)設(shè)施的公共屬性,尤其要推進智能算力網(wǎng)絡(luò)建設(shè),促進不同地區(qū)、不同應(yīng)用之間的算力普惠發(fā)展。

6、需求牽引,從建起來到用起來。1.0階段,大多數(shù)智算中心是規(guī)劃牽引的政府規(guī)劃、財政撥款建設(shè);2.0階段,應(yīng)更強調(diào)市場需求牽引、平臺化運營,多元化的模式來進行智算中心建設(shè)。

7、安全可信,落實新基建安全要求。在1.0階段,自主創(chuàng)新程度還是比較低;2.0階段要充分考慮信息安全和產(chǎn)業(yè)安全,以自主“通用芯片+AI芯片+操作系統(tǒng)+硬件設(shè)備+框架模型”為基礎(chǔ)技術(shù)體系來構(gòu)建生態(tài)、發(fā)展應(yīng)用。

可以看到,2.0階段的智算中心正從拼規(guī)模向拼質(zhì)量發(fā)展。

曙光相關(guān)負責人對智東西說,國家十四五數(shù)字經(jīng)濟發(fā)展規(guī)劃中提及“有序發(fā)展”,意味著此前幾年存在的一些無序狀態(tài)將要改變;同時智算中心建設(shè)強調(diào)協(xié)同,從原來的單打獨斗走向上下游軟硬件廠商的協(xié)同作戰(zhàn),將算法、算力、數(shù)據(jù)廠商聯(lián)動起來。

03.開放架構(gòu)曙光5A級智算中心打造行業(yè)樣板

基于2.0階段的要素特征,《報告》給出當前產(chǎn)業(yè)內(nèi)示范樣例,為智算中心從“建好”到“用好“提供借鑒與指導。值得一提的是,以曙光為代表的ICT企業(yè)憑借多個實際應(yīng)用案例正成為典型樣板。

《報告》指出,“中科曙光推出5A級智算中心可通過分布式異構(gòu)并行體系結(jié)構(gòu),覆蓋全算力精度,實現(xiàn)多樣化算力供應(yīng)?!遍_放是曙光5A級智算中心的最核心宗旨,通過硬件、算法、框架、模型的全面開放、兼容,構(gòu)建多元集成的基礎(chǔ)架構(gòu),實現(xiàn)算力底座最大程度的易用性,降低遷移成本。

當下國內(nèi)智算中心推進格局就像“爬珠峰”一樣,分化出南坡、北坡等不同的架構(gòu)“爬坡”路線。有的企業(yè)選擇用自己的芯片、操作系統(tǒng)、模型框架等技術(shù)形成一個垂直架構(gòu)閉環(huán),有的選擇多方協(xié)作的開放架構(gòu)。而曙光推出的5A級智算中心,是要做第二種路線的典范。

目前,5A級智算中心在長沙、合肥等多地投運,致力為千行百業(yè)注入AI活力,打造智能算力領(lǐng)域的行業(yè)樣板。

04.結(jié)語:開放融合共建智算中心從“建起來”到“用起來”

《報告》以2022年十四五規(guī)劃及行業(yè)政策的陸續(xù)出臺為分界點,將智算中心的發(fā)展劃分為高速擴張的1.0階段與行業(yè)引導的2.0階段,2.0階段的智算中心將從粗放擴張轉(zhuǎn)向精細式規(guī)劃建設(shè)。

如同“攀珠峰”一般,國內(nèi)智算中心建設(shè)也開出了多條爬坡路徑。無論何種路徑,開放生態(tài)、綠色低碳、算力融合都是作為公共基礎(chǔ)設(shè)施的智算中心規(guī)模落地的必由之路。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。