omniture

OCP China Day:數(shù)據(jù)中心自動運行光網(wǎng)絡(luò)

2020-12-10 08:00 4543
由浪潮和OCP基金會聯(lián)合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術(shù)峰會中國專場開幕。騰訊作為OCP中國社區(qū)的核心成員,在現(xiàn)場介紹了當(dāng)前數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)技術(shù)的發(fā)展,及騰訊基于標(biāo)準(zhǔn)化單元構(gòu)建的自動運行光網(wǎng)絡(luò)。

北京2020年12月10日 /美通社/ -- 近日,以“Connect·Collaborate·Accelerate”為主題,由浪潮和OCP基金會聯(lián)合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術(shù)峰會中國專場在北京望京凱悅酒店隆重開幕。騰訊作為OCP中國社區(qū)的核心成員,在峰會現(xiàn)場介紹了當(dāng)前數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)技術(shù)的發(fā)展,以及騰訊基于標(biāo)準(zhǔn)化單元構(gòu)建的自動運行光網(wǎng)絡(luò)。目前,騰訊已將光網(wǎng)絡(luò)的標(biāo)準(zhǔn)單元快速復(fù)制到數(shù)據(jù)中心互聯(lián)應(yīng)用中,有效應(yīng)對數(shù)據(jù)中心互聯(lián)帶寬的快速增長。

數(shù)據(jù)中心光網(wǎng)絡(luò)面臨挑戰(zhàn)

過去的10年是互聯(lián)網(wǎng)高速發(fā)展的10年,隨著產(chǎn)業(yè)的不斷發(fā)展,應(yīng)用種類極大豐富,用戶規(guī)??涨褒嫶蟆M粋€應(yīng)用就擁有千萬級別用戶,上PB數(shù)據(jù)量。在這樣的環(huán)境下,早期的單機或集群的計算模式已經(jīng)無法滿足應(yīng)用的發(fā)展要求,更大規(guī)模的云計算模式是互聯(lián)網(wǎng)持續(xù)發(fā)展的必經(jīng)之路。

受限于目前數(shù)據(jù)中心的規(guī)模問題以及異地容災(zāi)的需求,往往一個應(yīng)用會分布在多個數(shù)據(jù)中心之內(nèi),導(dǎo)致在不同的云數(shù)據(jù)中心之間往往會產(chǎn)生幾百甚至上千GB的帶寬需求。在這樣的背景下,光網(wǎng)絡(luò)逐漸走入了互聯(lián)網(wǎng)企業(yè)的視野。

騰訊的開放光網(wǎng)絡(luò)平臺是騰訊新一代光網(wǎng)絡(luò)系統(tǒng),基于超強的采集和控制能力不斷提升光網(wǎng)絡(luò)的自動化水平,目標(biāo)是構(gòu)建一個高度自動化、友好的光網(wǎng)絡(luò)。目前,騰訊的開放光網(wǎng)絡(luò)平臺已經(jīng)解決了硬件標(biāo)準(zhǔn)化問題,開發(fā)標(biāo)準(zhǔn)的OPC-4設(shè)備,實現(xiàn)電層系統(tǒng)與光層系統(tǒng)的解耦合,不再綁定單一供應(yīng)商。同時騰訊開放光網(wǎng)絡(luò)平臺標(biāo)準(zhǔn)化的管控模型也已開發(fā)完畢。通過騰訊開放光網(wǎng)絡(luò)控制器實現(xiàn)對不同廠商設(shè)備的統(tǒng)一管控。

開放光網(wǎng)絡(luò)的未來 -- 自動化

數(shù)據(jù)流量的快速增長,要求我們部署越來越多的帶寬。互聯(lián)網(wǎng)的時代,層出不窮的應(yīng)用被創(chuàng)造出來,他們便捷了我們的生活,提升了效率。這些應(yīng)用加工數(shù)據(jù)、產(chǎn)生數(shù)據(jù),特別是一些新的、流行的移動應(yīng)用在人群中傳播速度非??欤S之帶來的是流量的迅速增長,這要求我們必須以更快的速度部署帶寬資源。為數(shù)據(jù)中心提供高質(zhì)量帶寬,保證帶寬長期穩(wěn)定運行,開放光網(wǎng)絡(luò)的研發(fā)被騰訊提上日程。

為應(yīng)對大規(guī)模數(shù)據(jù)中心快速增長的互聯(lián)帶寬,騰訊技術(shù)人員針對數(shù)據(jù)中心互聯(lián)組網(wǎng)的特點,構(gòu)建了一套開放光網(wǎng)絡(luò)系統(tǒng),通過將光網(wǎng)絡(luò)切割成一個一個獨立的標(biāo)準(zhǔn)化單元,設(shè)計為更加適用于數(shù)據(jù)中心應(yīng)用的硬件設(shè)備OPC-4,TPC-4和設(shè)備管控模型,構(gòu)建起標(biāo)準(zhǔn)化管控系統(tǒng),實現(xiàn)對不同廠商設(shè)備的統(tǒng)一管理,混合組網(wǎng),并將標(biāo)準(zhǔn)單元應(yīng)用到數(shù)據(jù)中心互聯(lián)中,在一定程度上能夠更加有效應(yīng)對帶寬的快速增長。

隨著系統(tǒng)規(guī)模越來越大,網(wǎng)絡(luò)運營壓力也持續(xù)增大,騰訊正在為系統(tǒng)構(gòu)建自動化自主運行能力,使系統(tǒng)能夠常態(tài)化自動運行。騰訊技術(shù)人員依然是從標(biāo)準(zhǔn)結(jié)構(gòu)入手,基于閉環(huán)控制的原理,為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起自主運行的能力,使它能夠自己管理自己,自己優(yōu)化自己,使系統(tǒng)能夠常態(tài)化自動運行。這樣一旦標(biāo)準(zhǔn)結(jié)構(gòu)具備了自主運行能力,便可以快速的將這種能力復(fù)制到整個網(wǎng)絡(luò),使整個網(wǎng)絡(luò)能夠常態(tài)化自動運行。


數(shù)據(jù)中心自動光網(wǎng)絡(luò)邁進(jìn)三部曲 

數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)在持續(xù)向前演進(jìn),從最初依靠工程師經(jīng)驗驅(qū)動的光網(wǎng)絡(luò),到標(biāo)準(zhǔn)模型一統(tǒng)天下的模型驅(qū)動光網(wǎng)絡(luò),再向數(shù)據(jù)為王的數(shù)據(jù)驅(qū)動光網(wǎng)絡(luò)演進(jìn)。第一個階段,主要依靠經(jīng)驗豐富的工程師,將不同廠商的傳輸系統(tǒng)部署到了數(shù)據(jù)中心網(wǎng)絡(luò)。此時系統(tǒng)的復(fù)雜度是最高的,因為雖然滿足同樣的需求,但是不同廠商的設(shè)備,實現(xiàn)的方案是不一樣的,整個網(wǎng)絡(luò)充斥著不同廠商的不同方案,面對本質(zhì)上類似的技術(shù)問題,雖然掌握基本原理,但是要落實到具體的系統(tǒng),就需要熟悉某個系統(tǒng)的專家來幫助分析問題,同時需要針對特定系統(tǒng)操作熟練的工程師配合,這個階段運維大廳里坐著很多不同廠商的工程師。此時系統(tǒng)是最復(fù)雜的,需要最多的人來處理解決問題。

如何降低系統(tǒng)的復(fù)雜度?減少人工干預(yù)?答案是:標(biāo)準(zhǔn)化,程序化!通過構(gòu)建標(biāo)準(zhǔn)化的流程,用程序去處理模型統(tǒng)一一致的物理設(shè)備,可以很大程度的降低整個系統(tǒng)的復(fù)雜度。這就是第二個階段模型驅(qū)動階段,這個階段大家會針對自己的系統(tǒng)定義標(biāo)準(zhǔn)模型,而騰訊則更進(jìn)一步,直接定義系統(tǒng)需要的硬件設(shè)備,這樣即使不同廠商進(jìn)行生產(chǎn),但設(shè)備的形態(tài)保持一致,這明顯降低了系統(tǒng)的復(fù)雜度,不用再去關(guān)注不同設(shè)備的細(xì)節(jié)差異,開始基于相同的模型構(gòu)建,來對系統(tǒng)進(jìn)行思考。

這個階段強調(diào)的是模型的一致性,行為的一致性。當(dāng)系統(tǒng)標(biāo)準(zhǔn)化后,對系統(tǒng)進(jìn)行數(shù)字化升級改造,極大的提升了系統(tǒng)的數(shù)據(jù)采集能力,使系統(tǒng)能夠采集到更多、更精細(xì)化的數(shù)據(jù)。為我們向下一個階段:數(shù)據(jù)驅(qū)動的光網(wǎng)絡(luò)演進(jìn)奠定基礎(chǔ)。

經(jīng)歷了模型驅(qū)動階段,系統(tǒng)具備了標(biāo)準(zhǔn)模型,同時積累了大量的數(shù)據(jù),使整個系統(tǒng)全景數(shù)據(jù)化成為可能。而源源不斷的數(shù)據(jù)也成為了驅(qū)動系統(tǒng)不斷發(fā)現(xiàn)問題,解決問題的核心驅(qū)動力,至此我們?yōu)橄到y(tǒng)構(gòu)建起了一個數(shù)據(jù)引擎,驅(qū)動系統(tǒng)不斷的優(yōu)化和演進(jìn)。


構(gòu)建自動控制架構(gòu)關(guān)鍵能力

騰訊開放光網(wǎng)絡(luò)的自動控制架構(gòu),本質(zhì)是一個閉環(huán)控制架構(gòu)。整個架構(gòu)的關(guān)鍵點是四大關(guān)鍵能力的構(gòu)建:控制能力,采集能力,感知能力,決策能力。然后將這四大能力合理有序的串聯(lián)起來,便可以實現(xiàn)整個系統(tǒng)的自動運行。采集能力采集到系統(tǒng)更加詳盡、更加精細(xì)的運行數(shù)據(jù),感知能力通過對運行數(shù)據(jù)的分析,感知到系統(tǒng)的變化,決策能力則是使系統(tǒng)具備科學(xué)分析,科學(xué)決策的能力,依據(jù)感知結(jié)果對系統(tǒng)作出科學(xué)決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實現(xiàn)對系統(tǒng)的閉環(huán)控制。


構(gòu)建光網(wǎng)絡(luò)的感知能力

什么是感知能力?用人體的一個體驗作為一個例子,如果人體被針扎一下或者手?jǐn)Q一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準(zhǔn)確從這兩種疼痛不同的表現(xiàn)方式,感覺出哪個是針扎,哪個是手?jǐn)Q,這就是感知能力。可以看到感知能力是一種對數(shù)據(jù)的分析,并得到結(jié)論的能力。在傳統(tǒng)的光網(wǎng)絡(luò)系統(tǒng)中,對數(shù)據(jù)的感知往往是由經(jīng)驗豐富的工程師來完成的,騰訊正在幫助系統(tǒng)構(gòu)建起這種能力,使系統(tǒng)能夠在無人干預(yù)的情況下,自行實現(xiàn)對數(shù)據(jù)的經(jīng)驗性轉(zhuǎn)化。目前騰訊開放光網(wǎng)絡(luò)已經(jīng)具備了控制能力和采集能力,正在進(jìn)行感知能力和分析能力的構(gòu)建。

騰訊主要是從兩個維度來構(gòu)建系統(tǒng)的感知能力,一個維度是:系統(tǒng)維度,另一個維度是:時間維度。系統(tǒng)維度,首先構(gòu)建針對單個指標(biāo)的感知能力,通過對不同指標(biāo)的感知來判斷系統(tǒng)變化。我們的系統(tǒng)從物理上看是由硬件和光纖組成的,而這兩大類物理可見的物件,又是運營中可以操作的基本單元,構(gòu)建針對硬件和光纖的感知能力,使系統(tǒng)能夠準(zhǔn)確的感知其故障和潛在風(fēng)險,觸發(fā)相關(guān)運維操作,便可以有效將非預(yù)期的故障轉(zhuǎn)化為預(yù)期的網(wǎng)絡(luò)操作,有效避免故障的發(fā)生。傳輸系統(tǒng)最終是一個帶寬系統(tǒng),我們常常會被用戶問及現(xiàn)在帶寬情況如何?帶寬的感知能力構(gòu)建則是讓系統(tǒng)能夠自行回答這個問題。帶寬感知是系統(tǒng)最為關(guān)鍵的一環(huán),使讓系統(tǒng)能夠感知帶寬的運行狀態(tài),對潛在風(fēng)險進(jìn)行合理規(guī)避,有效降低帶寬的非預(yù)期性中斷,保證系統(tǒng)長期穩(wěn)定運行。

而從時間角度,則要為系統(tǒng)構(gòu)建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析的時效性出發(fā)定義的能力。快速感知是對性能數(shù)據(jù)的實時分析,快速捕獲系統(tǒng)故障。中速感知則是對系統(tǒng)潛在風(fēng)險或者關(guān)鍵指標(biāo)變化的分析和感知,這往往需要對一定量數(shù)據(jù)進(jìn)行分析,才能發(fā)現(xiàn)一定的特征。而慢速感知則是通過對大量數(shù)據(jù)的分析來感知系統(tǒng)運行趨勢,可以對系統(tǒng)未來的運行狀況進(jìn)行預(yù)測。


設(shè)備作為整個系統(tǒng)的運行數(shù)據(jù)采集終端,騰訊在想辦法提升其采集數(shù)據(jù)的速率和精度,在騰訊的持續(xù)努力下,目前設(shè)備可以按照1s間隔向控制器推送性能數(shù)據(jù),而且關(guān)鍵性能指標(biāo)的時間分辨率可以達(dá)到20ms??刂破髯鳛橄到y(tǒng)計算能力主要單元,則在持續(xù)提升其數(shù)據(jù)處理及時性和準(zhǔn)確性?;?s streaming telemetry構(gòu)建的數(shù)字驅(qū)動系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據(jù),不僅僅是900倍的時間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細(xì)化觀測,使我們能夠精確感知、準(zhǔn)確控制。


數(shù)據(jù)驅(qū)動為系統(tǒng)帶來了革命性的變化的同時,也帶了極大的挑戰(zhàn)。數(shù)據(jù)驅(qū)動系統(tǒng)的核心是:數(shù)據(jù)與算法。我們希望在這兩個方面與更多的合作伙伴一起合作,在數(shù)據(jù)為王的時代,數(shù)據(jù)源的質(zhì)量直接影響到系統(tǒng)的正確表達(dá),如何保證數(shù)據(jù)源的質(zhì)量,如何監(jiān)控數(shù)據(jù)源的質(zhì)量,是一項關(guān)鍵任務(wù)。

而找到數(shù)據(jù)背后的真相,發(fā)現(xiàn)問題的本質(zhì)則會從根本上改變我們和供應(yīng)商的協(xié)作方式,由原來我們只能在問題發(fā)生后被動的接受故障分析報告,演進(jìn)到可以根據(jù)數(shù)據(jù)發(fā)現(xiàn)的真相,有效驅(qū)動供應(yīng)商進(jìn)行精準(zhǔn)的問題修復(fù),防患于未然。在算法方面,找到針對指標(biāo)感知更加通用的算法,找到更加合理的帶寬質(zhì)量分析算法,找到更加通用的硬件和網(wǎng)絡(luò)系統(tǒng)分析算法,則是我們關(guān)注的重點,有效解決光網(wǎng)絡(luò)系統(tǒng)問題的同時,更為通用的算法也可以更加便捷的應(yīng)用到其他網(wǎng)絡(luò)領(lǐng)域中。

在本次OCP China Day大會上,可以看到來自騰訊、百度、Intel、微軟、浪潮、三星、希捷等不同領(lǐng)域的開放計算社區(qū)成員,騰訊的OPC-4和TOOP是開放的光網(wǎng)絡(luò)項目,百度的天蝎整機柜是開放的計算項目,三星poseidon是一款存儲產(chǎn)品,阿里的液冷是開放的數(shù)據(jù)中心散熱項目……在這些開源項目背后,是計算、存儲、網(wǎng)絡(luò)等不同領(lǐng)域的開源項目正在相互融合匯聚,開放計算不僅推動形成了下一代數(shù)據(jù)中心的基本技術(shù)框架,也在加速構(gòu)建開放融合的統(tǒng)一計算生態(tài)。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection