北京2020年12月10日 /美通社/ -- 近日,以“Connect·Collaborate·Accelerate”為主題,由浪潮和OCP基金會聯(lián)合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術峰會中國專場在北京望京凱悅酒店隆重開幕。騰訊作為OCP中國社區(qū)的核心成員,在峰會現(xiàn)場介紹了當前數(shù)據(jù)中心互聯(lián)光網(wǎng)絡技術的發(fā)展,以及騰訊基于標準化單元構建的自動運行光網(wǎng)絡。目前,騰訊已將光網(wǎng)絡的標準單元快速復制到數(shù)據(jù)中心互聯(lián)應用中,有效應對數(shù)據(jù)中心互聯(lián)帶寬的快速增長。
數(shù)據(jù)中心光網(wǎng)絡面臨挑戰(zhàn)
過去的10年是互聯(lián)網(wǎng)高速發(fā)展的10年,隨著產(chǎn)業(yè)的不斷發(fā)展,應用種類極大豐富,用戶規(guī)??涨褒嫶蟆M粋€應用就擁有千萬級別用戶,上PB數(shù)據(jù)量。在這樣的環(huán)境下,早期的單機或集群的計算模式已經(jīng)無法滿足應用的發(fā)展要求,更大規(guī)模的云計算模式是互聯(lián)網(wǎng)持續(xù)發(fā)展的必經(jīng)之路。
受限于目前數(shù)據(jù)中心的規(guī)模問題以及異地容災的需求,往往一個應用會分布在多個數(shù)據(jù)中心之內(nèi),導致在不同的云數(shù)據(jù)中心之間往往會產(chǎn)生幾百甚至上千GB的帶寬需求。在這樣的背景下,光網(wǎng)絡逐漸走入了互聯(lián)網(wǎng)企業(yè)的視野。
騰訊的開放光網(wǎng)絡平臺是騰訊新一代光網(wǎng)絡系統(tǒng),基于超強的采集和控制能力不斷提升光網(wǎng)絡的自動化水平,目標是構建一個高度自動化、友好的光網(wǎng)絡。目前,騰訊的開放光網(wǎng)絡平臺已經(jīng)解決了硬件標準化問題,開發(fā)標準的OPC-4設備,實現(xiàn)電層系統(tǒng)與光層系統(tǒng)的解耦合,不再綁定單一供應商。同時騰訊開放光網(wǎng)絡平臺標準化的管控模型也已開發(fā)完畢。通過騰訊開放光網(wǎng)絡控制器實現(xiàn)對不同廠商設備的統(tǒng)一管控。
開放光網(wǎng)絡的未來 -- 自動化
數(shù)據(jù)流量的快速增長,要求我們部署越來越多的帶寬。互聯(lián)網(wǎng)的時代,層出不窮的應用被創(chuàng)造出來,他們便捷了我們的生活,提升了效率。這些應用加工數(shù)據(jù)、產(chǎn)生數(shù)據(jù),特別是一些新的、流行的移動應用在人群中傳播速度非???,隨之帶來的是流量的迅速增長,這要求我們必須以更快的速度部署帶寬資源。為數(shù)據(jù)中心提供高質(zhì)量帶寬,保證帶寬長期穩(wěn)定運行,開放光網(wǎng)絡的研發(fā)被騰訊提上日程。
為應對大規(guī)模數(shù)據(jù)中心快速增長的互聯(lián)帶寬,騰訊技術人員針對數(shù)據(jù)中心互聯(lián)組網(wǎng)的特點,構建了一套開放光網(wǎng)絡系統(tǒng),通過將光網(wǎng)絡切割成一個一個獨立的標準化單元,設計為更加適用于數(shù)據(jù)中心應用的硬件設備OPC-4,TPC-4和設備管控模型,構建起標準化管控系統(tǒng),實現(xiàn)對不同廠商設備的統(tǒng)一管理,混合組網(wǎng),并將標準單元應用到數(shù)據(jù)中心互聯(lián)中,在一定程度上能夠更加有效地應對帶寬的快速增長。
隨著系統(tǒng)規(guī)模越來越大,網(wǎng)絡運營壓力也持續(xù)增大,騰訊正在為系統(tǒng)構建自動化自主運行能力,使系統(tǒng)能夠常態(tài)化自動運行。騰訊技術人員依然是從標準結構入手,基于閉環(huán)控制的原理,為標準結構構建起自主運行的能力,使它能夠自己管理自己,自己優(yōu)化自己,使系統(tǒng)能夠常態(tài)化自動運行。這樣一旦標準結構具備了自主運行能力,便可以快速的將這種能力復制到整個網(wǎng)絡,使整個網(wǎng)絡能夠常態(tài)化自動運行。
數(shù)據(jù)中心自動光網(wǎng)絡邁進三部曲
數(shù)據(jù)中心互聯(lián)光網(wǎng)絡在持續(xù)向前演進,從最初依靠工程師經(jīng)驗驅動的光網(wǎng)絡,到標準模型一統(tǒng)天下的模型驅動光網(wǎng)絡,再向數(shù)據(jù)為王的數(shù)據(jù)驅動光網(wǎng)絡演進。第一個階段,主要依靠經(jīng)驗豐富的工程師,將不同廠商的傳輸系統(tǒng)部署到了數(shù)據(jù)中心網(wǎng)絡。此時系統(tǒng)的復雜度是最高的,因為雖然滿足同樣的需求,但是不同廠商的設備,實現(xiàn)的方案是不一樣的,整個網(wǎng)絡充斥著不同廠商的不同方案,面對本質(zhì)上類似的技術問題,雖然掌握基本原理,但是要落實到具體的系統(tǒng),就需要熟悉某個系統(tǒng)的專家來幫助分析問題,同時需要針對特定系統(tǒng)操作熟練的工程師配合,這個階段運維大廳里坐著很多不同廠商的工程師。此時系統(tǒng)是最復雜的,需要最多的人來處理解決問題。
如何降低系統(tǒng)的復雜度?減少人工干預?答案是:標準化,程序化!通過構建標準化的流程,用程序去處理模型統(tǒng)一一致的物理設備,可以很大程度的降低整個系統(tǒng)的復雜度。這就是第二個階段模型驅動階段,這個階段大家會針對自己的系統(tǒng)定義標準模型,而騰訊則更進一步,直接定義系統(tǒng)需要的硬件設備,這樣即使不同廠商進行生產(chǎn),但設備的形態(tài)保持一致,這明顯降低了系統(tǒng)的復雜度,不用再去關注不同設備的細節(jié)差異,開始基于相同的模型構建,來對系統(tǒng)進行思考。
這個階段強調(diào)的是模型的一致性,行為的一致性。當系統(tǒng)標準化后,對系統(tǒng)進行數(shù)字化升級改造,極大的提升了系統(tǒng)的數(shù)據(jù)采集能力,使系統(tǒng)能夠采集到更多、更精細化的數(shù)據(jù)。為我們向下一個階段:數(shù)據(jù)驅動的光網(wǎng)絡演進奠定基礎。
經(jīng)歷了模型驅動階段,系統(tǒng)具備了標準模型,同時積累了大量的數(shù)據(jù),使整個系統(tǒng)全景數(shù)據(jù)化成為可能。而源源不斷的數(shù)據(jù)也成為了驅動系統(tǒng)不斷發(fā)現(xiàn)問題,解決問題的核心驅動力,至此我們?yōu)橄到y(tǒng)構建起了一個數(shù)據(jù)引擎,驅動系統(tǒng)不斷的優(yōu)化和演進。
構建自動控制架構關鍵能力
騰訊開放光網(wǎng)絡的自動控制架構,本質(zhì)是一個閉環(huán)控制架構。整個架構的關鍵點是四大關鍵能力的構建:控制能力,采集能力,感知能力,決策能力。然后將這四大能力合理有序的串聯(lián)起來,便可以實現(xiàn)整個系統(tǒng)的自動運行。采集能力采集到系統(tǒng)更加詳盡、更加精細的運行數(shù)據(jù),感知能力通過對運行數(shù)據(jù)的分析,感知到系統(tǒng)的變化,決策能力則是使系統(tǒng)具備科學分析,科學決策的能力,依據(jù)感知結果對系統(tǒng)作出科學決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實現(xiàn)對系統(tǒng)的閉環(huán)控制。
構建光網(wǎng)絡的感知能力
什么是感知能力?用人體的一個體驗作為一個例子,如果人體被針扎一下或者手擰一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準確地從這兩種疼痛不同的表現(xiàn)方式,感覺出哪個是針扎,哪個是手擰,這就是感知能力??梢钥吹礁兄芰κ且环N對數(shù)據(jù)的分析,并得到結論的能力。在傳統(tǒng)的光網(wǎng)絡系統(tǒng)中,對數(shù)據(jù)的感知往往是由經(jīng)驗豐富的工程師來完成的,騰訊正在幫助系統(tǒng)構建起這種能力,使系統(tǒng)能夠在無人干預的情況下,自行實現(xiàn)對數(shù)據(jù)的經(jīng)驗性轉化。目前騰訊開放光網(wǎng)絡已經(jīng)具備了控制能力和采集能力,正在進行感知能力和分析能力的構建。
騰訊主要是從兩個維度來構建系統(tǒng)的感知能力,一個維度是:系統(tǒng)維度,另一個維度是:時間維度。系統(tǒng)維度,首先構建針對單個指標的感知能力,通過對不同指標的感知來判斷系統(tǒng)變化。我們的系統(tǒng)從物理上看是由硬件和光纖組成的,而這兩大類物理可見的物件,又是運營中可以操作的基本單元,構建針對硬件和光纖的感知能力,使系統(tǒng)能夠準確的感知其故障和潛在風險,觸發(fā)相關運維操作,便可以有效將非預期的故障轉化為預期的網(wǎng)絡操作,有效避免故障的發(fā)生。傳輸系統(tǒng)最終是一個帶寬系統(tǒng),我們常常會被用戶問及現(xiàn)在帶寬情況如何?帶寬的感知能力構建則是讓系統(tǒng)能夠自行回答這個問題。帶寬感知是系統(tǒng)最為關鍵的一環(huán),使讓系統(tǒng)能夠感知帶寬的運行狀態(tài),對潛在風險進行合理規(guī)避,有效降低帶寬的非預期性中斷,保證系統(tǒng)長期穩(wěn)定運行。
而從時間角度,則要為系統(tǒng)構建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析的時效性出發(fā)定義的能力??焖俑兄菍π阅軘?shù)據(jù)的實時分析,快速捕獲系統(tǒng)故障。中速感知則是對系統(tǒng)潛在風險或者關鍵指標變化的分析和感知,這往往需要對一定量數(shù)據(jù)進行分析,才能發(fā)現(xiàn)一定的特征。而慢速感知則是通過對大量數(shù)據(jù)的分析來感知系統(tǒng)運行趨勢,可以對系統(tǒng)未來的運行狀況進行預測。
設備作為整個系統(tǒng)的運行數(shù)據(jù)采集終端,騰訊在想辦法提升其采集數(shù)據(jù)的速率和精度,在騰訊的持續(xù)努力下,目前設備可以按照1s間隔向控制器推送性能數(shù)據(jù),而且關鍵性能指標的時間分辨率可以達到20ms??刂破髯鳛橄到y(tǒng)計算能力主要單元,則在持續(xù)提升其數(shù)據(jù)處理及時性和準確性。基于1s streaming telemetry構建的數(shù)字驅動系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據(jù),不僅僅是900倍的時間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細化觀測,使我們能夠精確感知、準確控制。
數(shù)據(jù)驅動為系統(tǒng)帶來了革命性的變化的同時,也帶來了極大的挑戰(zhàn)。數(shù)據(jù)驅動系統(tǒng)的核心是:數(shù)據(jù)與算法。我們希望在這兩個方面與更多的合作伙伴一起合作,在數(shù)據(jù)為王的時代,數(shù)據(jù)源的質(zhì)量直接影響到系統(tǒng)的正確表達,如何保證數(shù)據(jù)源的質(zhì)量,如何監(jiān)控數(shù)據(jù)源的質(zhì)量,是一項關鍵任務。
而找到數(shù)據(jù)背后的真相,發(fā)現(xiàn)問題的本質(zhì)則會從根本上改變我們和供應商的協(xié)作方式,由原來我們只能在問題發(fā)生后被動的接受故障分析報告,演進到可以根據(jù)數(shù)據(jù)發(fā)現(xiàn)的真相,有效驅動供應商進行精準的問題修復,防患于未然。在算法方面,找到針對指標感知更加通用的算法,找到更加合理的帶寬質(zhì)量分析算法,找到更加通用的硬件和網(wǎng)絡系統(tǒng)分析算法,則是我們關注的重點,有效解決光網(wǎng)絡系統(tǒng)問題的同時,更為通用的算法也可以更加便捷的應用到其他網(wǎng)絡領域中。
在本次OCP China Day大會上,可以看到來自騰訊、百度、Intel、微軟、浪潮、三星、希捷等不同領域的開放計算社區(qū)成員,騰訊的OPC-4和TOOP是開放的光網(wǎng)絡項目,百度的天蝎整機柜是開放的計算項目,三星poseidon是一款存儲產(chǎn)品,阿里的液冷是開放的數(shù)據(jù)中心散熱項目……在這些開源項目背后,是計算、存儲、網(wǎng)絡等不同領域的開源項目正在相互融合匯聚,開放計算不僅推動形成了下一代數(shù)據(jù)中心的基本技術框架,也在加速構建開放融合的統(tǒng)一計算生態(tài)。