omniture

多活元數(shù)據(jù)技術(shù),讓浪潮軟件定義存儲管理EB級數(shù)據(jù)

2018-03-02 08:00 8505
移動互聯(lián)網(wǎng)與人工智能時代,非結(jié)構(gòu)化數(shù)據(jù)呈海量增長態(tài)勢,數(shù)據(jù)存儲平臺在彈性與性能上面臨巨大挑戰(zhàn)。浪潮軟件定義存儲通過提供元數(shù)據(jù)存儲與管理方案,給海量數(shù)據(jù)提供彈性空間,讓用戶自由馳騁于數(shù)據(jù)智能世界。

北京2018年3月2日電 /美通社/ --移動互聯(lián)網(wǎng)與人工智能時代,非結(jié)構(gòu)化數(shù)據(jù)呈海量增長態(tài)勢,數(shù)據(jù)存儲平臺在彈性與性能上面臨巨大挑戰(zhàn)。浪潮軟件定義存儲通過提供元數(shù)據(jù)存儲與管理方案,給海量數(shù)據(jù)提供彈性空間,讓用戶自由馳騁于數(shù)據(jù)智能世界。

智能時代產(chǎn)生海量非結(jié)構(gòu)化數(shù)據(jù)

信息技術(shù)的飛速發(fā)展,特別是移動互聯(lián)網(wǎng)應(yīng)用、數(shù)據(jù)智能挖掘技術(shù)的快速發(fā)展,使眾多相關(guān)行業(yè)面臨業(yè)務(wù)數(shù)據(jù)量指數(shù)級增長的趨勢。例如:智能手機(jī)的普及,使移動手機(jī)用戶可以隨心所欲拍攝高清照片、視頻以記錄自己生活的點(diǎn)滴,并可以方便地把影音資料存儲在云端,這類新的生活習(xí)慣必然產(chǎn)生大量數(shù)據(jù)。再如,中國公共安全領(lǐng)域的“雪亮工程”等關(guān)系國計民生視頻監(jiān)控項目的開展,使得公共安全視頻監(jiān)控覆蓋范圍從原來的城市中心地帶擴(kuò)展到了鄉(xiāng)村,這也將產(chǎn)生大量的數(shù)據(jù)。而在互聯(lián)網(wǎng)+商業(yè)領(lǐng)域,對用戶信息的掌握,更成為互聯(lián)網(wǎng)企業(yè)生存的根本,之前大量不需要存儲的用戶網(wǎng)絡(luò)瀏覽軌跡等中間信息,如今由于成為大數(shù)據(jù)分析的數(shù)據(jù)來源,也需要進(jìn)行數(shù)據(jù)存儲。

面對各種海量數(shù)據(jù)、尤其是海量非結(jié)構(gòu)化數(shù)據(jù)的存儲需求,傳統(tǒng)數(shù)據(jù)存儲方式在成本和性能兩個維度均已無法滿足。

傳統(tǒng)存儲方式之一是使用本地文件系統(tǒng)存儲數(shù)據(jù),而由于其架構(gòu)所限制,控制器一般為一臺,即本地操作系統(tǒng)主機(jī)和生產(chǎn)業(yè)務(wù)共用CPU及內(nèi)存等系統(tǒng)資源,所以在實(shí)際操作中大多僅僅能擴(kuò)展至幾個TB的可用容量,這和“海量”存儲的需求相差甚遠(yuǎn)。

另外一種把計算和存儲分離的集中式存儲方案 -- NAS方案亦差強(qiáng)人意。NAS屬于外部集中式存儲方案,架構(gòu)擴(kuò)展性相比本地文件系統(tǒng)有較明顯優(yōu)勢。其控制器一般為兩臺至多臺,在數(shù)據(jù)規(guī)模稍微“大”一點(diǎn)的業(yè)務(wù)場景,用戶往往使用NAS存儲方案。但NAS在海量數(shù)據(jù)時代到來之前已經(jīng)存在,當(dāng)初設(shè)計時重點(diǎn)考慮的并非是“海量”非結(jié)構(gòu)化數(shù)據(jù)的存儲,所以在大多數(shù)生產(chǎn)環(huán)境中都是采用雙控設(shè)備,如果數(shù)據(jù)量增大,一般做法是再配置一套而已。這樣的處理方式使得用戶的生產(chǎn)環(huán)境形成大量數(shù)據(jù)孤島,且單套NAS由于其軟硬件設(shè)計架構(gòu)的局限性,在實(shí)際項目中的容量擴(kuò)展往往不超過100~200TB,即使雙控系統(tǒng),一般對外最多也只能提供4GB/s帶寬,因此其容量與性能均無法匹配海量數(shù)據(jù)時代的存儲要求。

浪潮軟件定義存儲EB級彈性空間

于是,在滿足互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)應(yīng)用的需求下,浪潮軟件定義存儲系統(tǒng)隨之產(chǎn)生,以滿足海量數(shù)據(jù)時代的存儲需求。

根據(jù)其基本軟硬件設(shè)計思想,浪潮軟件定義存儲系統(tǒng)基于通用x86平臺開發(fā)“控制+存儲”節(jié)點(diǎn),采用以太網(wǎng)絡(luò)交換技術(shù)把整套系統(tǒng)硬件互聯(lián)起來,然后在其上部署浪潮軟件定義存儲軟件,形成對外提供統(tǒng)一服務(wù)接口,對內(nèi)協(xié)調(diào)數(shù)據(jù)交換的存儲系統(tǒng)。在組網(wǎng)層面,以太網(wǎng)絡(luò)并不是其唯一的選擇,目前業(yè)界還有InfiniBand等其他組網(wǎng)方式;在服務(wù)層面,浪潮軟件定義存儲系統(tǒng)的對外服務(wù)類型包括NAS文件存儲、對象存儲、塊存儲,并支持RESTful接口,可以靈活滿足用戶定制化的服務(wù)需求。與此同時,浪潮軟件定義存儲節(jié)點(diǎn)的選擇更加靈活,可以使用利舊的x86服務(wù)器,也可以選擇專業(yè)廠商專為浪潮軟件定義存儲設(shè)計的高密度設(shè)備。

在技術(shù)實(shí)現(xiàn)上,目前浪潮軟件定義存儲系統(tǒng)Scale-out(橫向擴(kuò)展)方式的存儲節(jié)點(diǎn)擴(kuò)展能力非常強(qiáng)大,單系統(tǒng)存儲節(jié)點(diǎn)可擴(kuò)展至數(shù)千個,可以形成EB級海量存儲空間、百億數(shù)據(jù)文件管理、千萬級IOPS和百GB帶寬,加上不斷進(jìn)步的數(shù)據(jù)自動修復(fù)和自動運(yùn)維機(jī)制,使之廣泛適用于海量數(shù)據(jù)存儲場景。

浪潮軟件定義存儲系統(tǒng)的容量、性能可以隨著存儲系統(tǒng)節(jié)點(diǎn)的橫向擴(kuò)展呈線性增長,這一特性從根本上解決了本地文件系統(tǒng)和集中式外部存儲的在擴(kuò)展性方面的劣勢,大大提高了IT投入的回報率,這就是浪潮軟件定義存儲今天備受青睞的原因。

優(yōu)化的元數(shù)據(jù)索引服務(wù)

那么,為什么浪潮軟件定義存儲能很好地管理海量數(shù)據(jù)呢?下面以文件服務(wù)類型為例來進(jìn)行闡述說明。

對于傳統(tǒng)的本地文件系統(tǒng),當(dāng)查找一個文件時,先由元數(shù)據(jù)區(qū)找到索引,再定位到數(shù)據(jù)區(qū),存在深度目錄的時候,可能需要在兩種區(qū)域做多次查詢和數(shù)據(jù)定向,最后才能定位到所需要的文件。對于這種低效率的模式,很多成熟的文件系統(tǒng)大多使用類B樹的方式來組織目錄,以避免線性方式查找目錄項來降低文件索引冗余度;此外還有多種技術(shù)(如HASH,元數(shù)據(jù)緩存,C-FFS等)在傳統(tǒng)架構(gòu)上都可以不同程度地給文件索引性能加速,但是在海量數(shù)據(jù)存儲場景下,以上所有努力都會失靈。

究其原因其實(shí)也很明確:存儲海量數(shù)據(jù)的時候,一定會有大量的元數(shù)據(jù)需要存儲。在傳統(tǒng)文件系統(tǒng)的軟件架構(gòu)(包括集中式NAS存儲)中,元數(shù)據(jù)為集中式存儲方式,處理元數(shù)據(jù)的服務(wù)(控制器)也為集中式。由于元數(shù)據(jù)被存儲在了少量固定的磁盤上面,不能隨整體容量的增加而任意擴(kuò)展,使得這塊區(qū)域?qū)ν馓峁┑淖x寫性能因被固化而變得十分有限。與此同時,數(shù)據(jù)文件在訪問IO頻繁的時候,元數(shù)據(jù)索引服務(wù)需要消耗大量CPU和內(nèi)存的資源,而本地文件系統(tǒng)所能依靠的只是本地操作系統(tǒng)上的資源,即使是NAS存儲一般也僅僅可以使用兩個控制器上的資源。當(dāng)數(shù)據(jù)量達(dá)到數(shù)PB級時對于IO性能的需求會高出很多,讀寫帶寬基本上需要在幾十GB以上。因此,傳統(tǒng)的集中式元數(shù)據(jù)部署架構(gòu)不管在軟件算法上如何優(yōu)化,面對海量數(shù)據(jù)也于事無補(bǔ)。

此時,再來看看浪潮軟件定義存儲是如何應(yīng)對這一難題的:首先,浪潮軟件定義存儲系統(tǒng)具有良好的Scale-out擴(kuò)展性能:隨著物理節(jié)點(diǎn)的擴(kuò)展,性能、容量也隨之呈線性擴(kuò)展;其次,全局融合的分布式結(jié)構(gòu)設(shè)計使得擴(kuò)展過程中突破了傳統(tǒng)NAS元數(shù)據(jù)瓶頸制約。

浪潮軟件定義存儲之所以能做到這一點(diǎn),在于打破了傳統(tǒng)文件系統(tǒng)(也包括集中式NAS存儲)的元數(shù)據(jù)集中式存儲和管理這一限制,對浪潮軟件定義存儲集群系統(tǒng)的目錄實(shí)行分而治之,讓集群中所有服務(wù)器來一起存儲和管理元數(shù)據(jù)及數(shù)據(jù),從而實(shí)現(xiàn)負(fù)荷分擔(dān)、負(fù)載均衡。目前其實(shí)現(xiàn)方式主要有三種,各類浪潮軟件定義存儲會根據(jù)自身交付的場景不同,選擇不同的方式:

第一種,靜態(tài)子樹分區(qū)。以目錄為單位,把各個目錄或子目錄手工分配給不同節(jié)點(diǎn)去存儲,并指定不同的元數(shù)據(jù)服務(wù)節(jié)點(diǎn)/程序去管理。當(dāng)某個目錄出現(xiàn)訪問過熱的情況下,再由管理員手工進(jìn)行遷移。這種處理方式邏輯最為簡單,也容易實(shí)現(xiàn),但如果數(shù)據(jù)目錄需要頻繁擴(kuò)容,就需要管理員人為頻繁干預(yù)。老一點(diǎn)的網(wǎng)絡(luò)共享文件系統(tǒng)一般采用的是這種方式。

第二種,HASH分區(qū)。通過計算來分配數(shù)據(jù)、元數(shù)據(jù)存儲的位置。這種方式可以把數(shù)據(jù)和元數(shù)據(jù)自動均勻地分布在各個節(jié)點(diǎn)上,但是突發(fā)性熱點(diǎn)區(qū)域的數(shù)據(jù)訪問可能造成整個系統(tǒng)內(nèi)部某些元數(shù)據(jù)服務(wù)節(jié)點(diǎn)資源吃緊,從而成為整個系統(tǒng)的性能瓶頸。這種方式在一些分布式文件系統(tǒng)里得到了應(yīng)用,并在IO均勻分布的業(yè)務(wù)環(huán)境中很適用,如Lustre分布式文件系統(tǒng)。

第三種,動態(tài)子樹分區(qū)。大體結(jié)構(gòu)類似上面兩種方式,但它可以通過實(shí)時監(jiān)控和分析,把熱度數(shù)據(jù)單位動態(tài)地調(diào)整到不同的元數(shù)據(jù)服務(wù)節(jié)點(diǎn),從而實(shí)現(xiàn)數(shù)據(jù)索引的動態(tài)負(fù)載均衡。

一招制敵:破解元數(shù)據(jù)存儲與管理難題

當(dāng)理解了以上幾種模式,就可以明白浪潮軟件定義存儲是如何來管理數(shù)據(jù)與元數(shù)據(jù)的了。簡單來說,元數(shù)據(jù)的處理性能是決定整個存儲系統(tǒng)文件服務(wù)能力(容量規(guī)模,文件數(shù)目)的重要因素。如果元數(shù)據(jù)索引效率低下,即使強(qiáng)制擴(kuò)充存儲容量,也會造成數(shù)據(jù)訪問過慢甚至不可用的情況頻頻發(fā)生。浪潮軟件定義存儲系統(tǒng)架構(gòu)則通過把元數(shù)據(jù)均勻分布在集群內(nèi)各個節(jié)點(diǎn)的磁盤之上解決了這一難題,其元數(shù)據(jù)服務(wù)引擎(控制器)的數(shù)目更是突破了傳統(tǒng)文件系統(tǒng)(1個)和NAS存儲(2~16個)的限制。由于浪潮軟件定義存儲擁有更為強(qiáng)大的計算資源和存儲資源來快速索引文件,所以其容量規(guī)模、管理文件數(shù)目的能力要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)架構(gòu)存儲。

此外,多活元數(shù)據(jù)服務(wù)集群技術(shù)更是讓浪潮軟件定義存儲如虎添翼。在上文的動態(tài)子樹圖劃分圖中可以看出,一個浪潮軟件定義存儲集群中存在不止一個元數(shù)據(jù)服務(wù),這也是浪潮軟件定義存儲的顯著優(yōu)勢:多個元數(shù)據(jù)服務(wù)形成集群,共同對外提供文件索引服務(wù),并且通過元數(shù)據(jù)副本、緩存加速、熱點(diǎn)目錄分片、動態(tài)子樹分區(qū)等技術(shù),來實(shí)現(xiàn)負(fù)載均衡及元數(shù)據(jù)服務(wù)故障高可用等一系列功能。

從根本上破解元數(shù)據(jù)存儲與管理難題,是浪潮軟件定義存儲馳騁海量數(shù)據(jù)時代的關(guān)鍵。

消息來源:浪潮集團(tuán)
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection