北京2024年3月21日 /美通社/ -- 只要計算機(jī)依然遵循馮?諾依曼體系結(jié)構(gòu)所定義的形態(tài),那么關(guān)于計算的發(fā)展創(chuàng)新,大多都將圍繞著"存"與"算"的協(xié)作。不過有趣的是,從古文明到計算機(jī)時代,千年以來人類對"存"的需求似乎總是優(yōu)先于"算"——只要條件允許,人們就傾向于災(zāi)備性地保留盡可能多的數(shù)據(jù),即便它們可能再也不會被用于計算;現(xiàn)在的電子產(chǎn)品也喜歡讓用戶在計算硬件相同但存儲空間不同的產(chǎn)品中進(jìn)行選擇。
當(dāng)然,在計算的世界中"存"和"算"只是在不同場景中有所側(cè)重,缺一不可。只不過由于技術(shù)、成本等限制,人們在購買算力時往往精心算計,但對存儲則傾向預(yù)留充足冗余。這也解釋了為何在計算機(jī)領(lǐng)域的一些重大發(fā)展中,存儲或是發(fā)揮重要作用,或是在第一時間享受到創(chuàng)新的增益。
如果將2006年亞馬遜云科技成立,看作是拉開了云計算時代的帷幕,那么Amazon Simple Storage Service(Amazon S3)對象存儲服務(wù)就是拉開帷幕的那只無形的手。作為亞馬遜云科技的推出的第一個云服務(wù),Amazon S3的到來,與那些隱約感受到數(shù)據(jù)膨脹壓力的用戶形成了一場雙向奔赴。
現(xiàn)在,誕生已18年的Amazon S3已是最受歡迎的亞馬遜云科技服務(wù)之一。隨著云計算生態(tài)日益繁榮,計算場景來到機(jī)器推理、生成式人工智能等高階應(yīng)用,Amazon S3也在一路發(fā)展成長,成為云計算中基礎(chǔ)但又從不缺席的環(huán)節(jié)。
首個云對象存儲,Amazon S3揭開云計算時代的大幕
作為亞馬遜云科技的"元老"級服務(wù),Amazon S3目前為全球數(shù)百萬各行各業(yè)的客戶提供可靠、便捷的云存儲。現(xiàn)在,Amazon S3 存儲了超過 350 萬億個對象,平均每秒處理超過1億次請求,能夠勝任幾乎所有工作負(fù)載。
Amazon S3能擁有持續(xù)18年的旺盛生命力,來自云計算所開創(chuàng)的顛覆性存儲范式。云計算通過功能和服務(wù)取代了本地存儲,上至無限的彈性容量、按用量付費……云計算使存儲擁有了與業(yè)務(wù)同步成長的可能。
而且Amazon S3還提供了遠(yuǎn)超本地存儲的可靠性,具有的11個9(99.999999999%)的持久性,意味著一萬年時間跨度中1000萬個對象才可能會丟一個,用戶使用Amazon S3不需要在本地構(gòu)建數(shù)據(jù)中心,無需操心數(shù)據(jù)存放位置,不用擔(dān)心擴(kuò)容問題,也幾乎不用擔(dān)心數(shù)據(jù)丟失的風(fēng)險。
豐富的存儲級別,Amazon S3以更經(jīng)濟(jì)的方式承載更多數(shù)據(jù)與應(yīng)用
隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐步推進(jìn),以及云計算技術(shù)對企業(yè)IT技術(shù)的重塑,企業(yè)在云上存放了數(shù)量眾多、類型多樣的數(shù)據(jù),并在云上構(gòu)建了越來越多的應(yīng)用。企業(yè)一方面要解決存儲成本持續(xù)增加的挑戰(zhàn);另一方面還需要滿足不同應(yīng)用的數(shù)據(jù)不同訪問模式,比如,有的數(shù)據(jù)訪問頻次不同,需要的檢索時效不同,有的需要即時檢索,有的在幾十個小時檢索。
針對客戶的這些需求,亞馬遜云科技持續(xù)針對Amazon S3持續(xù)開展創(chuàng)新,如今Amazon S3提供了9個存儲層級,不同層級有不同的訪問特性和成本水平。2012年是云計算方興未艾的年代,亞馬遜云科技在標(biāo)準(zhǔn)Amazon S3的基礎(chǔ)上又發(fā)布了Amazon S3 Glacier(現(xiàn)已更名為Amazon S3 Glacier Flexible Retrieval ),它為需要長期存儲,且低訪問頻次的數(shù)據(jù)提供了低成本的數(shù)據(jù)存儲方案,也成了云上存儲多樣化的一個重要開端。
此后,為了提供更加靈活的數(shù)據(jù)存取速度和成本效率,滿足更多應(yīng)用需求。亞馬遜云科技先后推出了成本最低的深度歸檔存儲Amazon S3 Glacier Deep Archive,支持快速檢索的歸檔存儲Amazon S3 Glacier Instant Retrieval,以及不常訪問、但在需要時要能快速訪問的Amazon S3 Standard-IA和Amazon S3 One Zone-IA等。
金山辦公是國內(nèi)領(lǐng)先的辦公軟件和服務(wù)提供商,其旗艦產(chǎn)品 WPS Office是全球主流辦公軟件產(chǎn)品之一。WPS Office 對數(shù)據(jù)的存儲和管理有極為嚴(yán)苛的要求:WPS Office 存儲了 PB 級海量數(shù)據(jù),帶來了巨大的存儲成本壓力;同時,由于 WPS Office 為用戶提供對 "冷" 文檔的及時訪問,因此對歸檔存儲(Archive Storage)的數(shù)據(jù)提取時間也有更高的標(biāo)準(zhǔn)。為了降低最終用戶的延遲和存儲成本,WPS Office 在亞馬遜云科技的協(xié)助下,最終通過 Amazon S3 完成了自動化生命周期管理流程的建立。其中,針對很少訪問且需要毫秒級檢索的長期數(shù)據(jù),將其歸檔在更具有成本效益的 Amazon S3 Glacier Instant Retrieval 中。最終,WPS Office 有近一半的存儲進(jìn)入到了 Amazon S3 Glacier Instant Retrieval 中,達(dá)成了數(shù)據(jù)訪問速度提升和存儲成本大幅優(yōu)化的雙重效果。
此外,針對用戶訪問模式不明確以及數(shù)據(jù)訪問模式不斷改變的情況,亞馬遜云科技還推出了Amazon S3新的存儲層級——Amazon S3 Intelligent-Tiering。該服務(wù)可以根據(jù)訪問頻率自動將數(shù)據(jù)移至成本最低的存儲層,在對象級別降低存儲成本,并且不會影響性能表現(xiàn)。自 2018 年Amazon S3 Intelligent-Tiering 推出以來,與 Amazon S3 Standard 相比,客戶通過采用 S3 Intelligent-Tiering 節(jié)省了 20 億美元。
迎接人工智能技術(shù)發(fā)展,Amazon S3性能實現(xiàn)突破性提升
隨著新的使用場景的出現(xiàn),如機(jī)器學(xué)習(xí)訓(xùn)練和推理、交互式分析、金融模型模擬、實時廣告和媒體內(nèi)容創(chuàng)建,這類工作負(fù)載可能每分鐘寫入和訪問數(shù)據(jù)達(dá)百萬次,并需要一致的、毫秒級的響應(yīng)時間以滿足性能需求。例如,人工智能(AI)和機(jī)器學(xué)習(xí)模型訓(xùn)練通常需要在幾分鐘內(nèi)處理數(shù)百萬張圖片和文本行,因此數(shù)據(jù)訪問速度對于實現(xiàn)最高的計算效率至關(guān)重要。
Amazon S3上存儲著各種不同類型的大量非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)通常是直接從真實世界中獲取的,因此它能更真實地反映現(xiàn)實世界的復(fù)雜性和多維度信息,利用這些數(shù)據(jù)做訓(xùn)練能提高模型的實用價值,更好地滿足企業(yè)用戶需求。去年底,亞馬遜云科技在2023年re:Invent全球大會上,發(fā)布Amazon S3 Express One Zone,這是Amazon S3在性能方面的一次突破性提升。它采用了單可用區(qū)的架構(gòu)設(shè)計,擁有個位數(shù)毫秒級響應(yīng)時間,性能比標(biāo)準(zhǔn)版Amazon S3快了10倍,每分鐘可處理數(shù)百萬次請求。
對于計算密集型負(fù)載,Amazon S3 Express One Zone延遲的降低對用戶有顯而易見的價值。用ImageNet數(shù)據(jù)集進(jìn)行為期15天訓(xùn)練時,GPU經(jīng)常需要等候標(biāo)準(zhǔn)版Amazon S3加載數(shù)據(jù),而在換成S3 Express One Zone之后,GPU利用率持續(xù)穩(wěn)定在高水平,最終提早完成任務(wù),釋放了GPU資源并節(jié)省成本。
Colorfront 致力于為電影行業(yè)開發(fā)高性能數(shù)字處理技術(shù)。"Colorfront 將高性能 GPU 架構(gòu)與 Amazon S3 Express One Zone 集成,實現(xiàn)對文件進(jìn)行轉(zhuǎn)碼、解碼、轉(zhuǎn)換和封裝到各種格式的加速處理。" Colorfront 解決方案工程總監(jiān) Brandon Heaslip 表示,"借助 Amazon S3 Express One Zone 個位數(shù)毫秒級的數(shù)據(jù)訪問速度,Colorfront的客戶可以將數(shù)字視頻處理速度提高70%,滿足了流媒體傳輸中多樣化的媒體和娛樂需求,并保持?jǐn)?shù)字視頻的標(biāo)準(zhǔn)。"
除了Amazon S3 Express One Zone以外,亞馬遜云科技還發(fā)布了多個新特性,讓Amazon S3更好地支撐人工智能/機(jī)器學(xué)習(xí)工作負(fù)載。亞馬遜云科技在Amazon Common Runtime (CRT)中封裝訪問Amazon S3的性能最佳實踐,從而提高S3的傳輸性能和傳輸穩(wěn)定性。而且,CRT已經(jīng)集成到包括AWS Python SDK、AWS CLI、Mountpoint以及PyTorch中,在CRT的幫助下,Mountpoint for Amazon S3和Amazon S3 Connector for PyTorch都可以提高存儲的性能表現(xiàn),為機(jī)器學(xué)習(xí)負(fù)載中的數(shù)據(jù)存儲提供加速,使其更快完成訓(xùn)練任務(wù),進(jìn)而幫助企業(yè)節(jié)省成本。
結(jié)束語
在過去的18年里,Amazon S3成為眾多用戶上云的第一步,從存儲開始步入云計算驅(qū)動的數(shù)字化轉(zhuǎn)型。如今,Amazon S3還在持續(xù)創(chuàng)新,全球數(shù)百萬客戶正使用Amazon S3存儲各種類型的數(shù)據(jù),并將Amazon S3的數(shù)據(jù)對接到亞馬遜云科技各種計算引擎、數(shù)據(jù)庫引擎,與人工智能/機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析等服務(wù)高度集成,為其業(yè)務(wù)創(chuàng)新帶來了更廣泛的可能性。