omniture

無數(shù)據(jù) 不模型 亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建三大核心能力

亞馬遜云科技
2024-04-30 16:06 3610

北京2024年4月30日 /美通社/ -- 亞馬遜云科技持續(xù)引領(lǐng)云上數(shù)據(jù)服務(wù)創(chuàng)新,助力企業(yè)構(gòu)建全面的數(shù)據(jù)基座以充分發(fā)揮數(shù)據(jù)潛力,加速生成式AI技術(shù)落地。在生成式AI時代,數(shù)據(jù)是企業(yè)脫穎而出的關(guān)鍵——基礎(chǔ)模型依賴于大規(guī)模高質(zhì)量數(shù)據(jù)集,生成式AI的差異化優(yōu)勢來源于企業(yè)的專有數(shù)據(jù),生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時有效地加以管理和利用。亞馬遜云科技持續(xù)引領(lǐng)數(shù)據(jù)基座構(gòu)建必備的三大核心能力,即模型微調(diào)和預(yù)訓(xùn)練所需的數(shù)據(jù)處理能力、利用專有數(shù)據(jù)與模型快速結(jié)合以產(chǎn)生獨(dú)特價值的能力,以及有效處理新數(shù)據(jù)以助推生成式AI應(yīng)用持續(xù)快速發(fā)展的能力,助力企業(yè)在生成式AI時代取得成功。

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:"企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場景,能夠幫助企業(yè)輕松應(yīng)對海量多模態(tài)數(shù)據(jù),提升基礎(chǔ)模型能力。作為全球云計算的開創(chuàng)者和引領(lǐng)者,亞馬遜云科技正在幫助各個行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座,在確保用戶業(yè)務(wù)和數(shù)據(jù)安全的前提下,將數(shù)據(jù)的獨(dú)特價值賦予基礎(chǔ)模型和生成式AI應(yīng)用,加速企業(yè)業(yè)務(wù)增長。"

優(yōu)秀的數(shù)據(jù)處理能力,快速提高模型微調(diào)和預(yù)訓(xùn)練質(zhì)量

生成式AI基礎(chǔ)模型微調(diào)和預(yù)訓(xùn)練需要將海量的多樣化原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的大數(shù)據(jù)集,這對數(shù)據(jù)存儲、清洗和治理都提出了更嚴(yán)峻的挑戰(zhàn)。

在數(shù)據(jù)存儲方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。Amazon Simple Storage Service(Amazon S3)對象存儲幾乎是云上擴(kuò)展性的代名詞,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本。專門構(gòu)建的文件存儲服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面,企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù),Amazon EMR ServerlessAmazon Glue可以幫助企業(yè)輕松完成數(shù)據(jù)清理、去重、乃至分詞的操作,讓企業(yè)專注于生成式AI業(yè)務(wù)創(chuàng)新。Amazon EMR serverless采用無服務(wù)器架構(gòu),幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。Amazon Glue是一個簡單可擴(kuò)展的無服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面,企業(yè)難以在多個賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。Amazon DataZone讓企業(yè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù),不但能夠?yàn)槎嘣炊嗄B(tài)數(shù)據(jù)進(jìn)行有效編目和治理,而且還提供簡單易用的統(tǒng)一數(shù)據(jù)管理平臺和工具,從而為用戶解鎖所有數(shù)據(jù)的潛能。

數(shù)據(jù)與模型快速結(jié)合,讓企業(yè)專有數(shù)據(jù)釋放更大價值

生成式AI基礎(chǔ)模型的局限性之一在于無法及時擁有企業(yè)專有數(shù)據(jù),因此通過技術(shù)手段加速數(shù)據(jù)與模型的結(jié)合成為企業(yè)數(shù)據(jù)基座的第二項(xiàng)關(guān)鍵能力。檢索增強(qiáng)生成(Retrieval-Augmented Generation,RAG)技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)數(shù)據(jù)與模型結(jié)合的主要途徑之一,它通過將數(shù)據(jù)轉(zhuǎn)換為向量并存儲到向量數(shù)據(jù)庫中,從而將語義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計算?,F(xiàn)代應(yīng)用程序需精準(zhǔn)理解用戶需求并正確關(guān)聯(lián)產(chǎn)品或內(nèi)容,這一需求廣泛存在于搜索、評論、購物車及產(chǎn)品推薦等交互框架中,這些框架又依賴于功能各異的數(shù)據(jù)庫,這使得數(shù)據(jù)庫成為實(shí)施RAG技術(shù)的理想平臺。

亞馬遜云科技將向量搜索的支持功能加入到主流的數(shù)據(jù)服務(wù)中,通過將數(shù)據(jù)和向量存儲在一起來提升數(shù)據(jù)查詢性能。這能夠讓企業(yè)輕松利用RAG技術(shù)將專有數(shù)據(jù)提供給基礎(chǔ)模型,從而釋放更大價值。此外,亞馬遜云科技還為圖數(shù)據(jù)庫Amazon Neptune推出了分析數(shù)據(jù)庫引擎,以結(jié)合圖數(shù)據(jù)庫與大模型的優(yōu)勢,從而能夠快速從圖形數(shù)據(jù)中獲取洞察,并進(jìn)行更快的向量搜索。

有效處理生成式AI應(yīng)用的新數(shù)據(jù),降低模型頻繁調(diào)用成本并提升性能

對生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會導(dǎo)致成本的增加和響應(yīng)的延遲,因此如何處理生成式AI應(yīng)用程序新生成的數(shù)據(jù),提升模型調(diào)用效率成為企業(yè)數(shù)據(jù)基座的第三項(xiàng)關(guān)鍵能力。Amazon Memory DB內(nèi)存數(shù)據(jù)庫通過緩存之前問答生成的新數(shù)據(jù),實(shí)現(xiàn)對類似問題的快速響應(yīng)和準(zhǔn)確回答,同時有效降低基礎(chǔ)模型的調(diào)用頻率。Amazon Memory DB能夠存儲數(shù)百萬個向量,只需要幾毫秒的響應(yīng)時間,能夠以99%的召回率實(shí)現(xiàn)每秒百萬次的查詢性能。

此外,生成式AI應(yīng)用程序需要快速占領(lǐng)市場。亞馬遜云科技通過提供無服務(wù)器數(shù)據(jù)庫服務(wù)和Amazon OpenSearch Serverless用于向量搜索,最大限度為企業(yè)減少運(yùn)維負(fù)擔(dān)和成本,消除性能瓶頸,使企業(yè)能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

Amazon Music通過分析用戶和歌曲的特征,并將它們轉(zhuǎn)換成向量以提高推薦精準(zhǔn)度。Amazon Music已通過Amazon OpenSearch將1億首歌曲編碼成向量并進(jìn)行索引,以為全球用戶提供實(shí)時音樂推薦。Amazon Music目前在Amazon OpenSearch中管理著10.5億個向量,并能夠處理每秒高達(dá)7,100次的查詢峰值,有效支撐其推薦系統(tǒng)。

消息來源:亞馬遜云科技
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection