北京2020年11月6日 /美通社/ -- 日前,亞馬遜云服務(wù)(AWS)宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d實例正式可用。P4d是下一代GPU驅(qū)動的實例,與上一代的P3實例相比,在機器學(xué)習(xí)訓(xùn)練和高性能計算(HPC)工作負載場景下,性能提升3倍,成本降低60%,GPU內(nèi)存增加2.5倍。P4d實例配備8顆NVIDIA A100 Tensor Core GPU,網(wǎng)絡(luò)帶寬達400 Gbps(比P3實例多16倍)。通過將P4d實例與AWS的Elastic Fabric Adapter(EFA)和NVIDIA GPUDirect RDMA(遠程直接訪問內(nèi)存)技術(shù)一起使用,客戶可以創(chuàng)建具備EC2超級集群功能的P4d實例。借助EC2超級集群,使用AWS設(shè)計的、與Amazon FSx for Lustre高性能存儲集成的PB級無阻塞網(wǎng)絡(luò)基礎(chǔ)架構(gòu),客戶可將P4d實例擴展至超過4000多個A100 GPU(相當(dāng)于其它云供應(yīng)商的2倍多),獲得按需訪問的超算級性能,加速機器學(xué)習(xí)訓(xùn)練和高性能計算。
如欲開始使用P4d實例,請訪問:https://aws.amazon.com/ec2/instance-types/p4
數(shù)據(jù)科學(xué)家和工程師們正不斷擴展機器學(xué)習(xí)的邊界,通過創(chuàng)建規(guī)模更大、更復(fù)雜的模型,從而為一系列廣泛用例提供更精準的預(yù)測,其中包括自動駕駛汽車的感知模型訓(xùn)練、自然語言處理、圖像分類、對象檢測,以及預(yù)測分析。針對大量數(shù)據(jù)訓(xùn)練這些復(fù)雜的模型是一項計算、網(wǎng)絡(luò)和存儲密集型任務(wù),經(jīng)常耗時數(shù)天或數(shù)周??蛻舨粌H想減少訓(xùn)練模型的時間,也希望降低用于訓(xùn)練的整體支出。總體來說,時間長和成本高限制了客戶訓(xùn)練模型的頻率,降低了機器學(xué)習(xí)開發(fā)和創(chuàng)新的速度。
P4d實例增強的性能可將機器學(xué)習(xí)模型訓(xùn)練時間縮短了3倍(將訓(xùn)練時間從數(shù)天減少到數(shù)小時),額外的GPU內(nèi)存可幫助客戶訓(xùn)練更大、更復(fù)雜的模型。隨著數(shù)據(jù)變得越來越豐富,客戶訓(xùn)練的模型有數(shù)百萬個甚至數(shù)十億個參數(shù),例如用于文檔摘要和問題解答的自然語言處理、面向自動駕駛汽車的對象檢測與分類、用于大規(guī)模內(nèi)容審核的圖像分類、電子商務(wù)網(wǎng)站的推薦引擎,以及智能搜索引擎的排名算法,所有這些都需要更多的網(wǎng)絡(luò)吞吐量和GPU內(nèi)存。P4d實例具有8顆NVIDIA A100 Tensor Core GPU,單臺EC2實例混合精度性能高達2.5 petaflops,GPU內(nèi)存網(wǎng)絡(luò)帶寬高達320GB。P4d實例是業(yè)界首個提供400Gbps網(wǎng)絡(luò)帶寬的實例,通過Elastic Fabric Adapter (EFA)和NVIDIA GPUDirect RDMA網(wǎng)絡(luò)接口支持跨服務(wù)器的GPU之間直接通信,從而降低延遲,提高擴展效率,有助于消除跨多節(jié)點分布式工作負載的擴展瓶頸。每個P4d實例還提供96顆Intel Xeon Scalable(Cascade Lake)vCPU,1.1TB的系統(tǒng)內(nèi)存,以及8TB的本地NVMe存儲,以減少單節(jié)點的訓(xùn)練時間。通過將上一代P3實例的性能提升一倍以上,P4d實例可將機器學(xué)習(xí)模型訓(xùn)練的成本降低多達60%,與昂貴且不靈活的本地系統(tǒng)相比,為客戶帶來更高效的體驗。高性能計算客戶還將受益于P4d實例增加的處理性能和GPU內(nèi)存,滿足要求苛刻的工作負載,比如地震分析、藥物發(fā)現(xiàn)、DNA測序、材料科學(xué)、金融和保險風(fēng)險建模。
P4d實例也構(gòu)建在AWS Nitro 系統(tǒng)之上,后者是AWS自己設(shè)計的硬件和軟件,讓AWS能夠向客戶提供越來越廣泛的EC2實例和配置選擇,同時提供與裸金屬無差別的性能,快速存儲和聯(lián)網(wǎng)能力,并確保更安全的多租戶。P4d實例將網(wǎng)絡(luò)功能卸載至專用的Nitro Cards上,加速多個P4d實例間的數(shù)據(jù)傳輸。Nitro Cards同時支持EFA和GPUDirect,支持GPU間跨服務(wù)器直接通信,實現(xiàn)P4d實例的EC2超級集群間更低的延遲表現(xiàn)和更強的伸縮性能。這些由Nitro驅(qū)動的能力讓客戶有可以在EC2超級集群中啟動P4d,按需和可擴展地訪問超過4000個GPU,以獲得超算級的性能。
“客戶使用AWS服務(wù)構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)應(yīng)用的速度非??臁Ec此同時,我們從客戶那里聽到他們希望以成本更低的方式來訓(xùn)練其龐大的機器學(xué)習(xí)模型?!盇WS EC2副總裁Dave Brown表示,“現(xiàn)在,通過NVIDIA最新的A100 GPU和PB級網(wǎng)絡(luò)支持的P4d實例的EC2超級集群,我們讓超算級的性能幾乎適用于所有人。同時與上一代實例相比,將訓(xùn)練機器學(xué)習(xí)模型的時間縮短3倍,訓(xùn)練成本降低高達60%。”
客戶可以使用Amazon Elastic Kubernetes Service (Amazon EKS)或Amazon Elastic Container Service (Amazon ECS)服務(wù)的AWS深度學(xué)習(xí)容器庫,在P4d實例上運行容器化應(yīng)用。要想獲得更加完整的托管體驗,客戶可以通過Amazon SageMaker使用P4d實例,從而使開發(fā)者和數(shù)據(jù)科學(xué)家能夠快速構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)模型。高性能計算客戶可以利用AWS Batch和AWS ParallelCluster,使用P4d實例幫助高效協(xié)調(diào)任務(wù)和集群。P4d實例支持所有主要的機器學(xué)習(xí)框架,包括TensorFlow、PyTorch以及Apache MXNet,客戶可以靈活地選擇最適合其應(yīng)用的框架。P4d實例現(xiàn)已在美國東部(弗吉尼亞) and 美國西部(俄勒岡)區(qū)域可用,并計劃在其他區(qū)域很快推出。P4d實例可以按需購買,也可以使用Savings Plan、預(yù)留實例,或競價型實例進行購買。
豐田研究院(TRI)成立于2015年,致力于為豐田開發(fā)自動駕駛、機器人和其他人力擴充技術(shù)。“TRI致力于創(chuàng)造讓每個人都可以自由移動的未來。”TRI基礎(chǔ)設(shè)施工程技術(shù)總監(jiān)Mike Garrison表示,“上一代P3實例幫助我們將機器學(xué)習(xí)模型訓(xùn)練時間從數(shù)天減少至數(shù)小時。非常期待使用P4d實例,其更多的GPU內(nèi)存和更高效的浮點格式可以讓我們的機器學(xué)習(xí)團隊更快速地訓(xùn)練更復(fù)雜的模型?!?/p>