亞馬遜云科技推出五項數(shù)據(jù)庫和分析服務功能，提高PB級數(shù)據(jù)處理能力

亞馬遜云科技

2022-12-12 13:20 3652

Amazon DocumentDB Elastic Clusters可將客戶的文檔工作負載擴展到支持每秒數(shù)百萬次寫入并存儲PB級數(shù)據(jù)
Amazon OpenSearch Serverless可幫助客戶在無需手動配置、擴展或管理底層基礎設施的情況下運行搜索和分析工作負載
Amazon Athena for Apache Spark的功能讓客戶得以使用Apache Spark進行交互式分析，并將分析所需時長從數(shù)分鐘縮短到一秒以內
Amazon Glue Data Quality自動測量、監(jiān)控和管理數(shù)據(jù)湖和數(shù)據(jù)管道中的數(shù)據(jù)質量，將數(shù)據(jù)分析和規(guī)則識別的時間從幾天縮短到幾小時
Amazon Redshift現(xiàn)在支持跨多個亞馬遜云科技可用區(qū)的高可用配置

北京2022年12月12日 /美通社/ -- 亞馬遜云科技在2022 re:Invent全球大會上宣布推出五項涵蓋數(shù)據(jù)庫和分析產品組合的全新功能，讓客戶能夠更快、更輕松地管理和分析PB級數(shù)據(jù)。幾項針對Amazon DocumentDB（與MongoDB兼容）、Amazon OpenSearch Service和Amazon Athena的新功能讓客戶能夠更輕松地大規(guī)模運行高性能數(shù)據(jù)庫和分析工作負載。此外，亞馬遜云科技還發(fā)布了Amazon Glue的一項新功能，可以跨數(shù)據(jù)湖和數(shù)據(jù)管道自動管理數(shù)據(jù)質量。最后，Amazon Redshift現(xiàn)在支持跨多個亞馬遜云科技可用區(qū)（AZ）的高可用配置。此次發(fā)布讓客戶能夠擁有適合其數(shù)據(jù)工作負載的恰當工具，實現(xiàn)大規(guī)模運營并提高可用性，從而幫助客戶充分利用其在亞馬遜云科技上的數(shù)據(jù)。要了解有關使用亞馬遜云科技釋放數(shù)據(jù)價值的更多信息，請訪問aws.amazon.com/data。

“數(shù)據(jù)天生就是動態(tài)的，需要端到端的數(shù)據(jù)戰(zhàn)略來充分發(fā)揮其潛力。數(shù)據(jù)戰(zhàn)略應該能夠根據(jù)客戶的需求進行擴展，適應所有類型的用例，兼顧現(xiàn)在和未來?！?b>亞馬遜云科技數(shù)據(jù)庫、分析和機器學習副總裁 Swami Sivasubramanian表示，“為了幫助客戶充分利用不斷增長的、海量而多樣化的數(shù)據(jù)，我們一直致力于提供最廣泛和最深入的數(shù)據(jù)庫和分析服務。在此基礎上，我們今天推出的新功能可以讓客戶更方便地查詢、管理數(shù)據(jù)和擴大數(shù)據(jù)規(guī)模，更快地做出數(shù)據(jù)驅動的決策?！?/span>

當前，組織創(chuàng)建和存儲的數(shù)據(jù)達到PB級甚至EB級，數(shù)據(jù)來源日益多樣化，這其中包括數(shù)字媒體、在線交易和各種聯(lián)網設備。為了最大限度地發(fā)揮這些數(shù)據(jù)的價值，客戶需要端到端的數(shù)據(jù)戰(zhàn)略，為所有數(shù)據(jù)工作負載和應用提供合適的工具，并能在數(shù)據(jù)體量增大、流速提升時仍能規(guī)?；⒖煽康貓?zhí)行。為了支持客戶設計自己的端到端數(shù)據(jù)戰(zhàn)略，亞馬遜云科技提供了業(yè)界最全面的數(shù)據(jù)服務和解決方案，其中包括針對客戶最重要的用例而優(yōu)化的全托管數(shù)據(jù)庫，例如用于關系數(shù)據(jù)庫的Amazon Aurora和用于文檔數(shù)據(jù)庫的Amazon DocumentDB；還包括可以幫助客戶從數(shù)據(jù)中獲得有價值的洞察的多種分析服務，諸如面向搜索和分析工作負載（如實時應用監(jiān)控、日志分析和網站搜索）的Amazon OpenSearch Service、面向交互式分析的Amazon Athena 、面向數(shù)據(jù)集成的Amazon Glue 和面向數(shù)據(jù)倉庫的Amazon Redshift。此次發(fā)布在這些服務的基礎上提供高級功能。

Amazon DocumentDB Elastic Clusters以每秒數(shù)百萬次寫入的性能為PB級應用提供支持。數(shù)以萬計的客戶使用 Amazon DocumentDB運行文檔工作負載，因為它速度快、可擴展、高度可用而且完全托管。雖然每個 Amazon DocumentDB節(jié)點最多可擴展到64TB數(shù)據(jù)并支持每秒數(shù)百萬次讀取請求，但有一部分客戶的工作負載要求極高，需要超越這些限制的擴展能力，以支持每秒數(shù)百萬次寫入并存儲PB級數(shù)據(jù)。以往，這些客戶必須在多個Amazon DocumentDB節(jié)點間手動分拆數(shù)據(jù)、管理容量。Amazon DocumentDB Elastic Clusters允許客戶在幾分鐘內擴展，打破單個數(shù)據(jù)庫節(jié)點的限制，以支持每秒數(shù)百萬次的讀寫并存儲高達2 PB的數(shù)據(jù)。隨著工作負載需求不斷增加，Amazon DocumentDB Elastic Clusters可以利用分布式存儲系統(tǒng)自動將大型數(shù)據(jù)集劃分到多個節(jié)點?？蛻舨辉傩枰帉懽远x代碼分拆數(shù)據(jù)集和跨節(jié)點手動管理容量。底層基礎設施自動管理，客戶可以根據(jù)需要輕松擴展容量，無需配置、擴展或管理數(shù)據(jù)庫集群。要了解有關Amazon DocumentDB Elastic Clusters的更多信息，請訪問aws.amazon.com/documentdb/features/#elastic_clusters。
Amazon OpenSearch Serverless自動擴展搜索和分析工作負載。數(shù)以萬計的客戶使用Amazon OpenSearch Service支持網站搜索和實時應用監(jiān)控等用例，這其中許多工作負載由于經常出現(xiàn)間歇性使用高峰使得提前規(guī)劃容量非常困難。Amazon OpenSearch Serverless可以自動置備、配置和擴展OpenSearch基礎設施，即使對不可預測和間歇性的工作負載，也可以提供快速數(shù)據(jù)注入的能力以及毫秒級的查詢響應。借助 Amazon OpenSearch Serverless，數(shù)據(jù)注入和搜索資源可以獨立擴展，兩種操作并發(fā)運行而不會影響性能。使用 Amazon OpenSearch Serverless的客戶可以獲得無服務器帶來的優(yōu)勢（如自動配置、按需擴展和按使用付費定價等），還可以獲得Amazon OpenSearch Service的功能（如內建的數(shù)據(jù)可視化）用以理解日志數(shù)據(jù)、識別異常、查看搜索相關性排名。要了解有關Amazon OpenSearch Serverless的更多信息，請訪問aws.amazon.com/opensearch-service/features/serverless。
Amazon Athena for Apache Spark將交互式分析的啟動時間縮短到1秒以內。客戶使用無服務器交互式查詢服務Amazon Athena。它使用標準SQL接口在Amazon Simple Storage Service（Amazon S3）查詢數(shù)據(jù)，是查詢PB級數(shù)據(jù)最方便、最快的方式之一。很多客戶在使用Apache Spark時也希望有同樣的易用性（Apache Spark是一種開源處理框架，用于支持Java、Scala、Python和R等流行語言框架的大數(shù)據(jù)工作負載）。開發(fā)人員雖然很喜歡Apache Spark的快速查詢速度和易用性，但他們不想在每次運行查詢時都花時間搭建、管理和擴展Apache Spark基礎設施?，F(xiàn)在，使用Amazon Athena for Apache Spark，客戶已無需自己置備、配置和擴展資源。交互式Apache Spark應用的啟動時間不到1秒，執(zhí)行速度比跑在亞馬遜云科技優(yōu)化版Spark runtime上的開源方案更快。由于Amazon Athena與其他亞馬遜云科技服務的集成，客戶可以從多個來源查詢數(shù)據(jù)，將運算串連在一起進行復雜分析，并且將結果可視化。Amazon Athena for Apache Spark會根據(jù)應用需求自動確定所需的資源，并且按需擴展，因此客戶只需為他們運行的查詢付費。要開始使用面向Apache Spark的Amazon Athena，請訪問aws.amazon.com/athena/spark。
Amazon Glue Data Quality自動監(jiān)控和管理數(shù)據(jù)的時效性、準確性和完整性。成千上萬客戶使用Amazon Glue快速、輕松且經濟高效地構建和管理現(xiàn)代數(shù)據(jù)管道。組織需要監(jiān)控其數(shù)據(jù)湖和數(shù)據(jù)管道中信息的數(shù)據(jù)質量（衡量數(shù)據(jù)的時效性、準確性和完整性），在確保數(shù)據(jù)的高質量之后再將其用于分析或機器學習應用。但數(shù)據(jù)質量管理是一個耗時且復雜的過程，需要數(shù)據(jù)工程師花費數(shù)天時間收集數(shù)據(jù)的詳細統(tǒng)計數(shù)字，根據(jù)這些統(tǒng)計數(shù)字信息手動識別數(shù)據(jù)質量規(guī)則，并將其應用于數(shù)千個數(shù)據(jù)集和數(shù)據(jù)管道。在這些規(guī)則被付諸實施之后，數(shù)據(jù)工程師還必須持續(xù)監(jiān)控數(shù)據(jù)中的錯誤或變化并對規(guī)則進行相應的調整。Amazon Glue Data Quality可以自動測量、監(jiān)控和管理Amazon S3數(shù)據(jù)湖和Amazon Glue數(shù)據(jù)管道的數(shù)據(jù)質量，將數(shù)據(jù)分析和規(guī)則識別的時間從幾天縮短到幾小時。Amazon Glue Data Quality可以計算客戶數(shù)據(jù)集的統(tǒng)計數(shù)字（如最小值、最大值、直方圖和相關性），使用統(tǒng)計數(shù)字自動地推薦規(guī)則，確保數(shù)據(jù)的時效性、準確性和完整性?？蛻艨梢园才?/span>Amazon Glue Data Quality在數(shù)據(jù)發(fā)生變化時定期運行，自動分析數(shù)據(jù)并提出質量規(guī)則的更改建議以確保相關性。一旦出現(xiàn)質量問題，數(shù)據(jù)工程師無需編寫代碼即可配置用戶提醒或終止數(shù)據(jù)管道。要了解有關Amazon Glue Data Quality的更多信息，請訪問aws.amazon.com/glue/features/data-quality。
Amazon Redshift現(xiàn)已支持多可用區(qū)部署。數(shù)以萬計的亞馬遜云科技客戶每天使用Amazon Redshift處理總計達EB級的數(shù)據(jù)。為了支持這些客戶的關鍵任務工作負載，Amazon Redshift提供了很多增加可用性和可靠性的功能，例如自動備份以及在幾分鐘內將集群重新在另一個可用區(qū)拉起的能力。當前，許多數(shù)據(jù)庫使用主備復制模式來保證高可用性，單數(shù)據(jù)庫為在線流量提供服務，備用副本從在線版本復制數(shù)據(jù)以備不時之需。在這些功能的基礎上，Amazon Redshift現(xiàn)在提供新的高可用配置功能以實現(xiàn)快速恢復，同時最大限度地降低數(shù)據(jù)丟失風險。借助Amazon Redshift多可用區(qū)功能，客戶可以跨多個可用區(qū)部署集群，并且使用所有資源處理讀寫查詢，取消低利用率的備用副本，最大限度地提高性價比?？蛻羧匀豢梢韵窆芾韱蝹€Amazon Redshift數(shù)據(jù)倉庫那樣，在一個端點管理多可用區(qū)數(shù)據(jù)倉庫，無需更改應用即可保持業(yè)務連續(xù)性。要了解有關Amazon Redshift多可用區(qū)的更多信息，請訪問aws.amazon.com/redshift/reliability。

riskCanvas是Genpact提供的一種軟件即服務（SaaS）產品，是一種金融犯罪合規(guī)解決方案。它利用前沿的大數(shù)據(jù)、自動化和機器學習技術幫助客戶保障合規(guī)，提高效率，實現(xiàn)自動化?！?/span>riskCanvas 的實體中心監(jiān)控產品包含了對交易監(jiān)測、外部資源、監(jiān)測列表篩選和負面新聞的分析并自動評估風險，僅在客戶的真實風險超過預定義閾值時提醒高風險客戶，從而大大減少了滿足合規(guī)要求的工作量。這需要大量的、多樣化的分析處理，通常會遇到峰值和不可預測的數(shù)據(jù)負載?！?/span>riskCanvas 首席技術官兼Genpact金融犯罪技術副總裁Ryan Skousen表示，“我們很高興可以使用Amazon OpenSearch Serverless。它可以自動擴展，滿足我們工作負載的數(shù)據(jù)注入和分析處理需求，并可以隨著需求的減少而縮減規(guī)模，大幅降低成本，所有這一切都不需要重新設計或維護?！?/span>

美國金融業(yè)監(jiān)管局（FINRA）是美國一個面向公眾開展業(yè)務的證券公司監(jiān)管機構，負責監(jiān)管股票、債券和期權交易。“FINRA在Amazon Athena上開發(fā)應用，使分析師和業(yè)務合作伙伴能夠安全地查詢每天更新的數(shù)TB金融交易數(shù)據(jù)?！?/span>FINRA 高級主管Ratnakar Korem表示，“我們很高興看到Amazon Athena for Apache Spark的發(fā)布。它將把我們在使用Amazon Athena過程中非常滿意的分析速度和易用性體驗帶到我們的按需分析和批處理分析。這種無服務器功能將使FINRA能夠對大數(shù)據(jù)進行分析，不需要花精力明確定義計算資源和調整Apache Spark性能。這最終有助于監(jiān)管用戶和數(shù)據(jù)分析師快速響應不斷變化的市場動態(tài)，節(jié)省時間和成本?！?/span>

美國聯(lián)合航空公司經營著龐大的國內和國際航線網絡，橫跨美國和所有六大洲的大小城市?！奥?lián)合航空公司正在為客戶和員工構建數(shù)百個數(shù)據(jù)和分析驅動的工具，管理和維護數(shù)據(jù)質量對我們的運營至關重要?！?b>聯(lián)合航空公司數(shù)據(jù)工程總監(jiān)Sarang Bapat表示，“我們很高興使用Amazon Glue Data Quality。它將使我們能夠在幾分鐘內自動識別和分析數(shù)據(jù)質量問題并采取行動，幫助我們做出明智、及時和準確的決策，并且節(jié)省大量花在手動定位和修復各種數(shù)據(jù)問題上的時間?！?/span>

楊森制藥（Janssen Pharmaceuticals）是強生公司的子公司，致力于研究和生產藥品，重點關注患者和醫(yī)療保健行業(yè)不斷變化的需求?！皸钌扑幨褂?/span>Amazon Redshift實現(xiàn)關鍵的洞察，賦能數(shù)據(jù)科學家、數(shù)據(jù)管理員、業(yè)務用戶和外部利益相關者做出重要的業(yè)務決策?！?b>強生旗下楊森制藥信息技術總監(jiān)Shyam Mohapatra表示，“Amazon Redshift的多可用區(qū)功能可以確保我們的數(shù)據(jù)倉庫隨時可用，確保我們可以及時做出重要業(yè)務決策。”