omniture

才云@KubeCon 中國首秀:勾畫云原生“未來式”

2018-11-16 23:29 8905
2018年11月13日,代表 Kubernetes?技術(shù)領(lǐng)域較高峰會的 KubeCon + CloudNativeCon China 2018 在上海拉開帷幕,這是才云 Caicloud?第五次深度參與 KubeCon。

杭州2018年11月16日電 /美通社/ -- 2018年11月13日,代表 Kubernetes 技術(shù)領(lǐng)域較高峰會的 KubeCon + CloudNativeCon China 2018 在上海拉開帷幕,參與人數(shù)逾 2500 人。這是 KubeCon 盛會首次登陸中國,也是才云 Caicloud 第五次深度參與 KubeCon。

大會頭圖
大會頭圖

 

Keynote:《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》

在11月15日 Keynote 演講中,才云 COO 韓佳瑤博士和才云 CEO 張鑫博士帶來了《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》演講,分享了才云對于新一代 AI 類型業(yè)務(wù)在國家電網(wǎng)眾多生產(chǎn)環(huán)節(jié)場景落地中存在的挑戰(zhàn)和解決辦法。演講中提到在現(xiàn)今中國激烈的數(shù)字化轉(zhuǎn)型市場競爭環(huán)境下,企業(yè)在 AI 類應(yīng)用和服務(wù)落地實踐中正面臨巨大挑戰(zhàn)。

傳統(tǒng)的方式即依托于第三方算法公司進行黑盒算法模型開發(fā),無論對企業(yè)維持自身競爭壁壘提高轉(zhuǎn)型效率,還是打破算法科學(xué)家 VS 軟件尤其是底層與平臺工程之間(model developers vs. system admins)的屏障上而言都將變得越來越不可持續(xù)。演講提到,我們對于 CPU 資源分配、調(diào)度、管理和 Java 類應(yīng)用的管理早已進入云原生時代,但對于新型 GPU、AI 類業(yè)務(wù)和軟件的資源調(diào)配和管理方式還停留在“史前時代”。

演講繼續(xù)介紹了才云 Caicloud 容器智能云平臺(Caicloud Compass + Caicloud Clever)整體架構(gòu)和工程設(shè)計方案是如何為國網(wǎng)電力實現(xiàn)從底層到 PaaS 一系列資源環(huán)境和工具模塊的協(xié)同從而為最終上層多樣 AI 模型和業(yè)務(wù) Pipeline 進行服務(wù)。

 

Session talk:《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》

15 日下午在 Room 1 ML 專場的 Session talk 中,才云 CEO 張鑫博士和才云 CTO 鄧德源聯(lián)袂帶來《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》。以谷歌 AI 負責(zé)人 Andrew Moore 的觀點 “AI 并不是企業(yè)的華麗魔法,AI 落地任重道遠”為開場,張鑫介紹了 Kubeflow 項目的使命,是作為搭載在 Kubernetes 之上的可移植、可擴展、可組建的機器學(xué)習(xí)棧。對 AI、機器學(xué)習(xí)應(yīng)用能真正在生產(chǎn)上落地這一目標(biāo)而言,僅有 ML 層面的模型和算法尚不足以滿足這個需求。

盡管外界對 Kubeflow 充滿極大期待和興趣,但目前的 Kubeflow 還遠不是銀彈。通過和數(shù)十個企業(yè)客戶的調(diào)研,張鑫提到目前 Kubeflow 存在如下問題:

  • Kubeflow 缺少服務(wù)多模型訓(xùn)練被按次序來觸發(fā)調(diào)度同一塊 GPU 的機制;
  • 缺少任務(wù)的資源限制和資源分配的機制;監(jiān)督式學(xué)習(xí)訓(xùn)練缺少數(shù)據(jù)處理(包括打標(biāo)、數(shù)據(jù)清洗等)機制;
  • 缺少對訓(xùn)練過程中數(shù)據(jù)錄入、訓(xùn)練、測試、通過、再訓(xùn)練這整個流程的持續(xù)集成、持續(xù)發(fā)布機制從而使得模型本身無法保持最新狀態(tài);
  • 缺乏“模型倉庫”來做不同模型之間的跟蹤、比對、切換;以及 Kubeflow 缺乏一些內(nèi)置可部署的業(yè)已經(jīng)典的但可調(diào)試參數(shù)的模型;
  • 缺乏多個模型并行訓(xùn)練的機制;
  • 缺乏對單個模型調(diào)參的機制等。

在張鑫和鄧德源看來,所有目前 Kubeflow 所缺乏之種種都是阻礙企業(yè)和開發(fā)者真正將 AI 模型、應(yīng)用、軟件能迅速進行開發(fā)并上線生產(chǎn)的原因所在。他們繼續(xù)介紹了才云機器學(xué)習(xí)平臺 Caicloud Clever 是如何從數(shù)據(jù)管理、打標(biāo)系統(tǒng)、批處理作業(yè)和可視化代碼編輯等環(huán)節(jié)來補齊 Kubeflow 現(xiàn)有尚存缺失的功能環(huán)節(jié)。他們表示,在不久的將來,才云將把這些功能盡力推向 Kubeflow 開源版本。

 

展示劇場(Demo Theatre):Caicloud Clever + Compass 

在11月14日下午的展示劇場活動中,才云 Caicloud 研發(fā)副總裁肖勤從中國當(dāng)今企業(yè)需求出發(fā),以多年實戰(zhàn)經(jīng)驗闡述才云 Caicloud 產(chǎn)品為企業(yè)帶來的便利。Caicloud Compass 深度整合 Kubernetes,為用戶提供以多集群、多租戶為核心的資源管理能力;降低企業(yè)運維成本、時間成本,助力企業(yè)搭建功能完備、界面易用、性能卓越的容器平臺。

從企業(yè)角度來看,容器化改造對于關(guān)鍵的業(yè)務(wù)交付效率、基礎(chǔ)設(shè)施資源利用率普遍會帶來很好的收益,尤其是對交付效率和資源成本更為關(guān)注的輕資產(chǎn)型業(yè)務(wù),這也是為何容器技術(shù)得到廣泛關(guān)注與應(yīng)用的主要原因。而相對而言,容器化改造所帶來的問題則可以通過引入一些工具與服務(wù)進行解決,比如在 Caicloud Clever 產(chǎn)品中,開源出來的云原生 CI/CD 引擎,可更好地優(yōu)化企業(yè)場景,支持 AI 工作流。

 

Session talk:《對 Kubeflow 上的機器學(xué)習(xí)工作負載做基準(zhǔn)測試》

機器學(xué)習(xí)、模型訓(xùn)練處于人工智能革命的前沿,我們相信機器學(xué)習(xí)將帶領(lǐng)我們進入通用 AI 時代。當(dāng) Kubernetes 與機器學(xué)習(xí)相遇,又會擦出什么樣的火花呢?我們知道在機器學(xué)習(xí)中,可預(yù)測性最為關(guān)鍵,只有更為精準(zhǔn)的預(yù)測性才能讓 Kubernetes+AI 操作絲毫不差。

此次,才云 Caicloud 工程師高策與 Cisco 高級工程師黃昕元聯(lián)手,以《對 Kubeflow 上的機器學(xué)習(xí)工作負載做基準(zhǔn)測試》為題,通過 TF CNN 基準(zhǔn)測試工具為我們實際介紹了在機器學(xué)習(xí)中引入 Kubernetes  對于訓(xùn)練速度的影響以及在 Kubernetes 上的 ML 工作量的性能特征。

演講人高策提到“證明在 Kubernetes 上運行機器學(xué)習(xí)或者深度學(xué)習(xí)的工作負載,由虛擬化引入的在模型訓(xùn)練速度 overhead 可以接受”進一步證明了 Kubeflow 在生產(chǎn)環(huán)境使用的可能性。

 

才云 Caicloud 乘風(fēng)破浪,倍道而進

在本次大會中,才云對云計算和智能云平臺落地方案多次發(fā)聲。在一份 2017 年來自美國各行各業(yè)共 201 家企業(yè) IT 決策者的容器部署調(diào)研報告中,90% 的受訪者表示,與虛擬機相比,Kubernetes 具有可擴展性優(yōu)勢,近 75% 的公司正在使用 Kubernetes。如今在中國,利用 Kubernetes 編排也已成大趨勢作為國內(nèi)較早期 Kubernetes + ML 的實踐者,才云 Caicloud 將為推動中國云原生、智能應(yīng)用云原生化繼續(xù)砥礪前行。

消息來源:杭州才云科技有限公司
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
企業(yè)新聞室 更多
collection