上海2022年6月24日 /美通社/ -- 近期,有著25+年經(jīng)驗(yàn)的數(shù)據(jù)服務(wù)商澳鵬Appen,在不斷助力其自動(dòng)駕駛客戶構(gòu)建數(shù)據(jù)資產(chǎn)時(shí)發(fā)現(xiàn):如今,企業(yè)的數(shù)據(jù)科學(xué)和開發(fā)所需機(jī)器學(xué)習(xí) (ML) 模型的能力已經(jīng)成熟。然而,他們中的許多人開始意識(shí)到真正的挑戰(zhàn)在于整個(gè) AI 生命周期中的數(shù)據(jù)。
過去幾年,盡管自動(dòng)駕駛的技術(shù)迭代速度不斷加快,但商業(yè)化一直是橫亙?cè)谒凶詣?dòng)駕駛從業(yè)者面前的一座大山。而在商業(yè)化落地的階段中,自動(dòng)駕駛面臨的挑戰(zhàn)往往不是自動(dòng)駕駛技術(shù)本身,而是客戶要求自動(dòng)駕駛公司能夠快速適配各種車型的同時(shí),還要快速適配多種應(yīng)用場(chǎng)景。由此,自動(dòng)駕駛公司則需要更多數(shù)據(jù)燃料來不斷地進(jìn)行產(chǎn)品迭代。相應(yīng)地,行業(yè)對(duì)于數(shù)據(jù)標(biāo)注與處理的需求量也在水漲船高。
另一方面,隨著大算力智駕平臺(tái)在未來幾年的規(guī)?;涞匾约拜o助駕駛普及的加快,配套的車載傳感器市場(chǎng)也進(jìn)入了一個(gè)高增長周期。尤其是4D毫米波雷達(dá)以及激光雷達(dá)的搭載也正處于最關(guān)鍵的導(dǎo)入期,這帶來了一個(gè)全新的市場(chǎng):多傳感器感知的數(shù)據(jù)融合。此外,艙內(nèi)人機(jī)交互的體驗(yàn)升級(jí),也同樣需要數(shù)據(jù)迭代支持。這也再次表明,無論是在自動(dòng)駕駛還是輔助駕駛領(lǐng)域,數(shù)據(jù)標(biāo)注的需求量都將迎來增長的高峰期。
數(shù)據(jù)生產(chǎn)瓶頸
眾所周知,自動(dòng)駕駛想要真正落地,就需要大量高質(zhì)量的、安全無偏差的數(shù)據(jù)。與此同時(shí),下游企業(yè)對(duì)數(shù)據(jù)也在不斷地提出更高的要求。獲取低成本、高質(zhì)量的數(shù)據(jù)依然是當(dāng)前行業(yè)發(fā)展的一大痛點(diǎn)。普遍而言,企業(yè)并沒有過多的資源投入數(shù)據(jù)標(biāo)注工作。因此,全球絕大多數(shù)企業(yè)都在某種程度上采用了專業(yè)數(shù)據(jù)供應(yīng)商的服務(wù)——這也意味著數(shù)據(jù)采集、分析處理和管理是AI面臨的首要挑戰(zhàn)。
另一方面,在與諸多客戶對(duì)接的過程中,數(shù)據(jù)標(biāo)注公司也逐漸發(fā)現(xiàn),自動(dòng)駕駛公司對(duì)于數(shù)據(jù)服務(wù)強(qiáng)有力的訴求便是隨著算法的調(diào)整,標(biāo)注公司可以實(shí)現(xiàn)靈活配合。例如,隨著算法的更迭與進(jìn)步,下游客戶對(duì)于數(shù)據(jù)標(biāo)注的準(zhǔn)確度會(huì)由原來的90%提升至95%,甚至99.99%。
此外,自動(dòng)駕駛在不同細(xì)分場(chǎng)景的快速開拓意味著下游客戶的研發(fā)勢(shì)必會(huì)出現(xiàn)波峰與波谷,這也就需要數(shù)據(jù)標(biāo)注公司提供持續(xù)穩(wěn)定的產(chǎn)能來應(yīng)對(duì)客戶的彈性需求。而對(duì)于多數(shù)數(shù)據(jù)服務(wù)商而言,這勢(shì)必帶來了更高難度的挑戰(zhàn)。
針對(duì)上述痛點(diǎn),業(yè)內(nèi)有著超過25年歷史的人工智能訓(xùn)練數(shù)據(jù)服務(wù)的"尖子生"——澳鵬Appen給出了自己的答案:由于深度學(xué)習(xí)算法是算力與大數(shù)據(jù)的產(chǎn)物,因此深度學(xué)習(xí)算法模型的工業(yè)化優(yōu)化,也就需要AI數(shù)據(jù)供應(yīng)鏈的工業(yè)化。
"工業(yè)化即以自動(dòng)化、標(biāo)準(zhǔn)化和規(guī)模化可擴(kuò)展方式為標(biāo)志。此前,AI標(biāo)注數(shù)據(jù)的供應(yīng)基本以作坊式為主,難以保證AI標(biāo)注數(shù)據(jù)的高質(zhì)量供給,接下來AI標(biāo)注數(shù)據(jù)的供給將迎來工業(yè)化爆發(fā)。"澳鵬數(shù)據(jù)科技(上海)有限公司產(chǎn)品及研發(fā)總監(jiān)錢程表示。
錢程介紹,在數(shù)據(jù)的整個(gè)生產(chǎn)環(huán)節(jié)中,數(shù)據(jù)獲取、數(shù)據(jù)準(zhǔn)備和模型評(píng)估最為費(fèi)力并涉及海量數(shù)據(jù)。如果處理不當(dāng),可能會(huì)導(dǎo)致項(xiàng)目質(zhì)量問題和項(xiàng)目啟動(dòng)延遲。AI從業(yè)者將80%以上的時(shí)間都花在數(shù)據(jù)管理上,因此他們需要最佳的工具和服務(wù)來完成這一過程中極其關(guān)鍵的部分。澳鵬專注研究這三個(gè)階段,并與專業(yè)從事模型訓(xùn)練和部署的供應(yīng)商建立戰(zhàn)略合作伙伴關(guān)系。
澳鵬數(shù)據(jù)科技(上海)有限公司銷售副總裁馬冀表示:"毫米波和4D代表了未來的標(biāo)注方向,對(duì)服務(wù)商的標(biāo)注能力以及研發(fā)能力都有很高的要求。澳鵬會(huì)陪伴客戶共同探索和發(fā)展高精尖標(biāo)注訴求。目前我們已經(jīng)有毫米波、4D點(diǎn)云標(biāo)注等項(xiàng)目正在和客戶積極研討中,期待在今年第三季度會(huì)有不錯(cuò)的進(jìn)展。"
最大難題有解
此外,在自動(dòng)駕駛領(lǐng)域,僅僅根據(jù)已知的場(chǎng)景、障礙和潛在事故原因來部署聯(lián)網(wǎng)自動(dòng)駕駛車輛還遠(yuǎn)遠(yuǎn)不夠。誰能夠?qū)崿F(xiàn)準(zhǔn)確預(yù)測(cè),并對(duì)不尋常的情況做出反應(yīng),將是接下來自動(dòng)駕駛技術(shù)落地的爭奪焦點(diǎn)。
如今業(yè)界推動(dòng)的"數(shù)據(jù)驅(qū)動(dòng)閉環(huán)迭代",都在強(qiáng)化對(duì)于不確定性事件的預(yù)測(cè)和規(guī)避、學(xué)習(xí)能力。當(dāng)下的一個(gè)行業(yè)共識(shí)是:在數(shù)據(jù)方面,自動(dòng)駕駛面臨的最大痛點(diǎn)便是corner case的積累。然而,由于不同公司數(shù)據(jù)采集車的傳感器安裝位置、采集標(biāo)準(zhǔn)各有不同,下游公司通常只能親自下場(chǎng)采集各種極限工況,"一步一個(gè)腳印地"完成更多的數(shù)據(jù)積累。
針對(duì)上述問題,澳鵬提出了"合成數(shù)據(jù)"解決方案,可以模擬不同的場(chǎng)景并安全高效地完成數(shù)據(jù)采集,實(shí)現(xiàn)對(duì)于極限工況的有效補(bǔ)充。其具體優(yōu)勢(shì)為:改進(jìn)模型的可靠性、比"真實(shí)"數(shù)據(jù)獲取更快、可用于邊緣案例的補(bǔ)充,并可有效保護(hù)用戶隱私安全。
此前,澳鵬Appen曾收購人工智能數(shù)據(jù)平臺(tái)Mindtech的少數(shù)股權(quán),雙方將開展深度合作,提升為客戶提供合成數(shù)據(jù)的能力。
"我們對(duì)與澳鵬的戰(zhàn)略合作感到興奮,"Mindtech 首席執(zhí)行官史蒂夫哈里斯分享道。"這將使更多客戶能夠使用高質(zhì)量、精確注釋的合成數(shù)據(jù)快速訓(xùn)練他們的人工智能系統(tǒng),同時(shí)補(bǔ)充 Appen 現(xiàn)有的真實(shí)世界數(shù)據(jù)收集、管理和注釋產(chǎn)品。通過合作,我們將加速人工智能系統(tǒng)的開發(fā),更好地了解人類如何與彼此以及周圍的世界互動(dòng)。"
迎接數(shù)據(jù)服務(wù)的2.0時(shí)代
總結(jié)這家"尖子生"的成績,作為澳大利亞證交所上市的科技公司,澳鵬Appen已擁有25+年行業(yè)積累與廣泛的全球客戶基礎(chǔ)。
在服務(wù)方面,公司擁有一支過硬的數(shù)據(jù)科學(xué)家團(tuán)隊(duì),可以在服務(wù)企業(yè)之前了解場(chǎng)景,設(shè)計(jì)如何采集數(shù)據(jù)/標(biāo)注數(shù)據(jù)能真正幫助到企業(yè)成功訓(xùn)練模型, 以結(jié)果導(dǎo)向。
此外,澳鵬還擁有百萬級(jí)的眾包資源,能夠提供全球數(shù)據(jù)采集和標(biāo)注服務(wù)。其在自動(dòng)駕駛領(lǐng)域月收入額可達(dá)上千萬以上,在中國市場(chǎng)覆蓋30+個(gè)自動(dòng)駕駛客戶。
在澳鵬看來,數(shù)據(jù)服務(wù)賦能行業(yè)的關(guān)鍵就在于整合資源,并與客戶深度綁定。例如提供技術(shù)接口,讓客戶參與到標(biāo)注過程中,可實(shí)時(shí)反饋(API集成),或?qū)ψ杂衅脚_(tái)的功能進(jìn)行改造和匹配;幫助客戶將重心放在模型開發(fā)上,降低數(shù)據(jù)成本,提升算法效率。
最重要的是,公司擁有完整的數(shù)據(jù)流轉(zhuǎn)系統(tǒng),可以不斷迭代優(yōu)化數(shù)據(jù)與服務(wù)工具,并以低成本、高靈活的服務(wù)配合客戶需求。可以說,在自動(dòng)駕駛領(lǐng)域,澳鵬高精度高性能的自動(dòng)駕駛工具套裝也是其為客戶構(gòu)筑海量數(shù)據(jù)資產(chǎn)的利器,這是澳鵬的核心優(yōu)勢(shì)之一,也是公司迎接"數(shù)據(jù)服務(wù)2.0時(shí)代"的不二法門。
何謂"數(shù)據(jù)服務(wù)2.0時(shí)代"?過去,數(shù)據(jù)標(biāo)注多數(shù)只服務(wù)于自動(dòng)駕駛POC項(xiàng)目,屬于"一錘子買賣"。而在2.0時(shí)代,軟件定義汽車帶來了對(duì)功能迭代升級(jí)頻率的高要求,背后則是每家車企積累的數(shù)據(jù)資產(chǎn)的價(jià)值競爭,并直接影響汽車智能化的功能優(yōu)化和體驗(yàn)升級(jí)能力。
據(jù)高工智能汽車研究院監(jiān)測(cè)數(shù)據(jù)顯示,2021年中國市場(chǎng)(不含進(jìn)出口)乘用車前裝標(biāo)配搭載OTA功能上險(xiǎn)量為748.41萬輛,同比增長65.99%,前裝搭載率已經(jīng)提升至36.7%。而軟件召回也已經(jīng)成為目前汽車召回的主要因素之一。
相應(yīng)的,從整體行業(yè)來看,數(shù)據(jù)標(biāo)注正從簡單、重復(fù)的拉框標(biāo)注向精細(xì)化方向發(fā)展,也就是說數(shù)據(jù)標(biāo)注行業(yè)正從簡單的勞動(dòng)力密集型向?qū)I(yè)型數(shù)據(jù)服務(wù)過渡。
以澳鵬自主研發(fā)的人工智能輔助數(shù)據(jù)標(biāo)注平臺(tái)MatrixGo為例,可支持像素級(jí)語義分割、2D圖像復(fù)合標(biāo)注、3D點(diǎn)云拉框及語義分割等功能;
采標(biāo)一體的任務(wù)能夠?qū)崿F(xiàn)采集-質(zhì)檢-標(biāo)注-質(zhì)檢-客戶驗(yàn)收的雙向協(xié)同流程,讓整個(gè)數(shù)據(jù)生產(chǎn)線上的各個(gè)環(huán)節(jié)實(shí)現(xiàn)無縫銜接;內(nèi)置的多輪質(zhì)檢模塊可以按需配置,滿足不同復(fù)雜度項(xiàng)目的需求;2D圖像復(fù)合標(biāo)注是全結(jié)構(gòu)化的模型訓(xùn)練利器,支持點(diǎn)、線、框、多邊型融合標(biāo)注(常見工具是單模式的,點(diǎn)、線or折線,多邊形)與連續(xù)幀;
另外,此工具還支持像素級(jí)語義分割,可將圖片中目標(biāo)對(duì)象實(shí)例標(biāo)記出來,并保證像素級(jí)的質(zhì)量。其中豐富的可配置選項(xiàng)可靈活進(jìn)行ID處理,實(shí)戰(zhàn)中可以做到10分鐘/張圖。
錢程介紹,澳鵬利用ML輔助標(biāo)注等技術(shù)手段提高數(shù)據(jù)質(zhì)量,通過預(yù)識(shí)別系統(tǒng),讓算法先進(jìn)行預(yù)識(shí)別,再根據(jù)結(jié)果進(jìn)行人為調(diào)整,最終在成本控制和質(zhì)量上實(shí)現(xiàn)顯著提升。
總體上,其標(biāo)注工具可實(shí)現(xiàn)99.9%的準(zhǔn)確率,并達(dá)到5分鐘一張、1秒一幀極速質(zhì)檢,在交互、超大數(shù)據(jù)加載、實(shí)時(shí)切幀進(jìn)行渲染等方面都達(dá)到了行業(yè)第一。
澳鵬Appen認(rèn)為,進(jìn)入數(shù)據(jù)服務(wù)2.0時(shí)代,有能力深度綁定汽車全生命周期、并提供完整且高質(zhì)量的數(shù)據(jù)供應(yīng)服務(wù),在行業(yè)轉(zhuǎn)型的當(dāng)下至關(guān)重要。