上海2021年7月13日 /美通社/ -- 一份最新的全球《2021人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》調(diào)研報(bào)告顯示:2021年,53%的AI團(tuán)隊(duì)報(bào)告預(yù)算在50萬(wàn)美元到500萬(wàn)美元之間(而2020年約為三分之一),這個(gè)強(qiáng)烈的信號(hào)表明AI對(duì)于各行各業(yè)各種規(guī)模企業(yè)的成功變得越來越重要。這份由全球領(lǐng)先的AI數(shù)據(jù)服務(wù)平臺(tái)公司澳鵬(Appen)連續(xù)第7年發(fā)布的AI現(xiàn)狀年度報(bào)告還強(qiáng)調(diào),在2020年由于新冠疫情,各規(guī)模的企業(yè)都加速推進(jìn)了AI戰(zhàn)略,并且在2021年還將繼續(xù)保持這種勢(shì)頭。
在中國(guó),AI技術(shù)應(yīng)用開始全面覆蓋日常生活、科學(xué)研究、社會(huì)治理、商業(yè)創(chuàng)新和國(guó)家安全等經(jīng)濟(jì)社會(huì)的關(guān)鍵領(lǐng)域,以空前的廣度和深度推動(dòng)社會(huì)發(fā)展。由中國(guó)信通院與中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟推出的《2021人工智能核心產(chǎn)業(yè)白皮書》指出,工程技術(shù)正在引領(lǐng)AI產(chǎn)業(yè) -- 技術(shù)成本快速下降,同等算法水平所需計(jì)算量每8個(gè)月降低一倍、成本降低百倍,涌現(xiàn)了多樣化的研發(fā)和技術(shù)服務(wù)平臺(tái),這些說明AI正從技術(shù)理論突破過渡到工程化落地應(yīng)用的階段。
深度神經(jīng)網(wǎng)絡(luò)是當(dāng)前AI的主要模型,而監(jiān)督學(xué)習(xí)則是構(gòu)建(訓(xùn)練)深度神經(jīng)網(wǎng)絡(luò)的主要方法,監(jiān)督學(xué)習(xí)所需要的大規(guī)模、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集是AI產(chǎn)業(yè)發(fā)展的剛需,也是AI工業(yè)化的主要瓶頸之一。在中國(guó),正在大量涌現(xiàn)AI數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地,但當(dāng)前的AI數(shù)據(jù)標(biāo)注產(chǎn)業(yè)仍處于初級(jí)階段。澳鵬公司產(chǎn)品研發(fā)總監(jiān)張童皓表示,用戶對(duì)于數(shù)據(jù)規(guī)模、質(zhì)量和多樣性等要求越來越高,專業(yè)化數(shù)據(jù)服務(wù)平臺(tái)是AI工業(yè)化的突破口。
AI領(lǐng)先一步的秘訣
獲得大規(guī)模、高質(zhì)量的人工標(biāo)注數(shù)據(jù),這不僅是中國(guó)企業(yè)AI實(shí)踐成功和AI工業(yè)化的關(guān)鍵,在全球也是類似的剛需。無論從全球還是中國(guó)市場(chǎng)來說,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商都是AI工業(yè)化領(lǐng)先一步的關(guān)鍵。澳鵬《2021人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》調(diào)研報(bào)告指出,獲取足夠的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)來部署AI是各種規(guī)模企業(yè)成功的重大障礙,而全球絕大多數(shù)企業(yè)都在某種程度上采用了專業(yè)數(shù)據(jù)供應(yīng)商 -- 這反映了數(shù)據(jù)采集、準(zhǔn)備和管理是AI面臨的首要挑戰(zhàn)。
根據(jù)澳鵬的調(diào)研,使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)表示他們?cè)贏I部署方面領(lǐng)先于其他企業(yè)的可能性要高1.5倍,而落后的可能性要低4倍,也就是說使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)部署了更多的AI項(xiàng)目,而且實(shí)現(xiàn)了更大的投資回報(bào)率。特別是,澳鵬發(fā)現(xiàn)使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)更有可能將AI部署到生產(chǎn)環(huán)境。
此外,AI部署是一個(gè)持續(xù)的過程,而不是一勞永逸。去年,80%的被調(diào)研企業(yè)至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受訪者表示至少每月更新一次模型,高于 2020年的45%。而與較小的企業(yè)相比,大型企業(yè)更有可能更新AI模型,至少每季度更新一次的比例為91%。其中,使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)最有可能每月更新其模型。
就中國(guó)市場(chǎng)來說,以數(shù)據(jù)標(biāo)注為代表的專業(yè)數(shù)據(jù)服務(wù)行業(yè)才剛剛起步,相關(guān)技術(shù)發(fā)展程度低,屬于勞動(dòng)力密集型行業(yè),而且該行業(yè)缺乏大型專業(yè)數(shù)據(jù)供應(yīng)商和服務(wù)商,行業(yè)以中小企業(yè)為主,呈現(xiàn)高度的競(jìng)爭(zhēng)狀態(tài)。在另一方面,數(shù)據(jù)標(biāo)注正從簡(jiǎn)單、重復(fù)的拉框標(biāo)注向精細(xì)化方向發(fā)展,也就是說數(shù)據(jù)標(biāo)注行業(yè)正從簡(jiǎn)單的勞動(dòng)力密集型向?qū)I(yè)型數(shù)據(jù)服務(wù)過渡。
AI數(shù)據(jù)服務(wù)專業(yè)化
當(dāng)前,中國(guó)的AI行業(yè)和AI應(yīng)用正在高速發(fā)展,相應(yīng)帶動(dòng)了AI數(shù)據(jù)標(biāo)注行業(yè)的快速成長(zhǎng)。特別是AI用戶對(duì)于AI數(shù)據(jù)標(biāo)注質(zhì)量的要求越來越高、越來越精細(xì)化和專業(yè)化,諸如自動(dòng)駕駛、工業(yè)制造等智能應(yīng)用場(chǎng)景越來越復(fù)雜,高質(zhì)量、精細(xì)化的標(biāo)注數(shù)據(jù)將直接影響算法模型的效果。
張童皓在加入澳鵬之前供職于人工智能視覺公司,再之前在攜程和e-Bay都從事過大數(shù)據(jù)和數(shù)據(jù)智能相關(guān)產(chǎn)品的研發(fā)工作。張童皓介紹,自2015年國(guó)內(nèi)AI行業(yè)掀起新一輪熱潮以來,用戶對(duì)于AI訓(xùn)練數(shù)據(jù)的要求越來越高。以圖像類項(xiàng)目為例,由于支持高清圖像設(shè)備的大量出現(xiàn)、流媒體的普及等,相應(yīng)對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量要求水漲船高,例如對(duì)圖像分割任務(wù)就要求標(biāo)注打點(diǎn)的位置與實(shí)際像素之間的偏離不超過1到3個(gè)像素,對(duì)語(yǔ)音的切分要在毫秒級(jí)且前后兩段不能有重疊或空隙。
除了要求更高質(zhì)量的訓(xùn)練數(shù)據(jù)外,由于深度神經(jīng)網(wǎng)絡(luò)的模型效果與訓(xùn)練數(shù)據(jù)的規(guī)模呈正相關(guān)性,當(dāng)前很多客戶不僅需要海量的高質(zhì)量訓(xùn)練數(shù)據(jù),而且還要覆蓋更多的場(chǎng)景,也就是對(duì)同一個(gè)場(chǎng)景提出不同的數(shù)據(jù)標(biāo)注要求。再加上很多AI場(chǎng)景都仍屬于探索階段、場(chǎng)景需求多變,例如智能駕駛從早期的目標(biāo)跟蹤到后來的遮擋、連續(xù)性等出現(xiàn)了不同的訴求,因此不同團(tuán)隊(duì)需要標(biāo)注不同的數(shù)據(jù)屬性,很容易出現(xiàn)一個(gè)圖像數(shù)據(jù)集卻有多種不同標(biāo)注要求的情況。當(dāng)然,在AI模型生命周期的不同研發(fā)階段,也可能提出完全不同的數(shù)據(jù)標(biāo)注要求。這是由于AI模型在迭代的過程中,需要用數(shù)據(jù)進(jìn)行模型訓(xùn)練和效果驗(yàn)證,如果模型效果不理想就需要調(diào)整方向,這就意味著新一輪的數(shù)據(jù)標(biāo)注處理。
此外,由于數(shù)據(jù)合規(guī)性和隱私保護(hù)的要求越來越高,純?cè)贫说臄?shù)據(jù)標(biāo)注平臺(tái)和服務(wù)就無法全部滿足企業(yè)用戶要求,這就要求私有化部署的數(shù)據(jù)標(biāo)注平臺(tái)和眾包管理平臺(tái)。不過,私有化部署固然能夠更好的保障數(shù)據(jù)安全,但其部署和維護(hù)成本較高,這也帶來了相應(yīng)的挑戰(zhàn)。
突破AI工業(yè)化瓶頸
專業(yè)化的AI訓(xùn)練數(shù)據(jù)標(biāo)注平臺(tái)及眾包管理平臺(tái)是當(dāng)前中國(guó)AI工業(yè)化瓶頸的重要突破口之一,這也是澳鵬(Appen)進(jìn)入中國(guó)市場(chǎng)的重要原因。澳鵬迄今已經(jīng)有25年的歷史,擁有業(yè)內(nèi)先進(jìn)的人工智能輔助數(shù)據(jù)標(biāo)注平臺(tái)和一體化AI數(shù)據(jù)及資源管理平臺(tái),以及全球100多萬(wàn)名技能嫻熟的眾包資源 -- 來自全球170多個(gè)國(guó)家和70,000個(gè)地區(qū),支持235多種語(yǔ)言和方言。澳鵬中國(guó)團(tuán)隊(duì)從2019年就開始就重新構(gòu)建面向中國(guó)市場(chǎng)的AI數(shù)據(jù)標(biāo)注平臺(tái)、相應(yīng)的工具以及眾包資源渠道和管理平臺(tái),2021年澳鵬大中華區(qū)正式成立并獨(dú)立運(yùn)作。
作為全球領(lǐng)先的AI訓(xùn)練數(shù)據(jù)服務(wù)提供商,澳鵬的拳頭產(chǎn)品和服務(wù)就是數(shù)據(jù)標(biāo)注平臺(tái)和眾包資源。針對(duì)中國(guó)市場(chǎng),澳鵬中國(guó)研發(fā)中心借鑒公司在海外的實(shí)戰(zhàn)經(jīng)驗(yàn),重新獨(dú)立開發(fā)了中國(guó)版本的數(shù)據(jù)服務(wù)平臺(tái)。張童皓強(qiáng)調(diào),之所以選擇重新開發(fā)中國(guó)市場(chǎng)的數(shù)據(jù)標(biāo)注平臺(tái)版本,這一方面是針對(duì)中國(guó)客戶的用戶習(xí)慣與特色需求,另一方面是切合中國(guó)市場(chǎng)的數(shù)據(jù)監(jiān)管和法規(guī)遵從要求。例如,澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)的公有云版就部署在國(guó)內(nèi),完全符合中國(guó)企業(yè)用戶對(duì)數(shù)據(jù)安全的要求。
澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)共有三大功能:資源管理、項(xiàng)目管理和標(biāo)注工具箱。其中,資源管理部分對(duì)接了澳鵬全渠道資源,包括簽約供應(yīng)商以及眾包人員和澳鵬在無錫和大連的內(nèi)部標(biāo)注中心團(tuán)隊(duì);項(xiàng)目管理部分,作為一家綜合性數(shù)據(jù)服務(wù)公司,澳鵬平臺(tái)提供了項(xiàng)目配置和管理、工作流配置、數(shù)據(jù)資源分配和質(zhì)檢等功能;標(biāo)注工具箱方面,支持視頻、圖像和音頻的標(biāo)注和轉(zhuǎn)錄、文本標(biāo)注與翻譯,全覆蓋文本、音頻、2D和3D圖像等,還提供了智能輔助標(biāo)注工具。
數(shù)據(jù)標(biāo)注是一個(gè)復(fù)雜的系統(tǒng)工程,由標(biāo)注員和質(zhì)檢員一起協(xié)同工作。在這個(gè)協(xié)同的過程中,有數(shù)據(jù)的提交和打回等復(fù)雜操作。此外,澳鵬作為一家綜合性專業(yè)數(shù)據(jù)服務(wù)公司,平臺(tái)上往往存在多個(gè)并行任務(wù),任務(wù)屬性各不相同,有的要求流轉(zhuǎn)非??臁⒂械膯螚l數(shù)據(jù)工作時(shí)間很長(zhǎng),項(xiàng)目組規(guī)模從幾十人到上萬(wàn)不等,因此澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)選擇了開源的分布式消息隊(duì)列Pulsar作為底層基礎(chǔ)架構(gòu)。Pulsar被視為下一代企業(yè)級(jí)分布式消息系統(tǒng),是Kafka的替代型技術(shù),其特點(diǎn)包括多租戶、低延遲、讀寫分離、跨地域復(fù)制、快速擴(kuò)容、靈活容錯(cuò)等特性。
張童皓強(qiáng)調(diào),較前沿的技術(shù)架構(gòu)給平臺(tái)帶來了吞吐性能方面的競(jìng)爭(zhēng)優(yōu)勢(shì),除此以外,澳鵬全球眾包資源的對(duì)接也是其獨(dú)有優(yōu)勢(shì),而即使是在國(guó)內(nèi)也有獨(dú)到的眾包資源 -- 3000人規(guī)模的中文專業(yè)醫(yī)學(xué)數(shù)據(jù)標(biāo)注團(tuán)隊(duì),都具有臨床執(zhí)業(yè)資格和豐富醫(yī)學(xué)項(xiàng)目經(jīng)驗(yàn),可對(duì)醫(yī)學(xué)影像和問答進(jìn)行高效標(biāo)注。
自研專業(yè)化數(shù)據(jù)標(biāo)注平臺(tái)
專業(yè)化數(shù)據(jù)標(biāo)注平臺(tái)是數(shù)據(jù)標(biāo)注行業(yè)的核心競(jìng)爭(zhēng)力,也是AI工業(yè)化的關(guān)鍵平臺(tái)之一。在全球,具備專業(yè)化數(shù)據(jù)標(biāo)注平臺(tái)及其能力的數(shù)據(jù)服務(wù)商屈指可數(shù),澳鵬就是其中之一。隨著澳鵬進(jìn)入中國(guó)市場(chǎng),也將專業(yè)化數(shù)據(jù)標(biāo)注平臺(tái)的實(shí)踐帶入中國(guó)市場(chǎng),由澳鵬中國(guó)研發(fā)中心全自研的澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)是一個(gè)國(guó)產(chǎn)化的數(shù)據(jù)標(biāo)注平臺(tái),該平臺(tái)定位于全流程一站式人機(jī)協(xié)同高質(zhì)量數(shù)據(jù)平臺(tái),具備從數(shù)據(jù)需求提出到策略制定、數(shù)據(jù)收集、高精度標(biāo)注/分類、數(shù)據(jù)分析和數(shù)據(jù)服務(wù),直到數(shù)據(jù)全量交付的核心場(chǎng)景功能。
張童皓介紹,澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)具有多種獨(dú)到的專業(yè)技術(shù)。其中的標(biāo)注工具箱在多語(yǔ)言和復(fù)雜圖像處理方面極具競(jìng)爭(zhēng)力:圖像語(yǔ)義分割技術(shù),可以在保證像素級(jí)精度同時(shí),實(shí)現(xiàn)10分鐘處理一張圖的高速處理;隨著2D圖像的視頻全結(jié)構(gòu)化趨勢(shì),澳鵬平臺(tái)可以同時(shí)識(shí)別視頻中的多類型目標(biāo),可進(jìn)行點(diǎn)、線、框和多邊型融合的復(fù)雜標(biāo)注而且支持連續(xù)幀,而傳統(tǒng)工具僅為單模式單幀;在3D圖像處理方面,由于3D圖像數(shù)據(jù)難于理解以及查看不便(即3D空間中的點(diǎn)狀物密集聚集在一起形成的3D點(diǎn)云),澳鵬投入了大量研發(fā)資源,開發(fā)了拉框標(biāo)注和語(yǔ)義分割等一整套的標(biāo)注工具,其中拉框標(biāo)注支持2D&3D融合標(biāo)注、自動(dòng)貼合、連續(xù)幀跟蹤、可定義對(duì)象實(shí)例關(guān)系、高度集成質(zhì)檢和交付流程等,而最具特色的2D&3D融合標(biāo)注可將3D物體映射到2D圖像中進(jìn)行關(guān)聯(lián)。
澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)還提供了:數(shù)據(jù)有效性驗(yàn)證規(guī)則配置功能,例如一輛車消失了多長(zhǎng)時(shí)間就被視為數(shù)據(jù)異常,可及時(shí)提醒標(biāo)注員或質(zhì)檢員進(jìn)行糾正;在數(shù)據(jù)驗(yàn)收方面,為客戶提供了最低粒度驗(yàn)收或打回,即不是對(duì)一整張圖進(jìn)行驗(yàn)收或打回,而是對(duì)其中的一個(gè)框或一個(gè)點(diǎn)進(jìn)行精準(zhǔn)的驗(yàn)收和打回,這樣標(biāo)注員就可以直接對(duì)被打回的問題數(shù)據(jù)進(jìn)行修正;澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)的標(biāo)注工具可實(shí)現(xiàn)99.9%的準(zhǔn)確率,可達(dá)到5分鐘一張、1秒一幀極速質(zhì)檢,在交互、超大數(shù)據(jù)加載、實(shí)時(shí)切幀進(jìn)行渲染等方面都達(dá)到了行業(yè)第一。
在澳鵬中國(guó)數(shù)據(jù)標(biāo)注工具底層有一個(gè)通用的技術(shù)組件,這就是模板引擎。開發(fā)模板引擎的目的,在于澳鵬是一家綜合數(shù)據(jù)服務(wù)提供商,支持多家客戶并行并發(fā)多種標(biāo)注任務(wù),因此通過模板引擎讓內(nèi)部團(tuán)隊(duì)可以簡(jiǎn)單編寫腳本代碼后就能定制化不同標(biāo)注工具,以支持不同客戶的不同標(biāo)注任務(wù)。
澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)也可以被私有化部署到企業(yè)內(nèi)部,因此對(duì)于企業(yè)客戶來說,該平臺(tái)還提供了多種企業(yè)級(jí)能力,包括靈活的工作流配置、多資源組合管理、多種部署方式等。在靈活的工作流配置方面,企業(yè)的項(xiàng)目經(jīng)理通過選項(xiàng)勾選,就可以靈活配置不同的工作流,實(shí)現(xiàn)不同的數(shù)據(jù)流轉(zhuǎn)策略和流程。例如,有的文本標(biāo)注項(xiàng)目,單條數(shù)據(jù)處理的速度非常快,就可以配置為讓標(biāo)注員一次領(lǐng)取多條數(shù)據(jù);有的翻譯標(biāo)注項(xiàng)目,當(dāng)標(biāo)注時(shí)出現(xiàn)錯(cuò)別字時(shí),就可以配置為質(zhì)檢員直接修改而無須打回,這樣就避免了反復(fù)提交數(shù)據(jù)的時(shí)間浪費(fèi);而對(duì)于3D點(diǎn)云標(biāo)注項(xiàng)目,一條圖像數(shù)據(jù)可達(dá)300多幀,標(biāo)注時(shí)間不僅非常長(zhǎng)而且需要處理完成后馬上提交質(zhì)檢以及及時(shí)修正問題。
在多資源組合管理方面,澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)可以讓企業(yè)同時(shí)配置管理內(nèi)部的標(biāo)注團(tuán)隊(duì)和外部的供應(yīng)商及眾包資源。在多種部署方式方面,澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)支持SaaS、私有化部署、混合云方式等,可實(shí)現(xiàn)從標(biāo)注員向客戶提交數(shù)據(jù)文件全程不經(jīng)由澳鵬中國(guó)的服務(wù)器,通過物理切割而最大限度保障企業(yè)數(shù)據(jù)的隱私與安全。澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)還支持白名單、后臺(tái)日志審計(jì)等運(yùn)營(yíng)方式,從而在大幅縮減企業(yè)服務(wù)器運(yùn)營(yíng)成本的同時(shí),加速項(xiàng)目上線時(shí)間,達(dá)到兼顧安全與效率的項(xiàng)目運(yùn)營(yíng)優(yōu)化。
張童皓強(qiáng)調(diào)澳鵬中國(guó)數(shù)據(jù)標(biāo)注平臺(tái)作為國(guó)產(chǎn)自研的數(shù)據(jù)標(biāo)注平臺(tái),還研發(fā)了很多獨(dú)有的數(shù)據(jù)標(biāo)注能力,包括3D點(diǎn)云車道線自動(dòng)識(shí)別、專業(yè)的ASR智能語(yǔ)音識(shí)別引擎、AI輔助標(biāo)注等,不僅克服了行業(yè)中的難點(diǎn)和挑戰(zhàn),還大幅提升了標(biāo)注和審核的效率和生產(chǎn)力。作為一家服務(wù)于AI產(chǎn)業(yè)和項(xiàng)目的數(shù)據(jù)服務(wù)商,澳鵬在AI倫理道德、法規(guī)遵從等方面都有專門的策略、技術(shù)和管理機(jī)制,確保客戶的項(xiàng)目在最大程度上避免這些方面的問題。
總結(jié)而言:以澳鵬為代表的專業(yè)數(shù)據(jù)標(biāo)注服務(wù)商及其國(guó)產(chǎn)自研專業(yè)數(shù)據(jù)標(biāo)注平臺(tái),是AI工業(yè)化的一大標(biāo)志。這代表了AI數(shù)據(jù)標(biāo)注服務(wù)正從簡(jiǎn)單的勞動(dòng)力密集型向?qū)I(yè)數(shù)據(jù)服務(wù)和工業(yè)化組織過渡,而高質(zhì)量、大規(guī)模、多樣化的標(biāo)注數(shù)據(jù)及其工業(yè)化生產(chǎn),將進(jìn)一步推動(dòng)AI工業(yè)化的早日到來。屆時(shí),AI技術(shù)無疑將更廣泛和更深刻的影響社會(huì)與經(jīng)濟(jì)發(fā)展。
《人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》白皮書
更多詳情,請(qǐng)至澳鵬Appen官網(wǎng)下載。
(*作者:云科技時(shí)代 吳寧川, 原文鏈接:https://mp.weixin.qq.com/s/9p2klq-VMOg_Iw1QOMBsGA)