omniture

澳鵬Appen蔣孟杰:人工智能數(shù)據(jù)標(biāo)注與訓(xùn)練,是決定智能時(shí)代的第一步

深圳2021年5月26日 /美通社/ -- 近日,澳鵬Appen憑借業(yè)界高度認(rèn)可的“人工智能輔助數(shù)據(jù)標(biāo)注平臺”在2021第二屆深圳(國際)人工智能展上斬獲“優(yōu)秀產(chǎn)品獎(jiǎng)”?;顒?dòng)現(xiàn)場,澳鵬Appen(中國)高級研發(fā)總監(jiān)蔣孟杰接受CSDN記者鄧曉娟Carol的專訪。訪問原文如下:

澳鵬Appen(中國)高級研發(fā)總監(jiān)蔣孟杰接受CSDN記者專訪
澳鵬Appen(中國)高級研發(fā)總監(jiān)蔣孟杰接受CSDN記者專訪

2021年5月20日~23日,由深圳市科學(xué)技術(shù)協(xié)會(huì)、深圳市商務(wù)局、深圳市福田區(qū)人民政府共同指導(dǎo),深圳市科技開發(fā)交流中心、深圳市人工智能行業(yè)協(xié)會(huì)聯(lián)合主辦的2021第二屆深圳國際人工智能展開幕式暨智能制造創(chuàng)新高峰論壇在深圳會(huì)展中心(福田)圓滿舉行。

深圳市科協(xié)主席蔣宇揚(yáng)在大會(huì)致辭中指出:“人工智能既是引領(lǐng)未來的戰(zhàn)略性技術(shù),也是新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力”。誠然,在當(dāng)今社會(huì)發(fā)展中,人工智能技術(shù)所占據(jù)的地位已是舉足輕重。

#01 人工智能到底“智不智能”?

正如蒸汽時(shí)代的蒸汽機(jī)、電氣時(shí)代的發(fā)電機(jī)、信息時(shí)代的計(jì)算機(jī)和互聯(lián)網(wǎng),人工智能正在成為推動(dòng)人類進(jìn)入智能時(shí)代的決定性力量。

然而回溯過往,我們會(huì)發(fā)現(xiàn)熱門如人工智能技術(shù),在發(fā)展的過程中也未必“星途坦蕩”的。在人工智能歷史上曾出現(xiàn)過“三次高潮”:

  1. 上世紀(jì)50年代:神經(jīng)網(wǎng)絡(luò)浪潮
  2. 上世紀(jì)80年代:BP(Back Propagation)算法被提出,用于多層神經(jīng)網(wǎng)絡(luò)的參數(shù)計(jì)算,以解決非線性分類和學(xué)習(xí)的問題等研究成果
  3. 本世紀(jì)2010年代:深度學(xué)習(xí)的出現(xiàn)

在世紀(jì)50年代~80年代,由于許多應(yīng)用難題無法解決和基礎(chǔ)研究知識難以突破而沒有達(dá)到人們預(yù)期的成果和推進(jìn)。從起步-應(yīng)用-低迷-平穩(wěn)-蓬勃發(fā)展,人工智能的道路上充滿著未知的探索,道路曲折起伏。

如今,我們正處于信息時(shí)代到智能時(shí)代的過渡期中,人工智能作為主要的推動(dòng)因素,讓全球產(chǎn)業(yè)界充分意識到人工智能技術(shù)引領(lǐng)新一輪產(chǎn)業(yè)變革的重大意義,紛紛轉(zhuǎn)型發(fā)展。而“新基建”的提出與疫情的影響,讓2020年成為人工智能史上的一個(gè)重要拐點(diǎn)。如果說在2020年之前人工智能技術(shù)還在摸索著落地應(yīng)用場景,那么在2020年開始,人工智能已經(jīng)加速進(jìn)入人們的生活。

只是,在人工智能飛速發(fā)展的今天,人們的需求也不斷在上升。對于人工智能企業(yè)或轉(zhuǎn)型企業(yè)而言,如何跟上時(shí)代是首要考慮的問題。但落到群眾當(dāng)中,落到人們的衣食住行當(dāng)中,人工智能到底“智不智能”,才是人們所關(guān)注的重點(diǎn)。

企業(yè)想要把AI技術(shù)/產(chǎn)品真正落地,真正做出“好的人工智能”,首先不能讓AI技術(shù)/產(chǎn)品只停留在實(shí)驗(yàn)或原型階段,AI模型的高質(zhì)量訓(xùn)練是重中之重。

那么,AI模型如何才能得到高質(zhì)量訓(xùn)練?在AI項(xiàng)目部署的生命周期當(dāng)中,有哪些可優(yōu)化的地方?數(shù)據(jù)在這個(gè)過程中起到了哪些關(guān)鍵性作用?企業(yè)在轉(zhuǎn)型路上又該如何挑選數(shù)據(jù)平臺/相關(guān)服務(wù)商?帶著這些問題,CSDN記者對話了知名人工智能數(shù)據(jù)服務(wù)商澳鵬Appen的高級研發(fā)總監(jiān)蔣孟杰。

值得一提的是,澳鵬在2021第二屆深圳國際人工智能展開幕式暨智能制造創(chuàng)新高峰論壇中斬獲“優(yōu)秀產(chǎn)品獎(jiǎng)”,也曾連續(xù)六年入圍德勤高科技成長50強(qiáng)企業(yè)(澳大利亞)、維科杯·OFweek2020人工智能行業(yè)優(yōu)秀產(chǎn)品應(yīng)用獎(jiǎng)(澳鵬人工智能輔助數(shù)據(jù)標(biāo)注平臺)、CIAI 2020年度中國人工智能行業(yè)“十大創(chuàng)新力企業(yè)獎(jiǎng)”等獎(jiǎng)項(xiàng)。

GAIE2021第二屆深圳國際人工智能展 “優(yōu)秀產(chǎn)品獎(jiǎng)”
GAIE2021第二屆深圳國際人工智能展 “優(yōu)秀產(chǎn)品獎(jiǎng)”

這樣一個(gè)專注于人工智能數(shù)據(jù)標(biāo)注的行業(yè)領(lǐng)軍服務(wù)商,是如何用數(shù)據(jù)推動(dòng)人工智能技術(shù)與產(chǎn)品的?一起來聽聽蔣孟杰的真知灼見。

#02 “用AI的方式服務(wù)AI”

蔣孟杰在加入澳鵬之前,曾在國際知名電商公司eBay任職,主要專注于搜索引擎搜索算法領(lǐng)域。大約在11年前,也就是2010年互聯(lián)網(wǎng)蓬勃發(fā)展的階段,就與澳鵬合作利用人工審核商品和搜索關(guān)鍵字之間的相關(guān)性來做相關(guān)度算法以及線下算法評測平臺,在該領(lǐng)域有著豐富的經(jīng)驗(yàn)及思考。

2019年3月加入澳鵬后,蔣孟杰負(fù)責(zé)中國區(qū)技術(shù)團(tuán)隊(duì)的研發(fā)、及全球部分模塊研發(fā)等。他所帶領(lǐng)的團(tuán)隊(duì)致力于打造全流程的數(shù)據(jù)平臺,包含數(shù)據(jù)采集,數(shù)據(jù)標(biāo)注和數(shù)據(jù)管理。另外,針對成熟且復(fù)雜的場景開發(fā)更加高效的標(biāo)注工具,如自動(dòng)駕駛、人臉關(guān)鍵點(diǎn)、長語音轉(zhuǎn)寫等。

蔣孟杰表示,越來越多的企業(yè)正在走向AI的道路,與此同時(shí),對訓(xùn)練數(shù)據(jù)也有了更高的要求。AI模型想要真正落地,需要大量高質(zhì)量的、安全無偏差的數(shù)據(jù),澳鵬的目標(biāo)是幫助企業(yè)能夠把AI技術(shù)/產(chǎn)品真正的落地,,而不是只停留在實(shí)驗(yàn)或者原型階段,將采標(biāo)流程一體化。


深耕行業(yè)20多年澳鵬,在數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注的過程中,積累了大量的行業(yè)經(jīng)驗(yàn)和案例,同時(shí)也擁有了自己先進(jìn)的技術(shù)、資深的項(xiàng)目管理和標(biāo)注團(tuán)隊(duì),并且提出“用AI的方式服務(wù)AI”的理念。

澳鵬如今擁有一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì),一方面會(huì)在服務(wù)企業(yè)之前了解場景,設(shè)計(jì)如何采集數(shù)據(jù)/標(biāo)注數(shù)據(jù)能真正幫助到企業(yè)成功訓(xùn)練模型,以結(jié)果導(dǎo)向。另一方面也把AI技術(shù)應(yīng)用到整個(gè)服務(wù)的流程中。用AI模型進(jìn)行以下工作:

  1. 自動(dòng)篩選合格的眾包標(biāo)注員。澳鵬有超過百萬的眾包資源,當(dāng)有一個(gè)項(xiàng)目時(shí),如何從這個(gè)池子里找出最合適的標(biāo)注員?這個(gè)“合適”包含成本、質(zhì)量、交付周期等因素之間的權(quán)衡。澳鵬自身的匹配算法可以結(jié)合標(biāo)注員歷史標(biāo)注的技能, 以及他們提供的信息快速自動(dòng)匹配項(xiàng)目的需要。
  2. 輔助標(biāo)注。幫助標(biāo)注員提高效率。在數(shù)據(jù)標(biāo)注領(lǐng)域有大量手工的工作,甚至可以說傳統(tǒng)數(shù)據(jù)標(biāo)注幾乎100%都是手工標(biāo)注。而澳鵬有專門的數(shù)據(jù)科學(xué)家團(tuán)隊(duì),專門研究人機(jī)交互以及如何利用 AI 算法來進(jìn)行輔助做數(shù)據(jù)標(biāo)注,幫助客戶降低成本,提高 AI 模型的迭代速度。在自動(dòng)語音轉(zhuǎn)寫、OCR、自動(dòng)駕駛等領(lǐng)域發(fā)布的輔助標(biāo)注算法已達(dá)到50%以上到幾倍不等的效率提升。
  3. 半自動(dòng)質(zhì)檢。就像工廠生產(chǎn)線一樣,標(biāo)注過的數(shù)據(jù)是需要質(zhì)檢的。甚至有可能多輪質(zhì)檢。如果大量的糟糕的標(biāo)注數(shù)據(jù)提交質(zhì)檢,會(huì)毫無意義地浪費(fèi)質(zhì)檢員的時(shí)間。引入半自動(dòng)質(zhì)檢以后,可以配置大量檢查規(guī)則,比如小汽車要小于5米,長寬比不能太過分等數(shù)據(jù)之間的邏輯檢驗(yàn),另外也可以用質(zhì)檢算法通過一些衡量指標(biāo)進(jìn)行輔助質(zhì)檢。

澳鵬人工智能輔助數(shù)據(jù)標(biāo)注平臺-多輪質(zhì)檢
澳鵬人工智能輔助數(shù)據(jù)標(biāo)注平臺-多輪質(zhì)檢

#03 技術(shù)不能閉門造車

在人工智能數(shù)據(jù)標(biāo)注領(lǐng)域,純自動(dòng)化標(biāo)注是不現(xiàn)實(shí)的,邏輯上也不成立。“你用算法生成的數(shù)據(jù)去訓(xùn)練另一個(gè)算法,最完美的情況下,也就是訓(xùn)練出跟之前一模一樣的一個(gè)算法。”蔣孟杰說道。但也不能只做純手工標(biāo)注,傳統(tǒng)的數(shù)據(jù)標(biāo)注是個(gè)純?nèi)肆γ芗偷娜蝿?wù),對于技術(shù)從業(yè)者而言是非常誘人的領(lǐng)域,因?yàn)樯晕⒂幸稽c(diǎn)技術(shù)的引入,就能給企業(yè)降本增效。

在平臺的設(shè)計(jì)理念和系統(tǒng)架構(gòu)上,蔣孟杰有著自己的思考。業(yè)務(wù)在設(shè)計(jì)之初就引入AI中臺的概念, 圍繞著AI中臺為業(yè)務(wù)賦能,引入Apache Pulsar作為數(shù)據(jù)湖,圍繞這個(gè)核心組件設(shè)計(jì)了靈活的標(biāo)注任務(wù)的分發(fā)和工作流管理。因?yàn)闃I(yè)務(wù)數(shù)據(jù)都落地Pulsar里面,借助Pulsar的高吞吐量,可以多次重復(fù)高效得消費(fèi)這些數(shù)據(jù)進(jìn)行快速且松耦合得進(jìn)行業(yè)務(wù)擴(kuò)展,比如結(jié)合 Flink 做實(shí)時(shí)進(jìn)度/工作量/質(zhì)量的報(bào)表計(jì)算用來做項(xiàng)目管理,也可以對標(biāo)注員進(jìn)行畫像,可以實(shí)時(shí)進(jìn)行反欺詐監(jiān)測,另外也可以對在線標(biāo)注數(shù)據(jù)實(shí)現(xiàn)邊標(biāo)注邊訓(xùn)練,同時(shí)反過頭來輔助標(biāo)注等。

澳鵬在全球市場已經(jīng)累積了25+年的行業(yè)經(jīng)驗(yàn),進(jìn)入中國市場后,澳鵬借鑒了海外的平臺實(shí)踐,在中國獨(dú)立自主打造了適合國內(nèi)行業(yè)特點(diǎn)的高精度AI數(shù)據(jù)服務(wù)平臺。那么,中國區(qū)的技術(shù)和產(chǎn)品方面如何與其他地區(qū)并進(jìn)?迭代過程又是怎樣的?

蔣孟杰認(rèn)為,產(chǎn)品迭代一定要跟隨業(yè)務(wù)發(fā)展一起錨定的。在平臺設(shè)計(jì)和技術(shù)架構(gòu)搭建初期,事先做好技術(shù)的總體架構(gòu)設(shè)計(jì),在此基礎(chǔ)上做未來的發(fā)展規(guī)劃。同時(shí),要確保團(tuán)隊(duì)成員的目標(biāo)一致,再定期討論調(diào)整優(yōu)先級。在剛起步的時(shí)候,每個(gè)迭代只能完成MVP,非核心的功能會(huì)提供功能上的兼容支持,在真正的使用過程中,這些未被產(chǎn)品化的功能使用起來相當(dāng)痛苦,比如招人的時(shí)候,最開始的版本中先專注在標(biāo)注業(yè)務(wù)本身,如果要添加,標(biāo)注員就上傳一個(gè)Excel文件, 而沒有一個(gè)完整人員招募和審核流程。

令記者感到意外的是,澳鵬的技術(shù)團(tuán)隊(duì)并沒有閉門造車,關(guān)起門來自己解決問題。他們還擁有一支項(xiàng)目支持工程師團(tuán)隊(duì),所有當(dāng)下平臺滿足不了的功能,該團(tuán)隊(duì)就會(huì)準(zhǔn)備一次性的腳本和工具進(jìn)行處理。隨后,平臺一步步根據(jù)優(yōu)先級把手工處理的任務(wù)產(chǎn)品化,平臺發(fā)布一個(gè)版本后及時(shí)拿到反饋,然后在下一個(gè)版本中進(jìn)一步提升。所以,在與產(chǎn)品研發(fā)團(tuán)隊(duì)、項(xiàng)目管理團(tuán)隊(duì)、業(yè)務(wù)團(tuán)隊(duì)的緊密合作下,技術(shù)/產(chǎn)品迭代速度是相當(dāng)快的。

#04 人工智能數(shù)據(jù)與質(zhì)量決定上層建筑

如果說優(yōu)秀技術(shù)架構(gòu)與高效迭代是決定一家人工智能數(shù)據(jù)服務(wù)商是否站得穩(wěn)的關(guān)鍵,那么真正決定它是否走得更遠(yuǎn)的,就在于產(chǎn)品本身解決問題的能力到底有多強(qiáng)。

在這個(gè)問題上,蔣孟杰提出了一個(gè)關(guān)鍵點(diǎn):“AI項(xiàng)目部署生命周期”。

一般 AI 項(xiàng)目部署的生命周期會(huì)包含:數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)探索、模型開發(fā)、模型發(fā)布、定期監(jiān)控。

那么,數(shù)據(jù)在這個(gè)生命周期里扮演著怎樣的角色?澳鵬又解決了哪些問題?蔣孟杰描述數(shù)據(jù)的重要性時(shí)引用了Andrew Ng(吳恩達(dá),人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際最權(quán)威學(xué)者之一)的話:成功的 AI 部署, 80%是數(shù)據(jù)準(zhǔn)備(包括數(shù)據(jù)清洗/數(shù)據(jù)標(biāo)注等), 20%是花在模型開發(fā)上。而澳鵬在整個(gè)生命周期中幫助客戶解決數(shù)據(jù)采集,數(shù)據(jù)標(biāo)注, 模型發(fā)布后期監(jiān)控。

除此之外,數(shù)據(jù)的可用性質(zhì)量也是澳鵬服務(wù)的核心。蔣孟杰打了個(gè)比喻:“AI模型就像小孩子,你教給他什么,他便學(xué)會(huì)什么。如果數(shù)據(jù)質(zhì)量很糟糕,那么AI模型學(xué)會(huì)的也是這些錯(cuò)誤?!彼栽诎涅i有一整套方案保障數(shù)據(jù)的質(zhì)量:

  1. 多人標(biāo)注同一條數(shù)據(jù)進(jìn)行投票打分
  2. 數(shù)據(jù)埋雷
  3. 機(jī)器學(xué)習(xí)輔助質(zhì)檢
  4. 多輪人工質(zhì)檢

蔣孟杰認(rèn)為,項(xiàng)目管理是一門藝術(shù),尤其是人工參與的場景,可能會(huì)在整個(gè)流程中任意環(huán)節(jié)出現(xiàn)變化。澳鵬的優(yōu)勢在于其針對各個(gè)企業(yè)的業(yè)務(wù)進(jìn)行深度的打磨,融入了自己的高效的項(xiàng)目管理方式以及標(biāo)注細(xì)節(jié)優(yōu)化。

  1. 讓整個(gè)項(xiàng)目管理流程更容易定制和適應(yīng)變化,澳鵬有模板引擎可以定制特有的標(biāo)注需求,有多輪質(zhì)檢并且可配置質(zhì)檢拒絕后的行為,澳鵬有根據(jù)標(biāo)注員的質(zhì)量調(diào)整質(zhì)檢抽檢率的控制機(jī)制
  2. 標(biāo)注工具的精心打磨,澳鵬會(huì)衡量常見標(biāo)注任務(wù)的時(shí)間以及鼠標(biāo)點(diǎn)擊次數(shù),目標(biāo)是人機(jī)協(xié)作,以 AI 的方式服務(wù) AI。一方面澳鵬會(huì)在人機(jī)交互方面進(jìn)行提升,也有專門的HCI工程師,另一方面,會(huì)用 AI 模型進(jìn)行輔助,實(shí)現(xiàn)人走一步,機(jī)器幫忙前進(jìn)幾步的效率提升。人和機(jī)器各自做自己擅長的事情。


#05 撥開迷霧

CSDN:聽說澳鵬正在密切關(guān)注自動(dòng)駕駛領(lǐng)域,那么在自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)方面,目前存在哪些挑戰(zhàn)?澳鵬又做了哪些解決方案?

蔣孟杰:這個(gè)問題可以分為5個(gè)部分。

  1. 需要同時(shí)使用多個(gè)感知傳感器互補(bǔ),比如攝像頭,激光雷達(dá)同時(shí)使用。多用一個(gè)傳感器,就多一次標(biāo)注,如何連接多個(gè)傳感器的標(biāo)注是個(gè)很大的問題。澳鵬提供多傳感器融合標(biāo)注方式,在提供標(biāo)注能力的同時(shí),極大節(jié)約標(biāo)注成本。比如在3D的激光點(diǎn)云上面標(biāo)了一個(gè)3D框以后,我們可以自動(dòng)換算投影一個(gè)2D 框到圖片上,同時(shí)保證同一個(gè)物體在不同傳感器的數(shù)據(jù)上擁有相同的 ID 和物體屬性。該工具也被設(shè)計(jì)成可適配不同傳感器類型和數(shù)量。
  2. 感知有各種細(xì)分的場景,比如目標(biāo)識別、車道線識別、可行駛區(qū)域識別、路牌識別等。澳鵬提供全套標(biāo)注工具,并且可根據(jù)場景靈活配置調(diào)整標(biāo)注方式。
  3. 需要海量的標(biāo)注數(shù)據(jù) -- 成本高。我們會(huì)利用預(yù)標(biāo)注模型進(jìn)行高效的輔助標(biāo)注,比如一鍵3D拉框,3D 車道線精調(diào),自動(dòng)連幀標(biāo)注等。
  4. 需要海量的標(biāo)注數(shù)據(jù) -- 難以管理。當(dāng)數(shù)據(jù)量小的時(shí)候,很多公司甚至一個(gè)Excel就能管理,但是數(shù)據(jù)量大了以后,數(shù)據(jù)的流轉(zhuǎn)就會(huì)成為問題。我們提供數(shù)據(jù)全流程生命周期的管理,并且可以自由定義數(shù)據(jù)生產(chǎn)流程。
  5. 2D/3D數(shù)據(jù)難以分析/查看。無論在客戶驗(yàn)收還是開發(fā)算法過程中,2D/3D 的標(biāo)注數(shù)據(jù)都不像文本標(biāo)注或者語音標(biāo)注結(jié)果這么直觀,2D/3D 的結(jié)果都是一些坐標(biāo)信息,客戶拿到標(biāo)注結(jié)果需要一些開發(fā)工作、來看標(biāo)注結(jié)果。澳鵬提供可視化驗(yàn)收工具,并帶有標(biāo)注結(jié)果統(tǒng)計(jì),比如標(biāo)注數(shù)據(jù)里面包含多少車,多少人??偣捕嗌賯€(gè)點(diǎn)等等。

CSDN:每個(gè)企業(yè)的技術(shù)架構(gòu)與實(shí)力不同,對于初創(chuàng)、中型、大型的企業(yè)來說,如何選擇合適的數(shù)據(jù)標(biāo)注平臺/相關(guān)服務(wù)商?其中有哪些不同嗎?

蔣孟杰:初創(chuàng)業(yè)務(wù)場景變化非???,一般標(biāo)注需求量不會(huì)很大。而且公司沒有精力或者資源開發(fā)或維護(hù)數(shù)據(jù)標(biāo)注平臺。我們會(huì)推薦純SaaS模式,可以讓初創(chuàng)企業(yè)快速開啟標(biāo)注,快速試錯(cuò)調(diào)整方向。

中型企業(yè)已經(jīng)有較為成熟的業(yè)務(wù)模式和自有系統(tǒng),另外也有資源去開發(fā)或者運(yùn)維數(shù)據(jù)標(biāo)注平臺,會(huì)比較關(guān)心是否有開放 API 進(jìn)行系統(tǒng)集成和二次開發(fā),是否有全面的功能。這類企業(yè),我們會(huì)推薦混合云部署模式或者私有化部署模式,并且結(jié)合我們 Managed Service 進(jìn)行數(shù)據(jù)標(biāo)注。

而一般大型的互聯(lián)網(wǎng)企業(yè)比較早地使用AI 技術(shù),已經(jīng)自己開發(fā)了一些標(biāo)注平臺。在選服務(wù)商的時(shí)候會(huì)特別看重服務(wù)商“是否有能力快速得招到大量高質(zhì)量的標(biāo)注員、是否標(biāo)注工具層面會(huì)比自己公司的效率更高、數(shù)據(jù)安全是否有保障”等。這類企業(yè)我們也會(huì)推薦混合云部署模式或者私有化部署模式,并且結(jié)合我們Managed Service 進(jìn)行數(shù)據(jù)標(biāo)注。

CSDN:您認(rèn)為未來人工智能數(shù)據(jù)標(biāo)注領(lǐng)域或該領(lǐng)域的服務(wù)商,會(huì)有哪些發(fā)展趨勢?

蔣孟杰:現(xiàn)階段標(biāo)注領(lǐng)域魚龍混雜,價(jià)格競爭激烈,其中不乏大量傳統(tǒng)人力服務(wù)商進(jìn)入這個(gè)領(lǐng)域。隨著行業(yè)的洗牌,有快速招人能力、擁有大量項(xiàng)目管理經(jīng)驗(yàn)、有自有平臺研發(fā)能力的供應(yīng)商會(huì)逐漸脫穎而出。

標(biāo)注平臺會(huì)沿著采集和標(biāo)注一體化方向發(fā)展。對很多AI 企業(yè)來說,往往同時(shí)需要數(shù)據(jù)采集和標(biāo)注。比如剛才的例子,采集日常交流語音,采集完以后需要對語音進(jìn)行文字轉(zhuǎn)寫。如果把采集和標(biāo)注分成兩個(gè)獨(dú)立階段,時(shí)間交付周期很長,另外如果標(biāo)注覺得采集的語音里面完全沒法聽清,很難及時(shí)打回給采集人員重新錄制。

另一方面,未來可能會(huì)向AI數(shù)據(jù)中臺發(fā)展。不僅管理非結(jié)構(gòu)化數(shù)據(jù)的,也會(huì)慢慢延伸到結(jié)構(gòu)化數(shù)據(jù)的管理。數(shù)據(jù)標(biāo)注在整個(gè)生命周期中不會(huì)是一個(gè)獨(dú)立的存在。如果分裂的多個(gè)系統(tǒng),數(shù)據(jù)科學(xué)家會(huì)浪費(fèi)大量時(shí)間在搬運(yùn)數(shù)據(jù)上,效率不高,另外也影響創(chuàng)新。如果以集成式的AI數(shù)據(jù)中臺為基礎(chǔ),數(shù)據(jù)科學(xué)家可以開發(fā)算法和數(shù)據(jù)標(biāo)注互相迭代提升。比如邊標(biāo)注邊實(shí)時(shí)訓(xùn)練模型,效果沒法再次提升的時(shí)候就停止標(biāo)注,這個(gè)在業(yè)界叫主動(dòng)學(xué)習(xí)。

原文鏈接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/117256727

消息來源:澳鵬數(shù)據(jù)科技(上海)有限公司
China-PRNewsire-300-300.png
相關(guān)鏈接:
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection