北京2022年7月4日 /美通社/ -- 在近日舉辦的IEEE國際計算機與模式識別會議CVPR 2022期間,浪潮信息AI團隊提交的論文《CoDo: Contrastive Learning with Downstream Background Invariance for Detection (CoDo:在自監(jiān)督學(xué)習(xí)中引入下游數(shù)據(jù)的背景不變性)》成功入選。論文提出了一種新的自監(jiān)督學(xué)習(xí)框架,在自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練過程兼顧下游數(shù)據(jù)的背景不變性,以提升自監(jiān)督學(xué)習(xí)在下游目標檢測任務(wù)的性能,并通過初步實驗證明了方法的有效性。CVPR是計算機視覺領(lǐng)域三大世界頂級會議之一,今年線下注冊參會人數(shù)達到了5641人。在論文方面,CVPR 2022共收到了8161篇投稿,最終接收了2064篇論文,接收率約為25.3%,論文研究方向涵蓋目標檢測、圖像分割、醫(yī)學(xué)影像、模型壓縮、圖像處理、文本檢測等。
自監(jiān)督學(xué)習(xí)可以對海量數(shù)據(jù)進行自主學(xué)習(xí),無需像監(jiān)督學(xué)習(xí)那樣進行復(fù)雜的數(shù)據(jù)標注,有望改變自動駕駛等數(shù)據(jù)生成量巨大、標注成本高昂行業(yè)的工作模式,因此被認為是計算機視覺領(lǐng)域中有望帶來突破的重點方向。目前,雖然基于對比學(xué)習(xí)的自監(jiān)督學(xué)習(xí)方法在圖像分類任務(wù)上取得了與監(jiān)督型學(xué)習(xí)相近甚至更優(yōu)的性能,但是將其應(yīng)用于下游任務(wù)如目標檢測時,常常會出現(xiàn)明顯的性能差距。
浪潮信息AI團隊提出的自監(jiān)督學(xué)習(xí)框架CoDo,在預(yù)訓(xùn)練中引入上下游任務(wù)數(shù)據(jù)集充當背景,預(yù)訓(xùn)練圖像的推薦框粘貼到背景圖像上,邊框經(jīng)過比例變換及擾動后,作為增強樣本參與對比學(xué)習(xí)。由于背景為上下游數(shù)據(jù)集,模型實際上獲得了前景目標的背景不變性能力。這意味著無論背景如何變化,模型都能夠準確定位前景目標,這對于目標檢測類人工智能任務(wù)尤為重要。
論文采用CPJ數(shù)據(jù)增強方法、目標檢測結(jié)構(gòu)對齊及層次對比學(xué)習(xí)構(gòu)建,并通過初步實驗證明了方法的有效性。在實驗中,研究團隊使用浪潮AI服務(wù)器NF5488A5作為模型訓(xùn)練平臺,使用COCO數(shù)據(jù)集以R50-FPN作為backbone的Mask R-CNN的目標檢測與語義分割性能進行分析。結(jié)果顯示,在1×schedule設(shè)置下,CoDo的檢測性能相比于基線模型MoCo-v2提升了0.8 AP,在2×schedule設(shè)置下,CoDo的檢測性能相比于基線模型MoCo-v2提升了0.9AP,而多視角版本的CoDom最終取得了43.1 AP的優(yōu)異性能。
Mask R-CNN(R50-FPN)在COCO數(shù)據(jù)集的的下游任務(wù)性能
此外,研究團隊評估了CoDo中Query Network和Key Network的背景數(shù)據(jù)集的選擇策略。實驗發(fā)現(xiàn),相比于兩路引入不同數(shù)據(jù)集,引入相同數(shù)據(jù)集性能更優(yōu),同時引入數(shù)據(jù)集的多樣性也對下游任務(wù)的性能有貢獻。
該論文已被CVPR 2022 L3D-IVU Workshop接收,本屆L3D-IVU Workshop的主題為利用有限標簽數(shù)據(jù)實現(xiàn)圖像及視頻的學(xué)習(xí)理解。如想進一步了解這篇論文,請點擊鏈接http://arxiv.org/abs/2205.04617下載全文。