創(chuàng)紀(jì)錄!網(wǎng)易數(shù)帆奪冠CVPR 2023多模態(tài)競賽(網(wǎng)易數(shù)帆招聘)
近日,由國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)主辦的第19屆多模態(tài)超光譜感知系列競賽(PBVS 2023)結(jié)果公布,網(wǎng)易數(shù)帆AI團(tuán)隊(duì)在此次競賽中擊敗了復(fù)旦大學(xué)、西安電子科技大學(xué)、中科院、韓國科技大學(xué)、印度大學(xué)、美國空軍研究實(shí)驗(yàn)室等國內(nèi)外105支知名隊(duì)伍,以絕對(duì)優(yōu)勢(shì)奪得多模態(tài)賽道冠軍,并在更嚴(yán)苛的評(píng)估規(guī)則下,將識(shí)別準(zhǔn)確率大幅提升了29%,刷新了賽事紀(jì)錄。
CVPR是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域最重要和權(quán)威的國際頂級(jí)會(huì)議,由電氣與電子工程師協(xié)會(huì)(IEEE)和計(jì)算機(jī)視覺基金會(huì)(CVF)共同主辦。CVPR舉辦的多模態(tài)超光譜感知系列競賽是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的重要賽事之一,自2004年以來已舉辦19屆。多模態(tài)是指用不同類型的數(shù)據(jù)協(xié)同推理,結(jié)合數(shù)據(jù)融合技術(shù),讓結(jié)果更加準(zhǔn)確。可以把它類比成人類用視覺、聽覺、嗅覺和觸覺等感官來感知事物。這項(xiàng)賽事的特點(diǎn)是鼓勵(lì)參賽團(tuán)隊(duì)用創(chuàng)新的多模態(tài)方法,利用不同的光譜圖像,比如SAR(合成孔徑雷達(dá))和EO,來檢測(cè)、識(shí)別和跟蹤復(fù)雜場景中的目標(biāo),讓感知更加精確。
建模、數(shù)據(jù)與規(guī)則的多重挑戰(zhàn)
多模態(tài)算法將不同來源的信息以適當(dāng)?shù)姆绞竭M(jìn)行融合,這是AI領(lǐng)域?qū)为?dú)使用SAR或EO模態(tài)算法效果不理想的解決方案。例如PBVS 2022中SAR最佳準(zhǔn)確率只有36%,利用多模態(tài)技術(shù)結(jié)合SAR和EO則可以達(dá)到51%的準(zhǔn)確率。
為了提高算法準(zhǔn)確率,參賽團(tuán)隊(duì)不僅需要在處理多模態(tài)數(shù)據(jù)時(shí)獲取關(guān)鍵信息,還要發(fā)掘不同模態(tài)之間的互補(bǔ)信息,并設(shè)計(jì)高效的特征提取和融合方法。換言之,多模態(tài)建模能力的優(yōu)劣對(duì)最終準(zhǔn)確率具有決定性影響,而多模態(tài)信息的交互和挖掘也是競賽的關(guān)鍵和難點(diǎn)。
類別之間混淆嚴(yán)重是競賽設(shè)置的挑戰(zhàn)。如下圖所示,SAR模態(tài)的10個(gè)不同類別數(shù)據(jù)(每列為一個(gè)類別),每個(gè)類別提供了2張樣例圖片數(shù)據(jù),紅框的類別1和2,藍(lán)框的類別5和類別6,單從圖像上看近乎一樣,識(shí)別難度極大。
類別數(shù)據(jù)不平衡,圖片尺寸小,也為比賽帶來了一定挑戰(zhàn)。例如sedan類別數(shù)據(jù)有36.3w條,而flatbed truck with trailer等類別只有600條。而且這些數(shù)據(jù)中,尺寸最大的只有55x55px,最小的僅有31x31px。
和以往競賽不同,新的評(píng)估規(guī)則與類別不平衡形成了“雙殺”。具體而言,PBVS 2023在歷年的模型識(shí)別準(zhǔn)確度(Accuracy)指標(biāo)之外,還引入AUROC指標(biāo)評(píng)估模型檢測(cè)異常樣本的能力,最終得分 Score = 0.75 Accuracy 0.25 AUROC。相比Accuracy關(guān)注分類正確的樣本比例,AUROC更關(guān)注不同閾值下的性能,因而在類別不平衡的情況下更可靠,但也意味著參賽團(tuán)隊(duì)在建模中必須考慮樣本稀少的類別。
Transformer與級(jí)聯(lián)算法建功
對(duì)于多模態(tài)問題,網(wǎng)易數(shù)帆在嘗試、比對(duì)多種方法之后,最終選擇使用Transformer構(gòu)建不同模態(tài)之間的關(guān)系,進(jìn)行特征交互,提升識(shí)別性能。由谷歌于2017年提出的Transformer模型,在NLP、視覺、語音、強(qiáng)化學(xué)習(xí)與推薦等領(lǐng)域都有成功應(yīng)用,在跨模態(tài)建模上優(yōu)勢(shì)明顯,是深度學(xué)習(xí)領(lǐng)域近年來的重要進(jìn)展,也是當(dāng)前引發(fā)AI技術(shù)革命的大語言模型的基礎(chǔ)。網(wǎng)易數(shù)帆AI團(tuán)隊(duì)對(duì)于Transformer的創(chuàng)新和應(yīng)用具有多年的實(shí)踐和深厚的積累,也曾憑此技術(shù)創(chuàng)新獲得ASRU2019大賽端到端語音識(shí)別賽道冠軍。
對(duì)于混淆嚴(yán)重的問題,網(wǎng)易數(shù)帆提出了一個(gè)基于檢索增強(qiáng)的級(jí)聯(lián)結(jié)構(gòu)。該結(jié)構(gòu)包含兩級(jí)分類器,分別用于較為容易識(shí)別的類別和困難的類別。其中,一級(jí)分類器由CNN Transformer 分類頭構(gòu)成,能夠很好地識(shí)別較容易的樣本,同時(shí)過濾出難以區(qū)分的混淆樣本,并傳遞給二級(jí)分類器;二級(jí)分類器則采用p-Hash Retriever算法,包含一個(gè)p-Hash檢索器和一個(gè)細(xì)粒度分類器。p-Hash算法基于紋理相似性找出所有相似的類別形成類別簇,細(xì)粒度分類器對(duì)于該簇的所有樣本進(jìn)行投票,投票最多的標(biāo)簽被選舉為該簇所有樣本的最終標(biāo)簽,由此解決混淆類別難以區(qū)分的問題。
此外,對(duì)于尺寸小,類別不平衡等難題,網(wǎng)易數(shù)帆使用了數(shù)據(jù)插值、數(shù)據(jù)增廣、動(dòng)態(tài)采樣、Focal Loss損失函數(shù)等手段進(jìn)行進(jìn)一步的優(yōu)化性能。
經(jīng)過多重設(shè)計(jì)和優(yōu)化,網(wǎng)易數(shù)帆多模態(tài)算法總得分及各項(xiàng)指標(biāo)成績排名均大幅度領(lǐng)先于競爭對(duì)手(下圖中overfittinghhh為網(wǎng)易數(shù)帆AI團(tuán)隊(duì)),其中ACC 指標(biāo)達(dá)到了80%,相對(duì)于2022年冠軍的51%,提升了29個(gè)百分點(diǎn),大幅刷新了紀(jì)錄。
業(yè)務(wù)智能化倒逼算法進(jìn)步
網(wǎng)易數(shù)帆多模態(tài)算法研發(fā)與打磨,得益于業(yè)務(wù)實(shí)踐的需求。這一算法已被用在LOFTER圖文多模態(tài)低質(zhì)審核項(xiàng)目中,幫助業(yè)務(wù)攔截了超過70%的惡意攻擊,日均過濾內(nèi)容7w左右,獲得了業(yè)務(wù)的好評(píng)。在網(wǎng)易云音樂業(yè)務(wù),如在質(zhì)量審核中,多模態(tài)算法線上準(zhǔn)確度超過了95%,基本達(dá)到了人工審核效果。整個(gè)2022年度,該算法大約承擔(dān)了網(wǎng)易云音樂10位專業(yè)運(yùn)營人員一年的總工作量。
從整個(gè)行業(yè)來看,多模態(tài)是全球?qū)W術(shù)界、工業(yè)界和政府機(jī)構(gòu)的研究人員持續(xù)關(guān)注的熱點(diǎn)領(lǐng)域,常應(yīng)用傳感/成像技術(shù)、監(jiān)控和偵察系統(tǒng)等,且在無人駕駛、公共安全和國防等特殊領(lǐng)域具有重大的研究價(jià)值。在跨模態(tài)大模型成為星辰大海的今天,網(wǎng)易數(shù)帆認(rèn)為,基于多模態(tài)的創(chuàng)新及相關(guān)技術(shù)積累,將為智慧生產(chǎn)力模型進(jìn)一步迭代夯實(shí)“內(nèi)功”,幫助企業(yè)增加智慧資產(chǎn)的豐富度,在業(yè)務(wù)數(shù)字化、智能化轉(zhuǎn)型中發(fā)揮更大的作用,實(shí)現(xiàn)技術(shù)創(chuàng)新與業(yè)務(wù)發(fā)展的雙贏。