發(fā)布時(shí)間:2022-01-19
欄目:電商資訊
計(jì)算機(jī)視覺領(lǐng)域的AI頂會(huì)CVPR2020剛剛落下帷幕,與往年更專注圖片識(shí)別不同,學(xué)術(shù)界和工業(yè)界的研究方向逐漸轉(zhuǎn)向了更難的視頻分割和三維視覺等領(lǐng)域。本次,阿里巴巴拿下了四項(xiàng)比賽的世界冠軍,其中就包括CVPR2020的DAVIS視頻目標(biāo)分割比賽,本文將具體解讀這項(xiàng)冠軍技術(shù)背后的原理。
與圖像識(shí)別不同,AI分析理解視頻的技術(shù)門檻較高。長期以來,業(yè)界在視頻AI技術(shù)的研究上鮮有重大突破。以CVPR會(huì)議難度很高的比賽之一DAVIS(DenselyAnnotatedVideoSegmentation)為例,該比賽需要參賽團(tuán)隊(duì)精準(zhǔn)處理復(fù)雜視頻中物體快速運(yùn)動(dòng)、外觀變化、遮擋等信息,過去幾年,全球高級科技在該比賽中的成績從未突破80分,而達(dá)摩院的模型很終在test-challenge上取得了84.1的成績。
DAVIS的數(shù)據(jù)集經(jīng)過精心挑選和標(biāo)注,視頻分割中比較難的點(diǎn)都有體現(xiàn),比如:快速運(yùn)動(dòng)、遮擋、消失與重現(xiàn)、形變等。DAVIS的數(shù)據(jù)分為train(60個(gè)視頻序列),val(30個(gè)視頻序列),test-dev(30個(gè)視頻序列),test-challenge(30個(gè)視頻序列)。其中train和val是可以下載的,且提供了每一幀的標(biāo)注信息。對于半監(jiān)督任務(wù),test-dev和test-challenge,每一幀的RGB圖片可以下載,且第一幀的標(biāo)注信息也提供了。算法需要根據(jù)第一幀的標(biāo)注mask,來對后續(xù)幀進(jìn)行分割。分割本身是instance級別的。
阿里達(dá)摩院提供了一種全新的空間約束方法,打破了傳統(tǒng)STM方法缺乏時(shí)序性的瓶頸,可以讓系統(tǒng)基于視頻前一幀的畫面猜測目標(biāo)物體下一幀的位置;此外,阿里還引入了語義分割中的精細(xì)化分割微調(diào)模塊,大幅提高了分割的精細(xì)程度。很終,精準(zhǔn)識(shí)別動(dòng)態(tài)目標(biāo)的輪廓邊界,并且與背景進(jìn)行分離,實(shí)現(xiàn)像素級目標(biāo)分割。
達(dá)摩院的算法基于去年CVPR的STM做了進(jìn)一步改進(jìn)。STM的主要思想在于,對于歷史幀,每一幀都編碼為key-value形式的feature。猜測當(dāng)前幀的時(shí)候,以當(dāng)前幀的key去和歷史幀的key做匹配。匹配的方式是non-local的。這種non-local的匹配,可以看做將當(dāng)前key,每個(gè)坐標(biāo)上的C維特征,和歷史每一幀在這個(gè)坐標(biāo)上的C維特征做匹配。匹配得到的結(jié)果,作為一個(gè)soft的index,去讀取歷史value的信息。讀取的特征和當(dāng)前幀的value拼接起來,用于后續(xù)的猜測。
STM的特征匹配方式,提供了一種空間上的長依靠,類似于Transformer中,通過self-attention來做序列關(guān)聯(lián)。這種機(jī)制,能夠很好地處理物體運(yùn)動(dòng)、外觀變化、遮擋等。但也有一個(gè)問題,就是缺乏時(shí)序性,缺少短時(shí)依靠。當(dāng)某一幀忽然出現(xiàn)和目標(biāo)相似的物體時(shí),簡單產(chǎn)生誤召回。在視頻場景中,很多情況下,當(dāng)前幀臨近的幾幀,對當(dāng)前幀的影響要大于更早的幀?;谶@一點(diǎn),達(dá)摩院提出依靠前一幀結(jié)果,計(jì)算attention來約束當(dāng)前幀目標(biāo)猜測的位置,相當(dāng)于對短期依靠的建模。
具體的方法如下圖所示:
下圖為空間attention的可視化結(jié)果,可以看到大致對應(yīng)了前景的位置。
達(dá)摩院引入了語義分割中的感受野增強(qiáng)技術(shù)ASPP和精細(xì)化分割的微調(diào)(refinement)模塊。ASPP作用于memory讀取后的特征,用于融合不同感受野的信息,提升對不同尺度物體的處理能力。

達(dá)摩院提出了一個(gè)簡單但是有效的練習(xí)策略,減少了練習(xí)階段和測試階段存在的差異,提升了很終效果。
原始STM練習(xí)時(shí),會(huì)隨機(jī)從視頻中采樣3幀。這三幀之間的跳幀間隔,隨著練習(xí)逐漸增大,目的是增強(qiáng)模型魯棒性。但達(dá)摩院發(fā)現(xiàn),這樣會(huì)導(dǎo)致練習(xí)時(shí)和測試時(shí)不一致,因?yàn)闇y試時(shí),是逐幀處理的。為此,在練習(xí)的很后階段,達(dá)摩院將跳幀間隔重新減小,以保證和測試時(shí)一致。
backbone:達(dá)摩院使用了ResNeST這個(gè)比較新的backbone,它可以無痛替換掉原STM的resnet。在結(jié)果上有比較明顯提升。
測試策略:達(dá)摩院使用了多尺度測試和modelensemble。不同尺度和不同model的結(jié)果,在很終猜測的map上,做了簡單的等權(quán)重平均。
顯存優(yōu)化:達(dá)摩院做了一些顯存優(yōu)化方面的工作,使得STM在多目標(biāo)模式下,可以支持大尺度的練習(xí)、測試,以及支持較大的memory容量。
數(shù)據(jù):練習(xí)數(shù)據(jù)上,達(dá)摩院使用了DAVIS、Youtube-VOS,以及STM原文用到的靜態(tài)圖像數(shù)據(jù)庫。沒有其他數(shù)據(jù)。
達(dá)摩院的模型,很終在test-challenge上取得了84.1的成績。
在test-dev上的消融實(shí)驗(yàn)。達(dá)摩院復(fù)現(xiàn)的STM達(dá)到了和原文一致的結(jié)果。在各種trick的加持下,得到了11個(gè)點(diǎn)的提升。
隨著互聯(lián)網(wǎng)技術(shù)、5G技術(shù)等的發(fā)展,短視頻、視頻會(huì)議、直播的場景越來越多,視頻分割技術(shù)也將成為不可或缺的一環(huán)。比如,在視頻會(huì)議中,視頻分割可以正確區(qū)分前背景,從而對背景進(jìn)行虛化或替換;在直播中,用戶只需要站在綠幕前,算法就實(shí)時(shí)替換背景,實(shí)現(xiàn)一秒鐘換新直播間;在視頻編輯領(lǐng)域,可以輔助進(jìn)行后期制作。
Reference:

文章地址:http://m.meyanliao.com/article/online/8956.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗(yàn)
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個(gè)副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押唄進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當(dāng)更張