返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 資訊 > 電商資訊>阿里達(dá)摩院1秒替換直播背景像素級視頻分割如何實(shí)現(xiàn)
阿里達(dá)摩院1秒替換直播背景像素級視頻分割如何實(shí)現(xiàn)

計(jì)算機(jī)視覺領(lǐng)域的AI頂會(huì)CVPR2020剛剛落下帷幕,與往年更專注圖片識(shí)別不同,學(xué)術(shù)界和工業(yè)界的研究方向逐漸轉(zhuǎn)向了更難的視頻分割和三維視覺等領(lǐng)域。本次,阿里巴巴拿下了四項(xiàng)比賽的世界冠軍,其中就包括CVPR2020的DAVIS視頻目標(biāo)分割比賽,本文將具體解讀這項(xiàng)冠軍技術(shù)背后的原理。

與圖像識(shí)別不同,AI分析理解視頻的技術(shù)門檻較高。長期以來,業(yè)界在視頻AI技術(shù)的研究上鮮有重大突破。以CVPR會(huì)議難度很高的比賽之一DAVIS(DenselyAnnotatedVideoSegmentation)為例,該比賽需要參賽團(tuán)隊(duì)精準(zhǔn)處理復(fù)雜視頻中物體快速運(yùn)動(dòng)、外觀變化、遮擋等信息,過去幾年,全球高級科技在該比賽中的成績從未突破80分,而達(dá)摩院的模型很終在test-challenge上取得了84.1的成績。

DAVIS的數(shù)據(jù)集經(jīng)過精心挑選和標(biāo)注,視頻分割中比較難的點(diǎn)都有體現(xiàn),比如:快速運(yùn)動(dòng)、遮擋、消失與重現(xiàn)、形變等。DAVIS的數(shù)據(jù)分為train(60個(gè)視頻序列),val(30個(gè)視頻序列),test-dev(30個(gè)視頻序列),test-challenge(30個(gè)視頻序列)。其中train和val是可以下載的,且提供了每一幀的標(biāo)注信息。對于半監(jiān)督任務(wù),test-dev和test-challenge,每一幀的RGB圖片可以下載,且第一幀的標(biāo)注信息也提供了。算法需要根據(jù)第一幀的標(biāo)注mask,來對后續(xù)幀進(jìn)行分割。分割本身是instance級別的。

阿里達(dá)摩院提供了一種全新的空間約束方法,打破了傳統(tǒng)STM方法缺乏時(shí)序性的瓶頸,可以讓系統(tǒng)基于視頻前一幀的畫面猜測目標(biāo)物體下一幀的位置;此外,阿里還引入了語義分割中的精細(xì)化分割微調(diào)模塊,大幅提高了分割的精細(xì)程度。很終,精準(zhǔn)識(shí)別動(dòng)態(tài)目標(biāo)的輪廓邊界,并且與背景進(jìn)行分離,實(shí)現(xiàn)像素級目標(biāo)分割。

達(dá)摩院的算法基于去年CVPR的STM做了進(jìn)一步改進(jìn)。STM的主要思想在于,對于歷史幀,每一幀都編碼為key-value形式的feature。猜測當(dāng)前幀的時(shí)候,以當(dāng)前幀的key去和歷史幀的key做匹配。匹配的方式是non-local的。這種non-local的匹配,可以看做將當(dāng)前key,每個(gè)坐標(biāo)上的C維特征,和歷史每一幀在這個(gè)坐標(biāo)上的C維特征做匹配。匹配得到的結(jié)果,作為一個(gè)soft的index,去讀取歷史value的信息。讀取的特征和當(dāng)前幀的value拼接起來,用于后續(xù)的猜測。

STM的特征匹配方式,提供了一種空間上的長依靠,類似于Transformer中,通過self-attention來做序列關(guān)聯(lián)。這種機(jī)制,能夠很好地處理物體運(yùn)動(dòng)、外觀變化、遮擋等。但也有一個(gè)問題,就是缺乏時(shí)序性,缺少短時(shí)依靠。當(dāng)某一幀忽然出現(xiàn)和目標(biāo)相似的物體時(shí),簡單產(chǎn)生誤召回。在視頻場景中,很多情況下,當(dāng)前幀臨近的幾幀,對當(dāng)前幀的影響要大于更早的幀?;谶@一點(diǎn),達(dá)摩院提出依靠前一幀結(jié)果,計(jì)算attention來約束當(dāng)前幀目標(biāo)猜測的位置,相當(dāng)于對短期依靠的建模。

具體的方法如下圖所示:

下圖為空間attention的可視化結(jié)果,可以看到大致對應(yīng)了前景的位置。

達(dá)摩院引入了語義分割中的感受野增強(qiáng)技術(shù)ASPP和精細(xì)化分割的微調(diào)(refinement)模塊。ASPP作用于memory讀取后的特征,用于融合不同感受野的信息,提升對不同尺度物體的處理能力。

阿里達(dá)摩院1秒替換直播背景像素級視頻分割如何實(shí)現(xiàn)1

達(dá)摩院提出了一個(gè)簡單但是有效的練習(xí)策略,減少了練習(xí)階段和測試階段存在的差異,提升了很終效果。

原始STM練習(xí)時(shí),會(huì)隨機(jī)從視頻中采樣3幀。這三幀之間的跳幀間隔,隨著練習(xí)逐漸增大,目的是增強(qiáng)模型魯棒性。但達(dá)摩院發(fā)現(xiàn),這樣會(huì)導(dǎo)致練習(xí)時(shí)和測試時(shí)不一致,因?yàn)闇y試時(shí),是逐幀處理的。為此,在練習(xí)的很后階段,達(dá)摩院將跳幀間隔重新減小,以保證和測試時(shí)一致。

backbone:達(dá)摩院使用了ResNeST這個(gè)比較新的backbone,它可以無痛替換掉原STM的resnet。在結(jié)果上有比較明顯提升。

測試策略:達(dá)摩院使用了多尺度測試和modelensemble。不同尺度和不同model的結(jié)果,在很終猜測的map上,做了簡單的等權(quán)重平均。

顯存優(yōu)化:達(dá)摩院做了一些顯存優(yōu)化方面的工作,使得STM在多目標(biāo)模式下,可以支持大尺度的練習(xí)、測試,以及支持較大的memory容量。

數(shù)據(jù):練習(xí)數(shù)據(jù)上,達(dá)摩院使用了DAVIS、Youtube-VOS,以及STM原文用到的靜態(tài)圖像數(shù)據(jù)庫。沒有其他數(shù)據(jù)。

達(dá)摩院的模型,很終在test-challenge上取得了84.1的成績。

在test-dev上的消融實(shí)驗(yàn)。達(dá)摩院復(fù)現(xiàn)的STM達(dá)到了和原文一致的結(jié)果。在各種trick的加持下,得到了11個(gè)點(diǎn)的提升。

隨著互聯(lián)網(wǎng)技術(shù)、5G技術(shù)等的發(fā)展,短視頻、視頻會(huì)議、直播的場景越來越多,視頻分割技術(shù)也將成為不可或缺的一環(huán)。比如,在視頻會(huì)議中,視頻分割可以正確區(qū)分前背景,從而對背景進(jìn)行虛化或替換;在直播中,用戶只需要站在綠幕前,算法就實(shí)時(shí)替換背景,實(shí)現(xiàn)一秒鐘換新直播間;在視頻編輯領(lǐng)域,可以輔助進(jìn)行后期制作。

Reference:

阿里達(dá)摩院1秒替換直播背景像素級視頻分割如何實(shí)現(xiàn)2
如果您覺得 阿里達(dá)摩院1秒替換直播背景像素級視頻分割如何實(shí)現(xiàn) 這篇文章對您有用,請分享給您的好友,謝謝
文章地址:http://m.meyanliao.com/article/online/8956.html
解放雙手無盡可能,有問題添加天線貓微信
主站蜘蛛池模板: 亚洲乱码无码永久不卡在线| 亚洲日韩中文无码久久| 免费无码毛片一区二区APP| 日韩国产成人无码av毛片 | 无码精品日韩中文字幕| 国产午夜精华无码网站 | 狠狠躁天天躁无码中文字幕图| 中文字幕乱码人妻无码久久| 亚洲精品无码久久久久牙蜜区| 国产AV无码专区亚洲AV漫画 | 无码精品人妻一区二区三区AV| 最新国产AV无码专区亚洲| 无码国产精品久久一区免费| 午夜不卡久久精品无码免费| 西西4444www大胆无码| 亚洲日韩精品A∨片无码加勒比 | 青青爽无码视频在线观看| 国产AV无码专区亚洲AV毛网站 | 亚洲精品无码成人片在线观看 | 成人免费午夜无码视频| 亚洲啪啪AV无码片| 亚洲无码黄色网址| 无码不卡亚洲成?人片| 精品无码久久久久久久久| 亚洲另类无码专区丝袜| 国产乱妇无码大片在线观看| 无码人妻丰满熟妇区免费| 国精品无码一区二区三区在线| 一道久在线无码加勒比| 人妻丰满熟妇A v无码区不卡| 亚洲AV无码专区在线厂| 日韩成人无码一区二区三区| 亚洲av中文无码字幕色不卡| 亚洲啪AV永久无码精品放毛片| 亚洲av无码一区二区三区观看| 日韩精品无码一区二区三区免费| 无码国内精品久久人妻| 亚洲AV无码国产精品色| 69ZXX少妇内射无码| 熟妇人妻无码xxx视频| 免费无码专区毛片高潮喷水|