位置：首頁 > 資訊 > 電商資訊>阿里達摩院1秒替換直播背景像素級視頻分割如何實現

阿里達摩院1秒替換直播背景像素級視頻分割如何實現

發布時間：2022-01-19

欄目：電商資訊

計算機視覺領域的AI頂會CVPR2020剛剛落下帷幕，與往年更專注圖片識別不同，學術界和工業界的研究方向逐漸轉向了更難的視頻分割和三維視覺等領域。本次，阿里巴巴拿下了四項比賽的世界冠軍，其中就包括CVPR2020的DAVIS視頻目標分割比賽，本文將具體解讀這項冠軍技術背后的原理。

與圖像識別不同，AI分析理解視頻的技術門檻較高。長期以來，業界在視頻AI技術的研究上鮮有重大突破。以CVPR會議難度很高的比賽之一DAVIS（DenselyAnnotatedVideoSegmentation）為例，該比賽需要參賽團隊精準處理復雜視頻中物體快速運動、外觀變化、遮擋等信息，過去幾年，全球高級科技在該比賽中的成績從未突破80分，而達摩院的模型很終在test-challenge上取得了84.1的成績。

DAVIS的數據集經過精心挑選和標注，視頻分割中比較難的點都有體現，比如：快速運動、遮擋、消失與重現、形變等。DAVIS的數據分為train（60個視頻序列），val（30個視頻序列），test-dev（30個視頻序列），test-challenge（30個視頻序列）。其中train和val是可以下載的，且提供了每一幀的標注信息。對于半監督任務，test-dev和test-challenge，每一幀的RGB圖片可以下載，且第一幀的標注信息也提供了。算法需要根據第一幀的標注mask，來對后續幀進行分割。分割本身是instance級別的。

阿里達摩院提供了一種全新的空間約束方法，打破了傳統STM方法缺乏時序性的瓶頸，可以讓系統基于視頻前一幀的畫面猜測目標物體下一幀的位置；此外，阿里還引入了語義分割中的精細化分割微調模塊，大幅提高了分割的精細程度。很終，精準識別動態目標的輪廓邊界，并且與背景進行分離，實現像素級目標分割。

達摩院的算法基于去年CVPR的STM做了進一步改進。STM的主要思想在于，對于歷史幀，每一幀都編碼為key-value形式的feature。猜測當前幀的時候，以當前幀的key去和歷史幀的key做匹配。匹配的方式是non-local的。這種non-local的匹配，可以看做將當前key，每個坐標上的C維特征，和歷史每一幀在這個坐標上的C維特征做匹配。匹配得到的結果，作為一個soft的index，去讀取歷史value的信息。讀取的特征和當前幀的value拼接起來，用于后續的猜測。

STM的特征匹配方式，提供了一種空間上的長依靠，類似于Transformer中，通過self-attention來做序列關聯。這種機制，能夠很好地處理物體運動、外觀變化、遮擋等。但也有一個問題，就是缺乏時序性，缺少短時依靠。當某一幀忽然出現和目標相似的物體時，簡單產生誤召回。在視頻場景中，很多情況下，當前幀臨近的幾幀，對當前幀的影響要大于更早的幀。基于這一點，達摩院提出依靠前一幀結果，計算attention來約束當前幀目標猜測的位置，相當于對短期依靠的建模。

具體的方法如下圖所示：

下圖為空間attention的可視化結果，可以看到大致對應了前景的位置。

達摩院引入了語義分割中的感受野增強技術ASPP和精細化分割的微調（refinement）模塊。ASPP作用于memory讀取后的特征，用于融合不同感受野的信息，提升對不同尺度物體的處理能力。