┊文章閱讀:次
近日,計算機視覺方向的三大國際會議之一的ECCV 2020公布論文獲獎結(jié)果。本次ECCV 2020有效投稿5025篇,最終被接受發(fā)表論文1361篇,錄取率為27,較上屆有所下降。其中,oral的論文數(shù)為104篇,占提交總量的2;spotlight的數(shù)目為161篇,占提交總量的5;其余論文均為poster。
ECCV (European Conference on Computer Vision,即歐洲計算機視覺國際會議是國際頂尖的計算機視覺會議之一,每兩年舉行一次。隨著人工智能的發(fā)展,計算機視覺的研究深入和應(yīng)用迅速發(fā)展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV 2018的兩倍還多,創(chuàng)下歷史新高。在競爭越來越激烈的情況下,本次ECCV 騰訊優(yōu)圖實驗室共入選8篇論文,涵蓋目標跟蹤、行人重識別、人臉識別、人體姿態(tài)估計、動作識別、物體檢測等熱門及前沿領(lǐng)域,再次展示了騰訊在計算機視覺領(lǐng)域的科研及創(chuàng)新實力。
以下為部分騰訊優(yōu)圖入選ECCV 2020的論文:
01
鏈式跟蹤器:基于目標對回歸的端到端聯(lián)合檢測跟蹤算法
Chained-Tracker:?
Chaining Paired Attentive Regression Results for?
End-to-End Joint Multiple-Object Detection and Tracking
現(xiàn)有的多目標跟蹤(MOT)算法大多是基于傳統(tǒng)的先檢測后跟蹤的框架,包含目標檢測、特征提取、目標關(guān)聯(lián)這三個模塊,還有少數(shù)MOT算法將三個模塊中的某兩個融合實現(xiàn)部分端到端跟蹤,本文提出了一種鏈式跟蹤算法Chained-Tracker(CTracker),業(yè)內(nèi)首創(chuàng)兩幀輸入模式,可將上述三個模塊集成至單個網(wǎng)絡(luò)中,實現(xiàn)端到端聯(lián)合檢測跟蹤,是第一個將跟蹤算法中的目標關(guān)聯(lián)問題轉(zhuǎn)化為兩幀檢測框?qū)Γ˙ox pair)回歸問題的算法。網(wǎng)絡(luò)的輸入為相鄰兩幀,稱之為節(jié)點(Chain node),網(wǎng)絡(luò)的輸出為表示同一個目標在相鄰兩幀中的檢測框?qū)Γ噜徆?jié)點的檢測框?qū)赏ㄟ^共同幀關(guān)聯(lián)。為進一步提高跟蹤效果,我們還設(shè)計了聯(lián)合注意力模塊來突出檢測框?qū)貧w中的有效信息區(qū)域,包括目標分類分支中的目標注意力機制和身份驗證分支中的身份注意力機制。在不引入額外數(shù)據(jù)的情況下,CTracker在MOT16和MOT17上均獲得了SOTA的結(jié)果,MOTA分別為67.6和66.6。
算法框架圖:
?
網(wǎng)絡(luò)結(jié)構(gòu)圖:
?
?
02
請別來打擾我:在其他行人干擾下的行人重識別
Do Not Disturb Me:
Person Re-identification Under the Interference of Other Pedestrians
傳統(tǒng)的行人重識別假設(shè)裁剪的圖像只包含單人。然而,在擁擠的場景中,現(xiàn)成的檢測器可能會生成多人的邊界框,并且其中背景行人占很大比例,或者存在人體遮擋。從這些帶有行人干擾的圖像中提取的特征可能包含干擾信息,這將導致錯誤的檢索結(jié)果。為了解決這一問題,本文提出了一種新的深層網(wǎng)絡(luò)(PISNet)。PISNet首先利用Query圖片引導的注意力模塊來增強圖片中目標的特征。此外,我們提出了反向注意模塊和多人分離損失函數(shù)促進了注意力模塊來抑制其他行人的干擾。我們的方法在兩個新的行人干擾數(shù)據(jù)集上進行了評估,結(jié)果表明,該方法與現(xiàn)有的Re-ID方法相比具有更好的性能。
?
03
通過分布蒸餾損失改善人臉識別中的困難樣本
Improving Face Recognition?
from Hard Samples via Distribution Distillation Loss
目前基于深度學習的人臉識別算法已經(jīng)可以較好的處理簡單樣本,但對于困難樣本(低分辨率、大姿態(tài)等)仍表現(xiàn)不佳。目前主要有兩種方式嘗試解決這一問題。第一種方法是充分利用某種需要處理的人臉畸變的先驗信息,設(shè)計特定的結(jié)構(gòu)或損失函數(shù)。這種方式通常不能方便地遷移到其他畸變類型。第二種方法是通過設(shè)計合適的損失函數(shù),減小類內(nèi)距離,增大類間距離,得到更具辨別能力的人臉特征。這種方式一般在簡單和困難樣本上存在明顯的性能差異。為了提升人臉識別模型在困難樣本上的性能,我們提出了一種基于分布蒸餾的損失函數(shù)。具體來說,我們首先通過一個預(yù)訓練的識別模型構(gòu)造兩種相似度分布(從簡單樣本構(gòu)造的Teacher分布和從困難樣本的Student分布),然后通過分布蒸餾損失函數(shù)使Student分布靠近Teacher分布,從而減小Student分布中的同人樣本和非同人樣本的相似度重合區(qū)域,提高困難樣本的識別性能。我們在常用的大規(guī)模人臉測試集和多個包含不同畸變類型(人種、分辨率、姿態(tài))的人臉測試集上進行了充分的實驗,驗證了方法的有效性。
?
04
基于對抗語義數(shù)據(jù)增強的人體姿態(tài)估計
Adversarial?Semantic?Data?Augmentation?
for?Human?Pose?Estimation
人體姿態(tài)估計主要目的是定位人體的關(guān)鍵點坐標。目前的SOTA方法在嚴重遮擋、旁人干擾、對稱相似三種困難場景中表現(xiàn)仍有待提升。一個主要的原因是這三種困難場景的訓練數(shù)據(jù)較少。之前的方法主要是利用scale、rotation、translation等global spatial transform的方法去進行訓練數(shù)據(jù)增強。這類常規(guī)的數(shù)據(jù)增強方法并不能對上述三種困難場景有提升和幫助。本文提出了一種Adversarial Semantic Data Augmentation(對抗語義數(shù)據(jù)增強方法)。該方法把人體分成多個有語義的部件,并對這些人體部件在不同的細粒度上進行重組,從而去模擬出上述三種困難場景。在重組人體部件的過程中,有多個空間變換參數(shù)來調(diào)節(jié)每一個人體部件,從而靈活的組合旁人遮擋、手臂交叉、復(fù)雜動作等情況。為了讓人體姿態(tài)估計網(wǎng)絡(luò)能更好的學習到對這些困難場景的魯棒性,我們設(shè)計了另外一個生成網(wǎng)絡(luò)(G)用于控制每個人體部件的空間變換參數(shù),人體姿態(tài)估計網(wǎng)絡(luò)作為判別網(wǎng)絡(luò)(D)從G生成的困難樣本里面去學習。G和D在訓練過程中互相對抗。G網(wǎng)絡(luò)不斷的生成各種困難樣本,以迷惑人體姿態(tài)估計網(wǎng)絡(luò)。而人體姿態(tài)估計網(wǎng)絡(luò)從這個對抗過程中也不斷提升了自己對困難場景的預(yù)測準確性。
?
?
05
基于特征解耦的人臉活體檢測
Face?Anti-Spoofing?via?
Disentangled Representation Learning
活體檢測技術(shù)用于在身份驗證場景中確定對象是否為真人,以防御照片、面具、屏幕翻拍等多種方式的攻擊,保證人臉識別安全。目前基于RGB圖像的活體檢測方法往往從圖片中直接提取判別性特征,但該特征可能包含了光照、背景或ID等與活體任務(wù)無關(guān)的信息,影響方法實際使用的泛化性。針對泛化性問題,本文從特征解耦角度出發(fā),提出以下創(chuàng)新點:
1、設(shè)計解耦框架將圖片特征解耦成活體相關(guān)特征和活體無關(guān)特征兩部分,并利用活體相關(guān)特征進行真假判別。
2、結(jié)合底層紋理特征約束和高層深度特征約束,進一步促進活體特征的解耦。
3、探索并展示了影響活體特征的因素,例如攻擊介質(zhì)、采集設(shè)備等,進一步深入理解活體任務(wù)本質(zhì)。
本文在多個學術(shù)數(shù)據(jù)集上證明了基于輔助約束的特征解耦方法在活體任務(wù)上的有效性。
?
06
SSCGAN:基于風格跳躍連接的人臉屬性編輯
SSCGAN:
Facial Attribute Editing via Style Skip Connections
現(xiàn)有的人臉屬性編輯方法通常采用編碼器-解碼器結(jié)構(gòu),其中屬性信息被表達成一個one-hot向量然后與圖像或特征層拼接起來。然而,這樣的操作只學到了局部的語義映射而忽略了全局的人臉統(tǒng)計信息。我們在本文提出通過修改通道層面的全局信息風格特征來解決這個問題。我們設(shè)計了一個基于風格跳躍連接的生成對抗網(wǎng)絡(luò)SSCGAN來實現(xiàn)精準的人臉屬性操縱。具體來說,我們在編碼器和解碼器之間的多個風格跳躍連接路徑上注入目標屬性信息。每個連接會抽取編碼器中的隱藏層的風格特征,然后做一個基于殘差的映射函數(shù)來將這個風格特征遷移到目標屬性的空間。接下來,這個被調(diào)整過的風格特征可以用作輸入來對解碼器的隱藏層特征做實例歸一化。此外,為了避免空間信息的損失比如頭發(fā)紋理或瞳孔位置,我們進一步引入了基于跳躍連接的空間信息傳遞模塊。通過對全局風格和局部空間信息的操縱,本文提出的方法可以得到在屬性生成準確率和圖像質(zhì)量上都更好的結(jié)果。實驗結(jié)果表明本文的算法和現(xiàn)有的所有方法相比都有優(yōu)越性。
?
07
基于時序性差異表征的動作識別
Temporal?Distinct?Representation?Learning?
for?Action?Recognition
2D卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像識別當中并取得成功,研究人員現(xiàn)在在嘗試利用2D卷積神經(jīng)網(wǎng)絡(luò)來對視頻進行建模。然而利用2D卷積的局限性在于視頻的不同幀共享參數(shù),會導致重復(fù)、冗余的信息提取,尤其是空間語義層面會忽略幀間的重要變化。在這篇工作中,我們嘗試通過兩種方式來解決這一問題:
一是設(shè)計了一種通道層面的序列化注意力機制PEM來逐步地激活特征中有區(qū)分性的通道,從而避免信息的重復(fù)提取;
二是設(shè)計了一種時序多樣性損失函數(shù)(TD Loss)來強制卷積核關(guān)注并捕捉幀間的變化而不是表觀相似的區(qū)域。
在時序性較強的數(shù)據(jù)集something-something V1和V2上,我們的方法取得了SOTA效果;另外在時序性較弱但規(guī)模較大的Kinetics數(shù)據(jù)集上,我們的方法也取得了可觀的精度提升。
結(jié)構(gòu)示意圖:
?
效果示意圖:
?
08
物體檢測中檢測框?qū)W習的深入優(yōu)化
Dive Deeper Into Box for Object Detection
無錨框檢測模型現(xiàn)已成為具有最高檢測水準的最新方法,歸因于準確的邊界框估計。然而無錨框檢測在邊界定位上還有不足,對于具有最高置信度的邊界框仍有很大的改進空間。在這項工作中,我們采用了一種邊界重排序的邊界框重組策略,使得在訓練中能夠產(chǎn)生更優(yōu)的邊界框, 從而對物體有更好的貼合。此外,我們觀察到現(xiàn)有方法在邊界框分類與位置回歸學習中存在語義不一致性,所以我們對訓練過程中分類與回歸目標進行了篩選,從而給出了語義一致性的學習目標。實驗證明我們的優(yōu)化方法上對于檢測性能的提升十分有效。
?
?
?
方法示意圖
Copyright @ 2013-2020 中國福建網(wǎng) 版權(quán)所有
聯(lián)系我們
免責聲明:本站為非營利性網(wǎng)站,部分圖片或文章來源于互聯(lián)網(wǎng)如果無意中對您的權(quán)益構(gòu)成了侵犯,我們深表歉意,請您聯(lián)系,我們立即刪除。