《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

論文題目:《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》
論文作者:Qibin Hou, Zihang Jiang, Li Yuan et al.
論文發表年份:2022.2
模型簡稱:ViP
發表期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence
Abstract
在本文中,我們提出了一種概念簡單、數據高效的類似MLP的視覺識別體系結構——視覺置換器(Vision Permutator) 。不同于最近的類似MLP的模型大都沿著平坦的空間維度編碼空間信息 。由于認識到二維特征表示所攜帶的位置信息的重要性,Vision Permutator通過線性投影分別對沿高度和寬度維度的特征表示進行編碼 。這使得Vision Permutator可以沿著一個空間方向捕獲遠程依賴關系,同時保持沿著另一個方向的精確位置信息 。由此產生的位置敏感輸出,然后以相互補充的方式聚合,形成感興趣的對象的表達 。Vision Permutator由純1 × 1卷積組成,但可以對全局信息進行編碼 。Vision Permutator也消除了對自注意力的依賴,因此效率更高 。開源代碼: https://github.com/Andrew-Qibin/VisionPermutator
Method
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Vision Permutator從與Vision Transformers類似的tokenization操作開始,它將輸入圖像統一地分割為小塊,然后將它們映射到帶有線性投影的token embedding 。然后將形狀為“height×width×channels”的結果token embeddings到Permutator block序列中,每個Permutator block由一個用于空間信息編碼的Permute-MLP和一個用于通道信息混合的Channel - MLP組成 。Permute-MLP層如下圖所示,
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Permute-MLP層由三個獨立的分支組成,每個分支沿特定的維度編碼特征,即高度、寬度或通道維度 。Channel-MLP模塊的結構與Transformer中的前饋層相似,包括兩個完全連接的層 , 中間有一個GELU激活 。公式如下:
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
對于Channel信息編碼,只需要一個權重WC∈RC×C的全連接層,就可以對輸入X進行線性投影,得到XC 。對于高度信息編碼,首先對傳入的分割好的每個tokens作維度變換(ex:Transpose the first (Height) dimension and the third (Channel) dimension: (H, W, C) → (C, W, H).)然后沿著通道維度連接它們作為Premute的輸出,傳入Linear Projection:連接權重為WH∈RC×C的全連接層 , 混合高度信息 。再通過維度變換復原輸入維度 。對寬度信息編碼作類似處理,最后講三個分支的輸出加和作為最后全連接層的輸入 。Linear Projection的輸出公式表示如下:(最后輸出再與input tokens作跳躍連接得到最終Permute-MLP的輸出 。)
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Weighted Permute-MLP:上述方法只是簡單地將所有三個分支的輸出通過元素相加來融合 。在這里,我們通過重新校準不同分支的重要性 , 進一步改進了上述Permute-MLP,并提出加權Permute-MLP 。這可以通過利用分散注意力(split attention)實現 。不同的是,分散注意力應用于XH、XW和XC,而不是由分組卷積生成的一組張量 。在下文中,我們默認使用Permutator中的加權Permute-MLP 。
Experiment
與ImageNet上最近的類MLP模型比較Top-1精度,所有模型都是在沒有外部數據的情況下進行訓練的 。在相同的計算量和參數約束下,我們的模型始終優于其他方法 。
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
與ImageNet上的經典CNN和Vision Transformer的精度比較 。所有模型都是在沒有外部數據的情況下進行訓練的 。在相同的計算和參數約束下 , 我們的模型可以與一些強大的基于CNN和基于Transformer的模型競爭 。
《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
.
【《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記】

    推薦閱讀