《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

2026-05-09 生活百科

論文題目：《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》
論文作者：Qibin Hou, Zihang Jiang, Li Yuan et al.
論文發表年份：2022.2
模型簡稱：ViP
發表期刊： IEEE Transactions on Pattern Analysis and Machine Intelligence

Abstract
在本文中，我們提出了一種概念簡單、數據高效的類似MLP的視覺識別體系結構——視覺置換器（Vision Permutator）。不同于最近的類似MLP的模型大都沿著平坦的空間維度編碼空間信息。由于認識到二維特征表示所攜帶的位置信息的重要性，Vision Permutator通過線性投影分別對沿高度和寬度維度的特征表示進行編碼。這使得Vision Permutator可以沿著一個空間方向捕獲遠程依賴關系，同時保持沿著另一個方向的精確位置信息。由此產生的位置敏感輸出，然后以相互補充的方式聚合，形成感興趣的對象的表達。Vision Permutator由純1 × 1卷積組成，但可以對全局信息進行編碼。Vision Permutator也消除了對自注意力的依賴，因此效率更高。開源代碼： https://github.com/Andrew-Qibin/VisionPermutator
Method

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Vision Permutator從與Vision Transformers類似的tokenization操作開始，它將輸入圖像統一地分割為小塊，然后將它們映射到帶有線性投影的token embedding 。然后將形狀為“height×width×channels”的結果token embeddings到Permutator block序列中，每個Permutator block由一個用于空間信息編碼的Permute-MLP和一個用于通道信息混合的Channel - MLP組成。Permute-MLP層如下圖所示，

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Permute-MLP層由三個獨立的分支組成，每個分支沿特定的維度編碼特征，即高度、寬度或通道維度。Channel-MLP模塊的結構與Transformer中的前饋層相似，包括兩個完全連接的層，中間有一個GELU激活。公式如下：

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
對于Channel信息編碼，只需要一個權重WC∈RC×C的全連接層，就可以對輸入X進行線性投影，得到XC 。對于高度信息編碼，首先對傳入的分割好的每個tokens作維度變換（ex:Transpose the first (Height) dimension and the third (Channel) dimension: (H, W, C) → (C, W, H).）然后沿著通道維度連接它們作為Premute的輸出，傳入Linear Projection：連接權重為WH∈RC×C的全連接層，混合高度信息。再通過維度變換復原輸入維度。對寬度信息編碼作類似處理，最后講三個分支的輸出加和作為最后全連接層的輸入。Linear Projection的輸出公式表示如下：（最后輸出再與input tokens作跳躍連接得到最終Permute-MLP的輸出。）

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
Weighted Permute-MLP：上述方法只是簡單地將所有三個分支的輸出通過元素相加來融合。在這里，我們通過重新校準不同分支的重要性，進一步改進了上述Permute-MLP，并提出加權Permute-MLP 。這可以通過利用分散注意力(split attention)實現。不同的是，分散注意力應用于XH、XW和XC，而不是由分組卷積生成的一組張量。在下文中，我們默認使用Permutator中的加權Permute-MLP 。
Experiment
與ImageNet上最近的類MLP模型比較Top-1精度，所有模型都是在沒有外部數據的情況下進行訓練的。在相同的計算量和參數約束下，我們的模型始終優于其他方法。

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
與ImageNet上的經典CNN和Vision Transformer的精度比較。所有模型都是在沒有外部數據的情況下進行訓練的。在相同的計算和參數約束下，我們的模型可以與一些強大的基于CNN和基于Transformer的模型競爭。

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記

文章插圖
.
【《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》論文筆記】

推薦閱讀

上一篇：《Thinking In Java》作者：不要使用并發！

下一篇：基于 Apache Hudi 極致查詢優化的探索實踐