PLADA:一個數據集只需1MB——僞標籤實現極致數據壓縮

PLADA(Pseudo-Labels as Data)提出了一種革命性的數據集傳輸方法:完全不傳輸像素數據。該方法假設接收端已預裝大型無標籤參考數據集(如ImageNet),只需傳輸目標任務的類別標籤(不到1MB),即可讓接收端在本地訓練出高精度模型。通過語義相關性剪枝機制,PLADA從參考數據集中篩選最相關的圖像子集,在10個不同數據集上的實驗表明,僅用不到1MB的傳輸量就能保持很高的分類準確率,爲高效數據集分發提供了全新思路。

核心思想

傳統數據集傳輸需要發送完整的圖像像素數據,一個ImageNet數據集就超過100GB。PLADA提出了顛覆性的思路:如果接收端已經有大量無標籤圖像,我們只需要告訴它"哪些圖像屬於什麼類別"就夠了。

技術方案

| 步驟 | 操作 | 傳輸量 |

|------|------|--------|

| 預設 | 接收端預裝ImageNet-1K/21K(無標籤) | 0 |

| 剪枝 | 按語義相關性篩選參考圖像子集 | 0 |

| 傳輸 | 只發送篩選圖像的類別標籤 | < 1MB |

| 訓練 | 接收端用僞標籤本地訓練 | 0 |

語義剪枝機制是關鍵創新:通過計算參考數據集中每張圖像與目標任務的語義相似度,只保留最相關的圖像,同時最大化訓練效率和最小化傳輸量。

實驗結果

在10個不同數據集上測試,PLADA以不到1MB的傳輸量達到了傳統方法(傳輸數百MB)可比的分類精度。特別在細粒度分類任務上,僅用0.3MB就達到了89%以上的準確率。

行業趨勢關聯

PLADA爲Edge AI和模型壓縮領域提供了新思路。在聯邦學習和隱私計算場景下,不傳輸原始數據的方法天然具有數據隱私保護優勢,與Self-Improving AI趨勢中的高效知識傳遞理念不謀而合。