PLADA：一個數據集只需1MB——僞標籤實現極致數據壓縮

PLADA（Pseudo-Labels as Data）提出了一種革命性的數據集傳輸方法：完全不傳輸像素數據。該方法假設接收端已預裝大型無標籤參考數據集（如ImageNet），只需傳輸目標任務的類別標籤（不到1MB），即可讓接收端在本地訓練出高精度模型。通過語義相關性剪枝機制，PLADA從參考數據集中篩選最相關的圖像子集，在10個不同數據集上的實驗表明，僅用不到1MB的傳輸量就能保持很高的分類準確率，爲高效數據集分發提供了全新思路。

核心思想

傳統數據集傳輸需要發送完整的圖像像素數據，一個ImageNet數據集就超過100GB。PLADA提出了顛覆性的思路：如果接收端已經有大量無標籤圖像，我們只需要告訴它"哪些圖像屬於什麼類別"就夠了。

技術方案

| 步驟 | 操作 | 傳輸量 |

|------|------|--------|

| 預設 | 接收端預裝ImageNet-1K/21K（無標籤） | 0 |

| 剪枝 | 按語義相關性篩選參考圖像子集 | 0 |

| 傳輸 | 只發送篩選圖像的類別標籤 | < 1MB |

| 訓練 | 接收端用僞標籤本地訓練 | 0 |

語義剪枝機制是關鍵創新：通過計算參考數據集中每張圖像與目標任務的語義相似度，只保留最相關的圖像，同時最大化訓練效率和最小化傳輸量。

實驗結果

在10個不同數據集上測試，PLADA以不到1MB的傳輸量達到了傳統方法（傳輸數百MB）可比的分類精度。特別在細粒度分類任務上，僅用0.3MB就達到了89%以上的準確率。

行業趨勢關聯

PLADA爲Edge AI和模型壓縮領域提供了新思路。在聯邦學習和隱私計算場景下，不傳輸原始數據的方法天然具有數據隱私保護優勢，與Self-Improving AI趨勢中的高效知識傳遞理念不謀而合。