如何在 Mac 上以 77 tok/s 速度運行 Qwen3.6-35B

本文介紹如何在配備 Apple Silicon（M1/M2/M3/M4）且記憶體不少於 48 GB 的 Mac 上，使用 MLX 框架以 4 位量化方式運行 Qwen3.6-35B-A3B 模型，耗時約 20-40 分鐘（大部分時間用於下載模型）。完成後可在 http://127.0.0.1:7979 獲得一個 OpenAI API 兼容的本地推理服務端，任何兼容客戶端均可直接呼叫。