如何在 Mac 上以 77 tok/s 速度運行 Qwen3.6-35B

本文介紹如何在配備 Apple Silicon(M1/M2/M3/M4)且記憶體不少於 48 GB 的 Mac 上,使用 MLX 框架以 4 位量化方式運行 Qwen3.6-35B-A3B 模型,耗時約 20-40 分鐘(大部分時間用於下載模型)。完成後可在 http://127.0.0.1:7979 獲得一個 OpenAI API 兼容的本地推理服務端,任何兼容客戶端均可直接呼叫。