无需云端：在 Mac 上本地部署 Qwen3.6-35B，推理速度达 77 tok/s

本文详细指导如何在配备 Apple Silicon 芯片（M1/M2/M3/M4）且内存不低于 48GB 的 Mac 电脑上，利用 Apple 自家推出的 MLX 框架本地部署 Qwen3.6-35B-A3B 大模型。通过 4 位量化技术，该方案在本地即可实现高达 77 tok/s 的生成速度。整个过程耗时约 20 至 40 分钟，主要时间消耗在于模型下载。部署完成后，用户将获得一个兼容 OpenAI API 的本地推理服务，可无缝对接各类主流 AI 客户端，兼顾隐私与效率。

随着大语言模型（LLM）能力的不断增强，开发者对本地部署 AI 的需求日益增长，尤其是在注重数据隐私和离线可用性的场景下。近日，一项针对 Apple Silicon 芯片 Mac 电脑的 Qwen3.6-35B-A3B 模型本地部署方案引发了广泛关注。该方案利用 Apple 专为自家硬件优化的 MLX 框架，成功在消费级设备上跑出了令人瞩目的性能，证明了端侧运行中大型语言模型的可行性。

要在 Mac 上流畅运行 Qwen3.6-35B 这样的模型，硬件门槛是首要考量。由于 Apple Silicon 采用统一内存架构，模型权重必须完全装入内存才能高效调度。因此，该实践明确指出，电脑需配备 M1、M2、M3 或 M4 系列芯片，且统一内存至少需要 48GB。对于拥有 64GB 甚至 96GB 内存的高端机型，运行体验将更为从容，能够提供更长的上下文窗口。

在软件与算法层面，该方案采用了 4 位（4-bit）量化技术。这一技术通过将模型权重的精度从传统的 16 位压缩至 4 位，极大地降低了内存占用并提升了计算速度，同时最大程度保留了模型的智能表现。配合 Apple 的 MLX 框架——一个为机器学习在 Mac 上专门打造的底层架构，模型在本地实现了高达 77 tok/s（每秒 Token 数）的生成速度。对于日常开发辅助、长文档处理或代码生成而言，这一速度已完全达到高效可用的标准。

除了性能，兼容性和易用性也是此次部署方案的核心亮点。在完成大约 20 至 40 分钟的安装与下载（大部分时间用于拉取庞大的模型文件）后，用户将启动一个本地推理服务器。该服务完全兼容 OpenAI API 标准，这意味着现有的各类 AI 客户端、IDE 插件（如 Cursor、Obsidian 笔记插件等）无需修改任何代码，即可直接接入本地的 Qwen 模型。

这一实践不仅展示了 Apple Silicon 在端侧 AI 领域的强大潜力，也标志着大模型应用正从“云端黑盒”向“端侧可控”加速演进。对于开发者和企业而言，这意味着更低的 API 调用成本、绝对的数据隐私安全性，以及不受网络波动限制的随时可用的 AI 能力。