无需云端:在 Mac 上本地部署 Qwen3.6-35B,推理速度达 77 tok/s
本文详细指导如何在配备 Apple Silicon 芯片(M1/M2/M3/M4)且内存不低于 48GB 的 Mac 电脑上,利用 Apple 自家推出的 MLX 框架本地部署 Qwen3.6-35B-A3B 大模型。通过 4 位量化技术,该方案在本地即可实现高达 77 tok/s 的生成速度。整个过程耗时约 20 至 40 分钟,主要时间消耗在于模型下载。部署完成后,用户将获得一个兼容 OpenAI API 的本地推理服务,可无缝对接各类主流 AI 客户端,兼顾隐私与效率。
随着大语言模型(LLM)能力的不断增强,开发者对本地部署 AI 的需求日益增长,尤其是在注重数据隐私和离线可用性的场景下。近日,一项针对 Apple Silicon 芯片 Mac 电脑的 Qwen3.6-35B-A3B 模型本地部署方案引发了广泛关注。该方案利用 Apple 专为自家硬件优化的 MLX 框架,成功在消费级设备上跑出了令人瞩目的性能,证明了端侧运行中大型语言模型的可行性。
要在 Mac 上流畅运行 Qwen3.6-35B 这样的模型,硬件门槛是首要考量。由于 Apple Silicon 采用统一内存架构,模型权重必须完全装入内存才能高效调度。因此,该实践明确指出,电脑需配备 M1、M2、M3 或 M4 系列芯片,且统一内存至少需要 48GB。对于拥有 64GB 甚至 96GB 内存的高端机型,运行体验将更为从容,能够提供更长的上下文窗口。
在软件与算法层面,该方案采用了 4 位(4-bit)量化技术。这一技术通过将模型权重的精度从传统的 16 位压缩至 4 位,极大地降低了内存占用并提升了计算速度,同时最大程度保留了模型的智能表现。配合 Apple 的 MLX 框架——一个为机器学习在 Mac 上专门打造的底层架构,模型在本地实现了高达 77 tok/s(每秒 Token 数)的生成速度。对于日常开发辅助、长文档处理或代码生成而言,这一速度已完全达到高效可用的标准。
除了性能,兼容性和易用性也是此次部署方案的核心亮点。在完成大约 20 至 40 分钟的安装与下载(大部分时间用于拉取庞大的模型文件)后,用户将启动一个本地推理服务器。该服务完全兼容 OpenAI API 标准,这意味着现有的各类 AI 客户端、IDE 插件(如 Cursor、Obsidian 笔记插件等)无需修改任何代码,即可直接接入本地的 Qwen 模型。
这一实践不仅展示了 Apple Silicon 在端侧 AI 领域的强大潜力,也标志着大模型应用正从“云端黑盒”向“端侧可控”加速演进。对于开发者和企业而言,这意味着更低的 API 调用成本、绝对的数据隐私安全性,以及不受网络波动限制的随时可用的 AI 能力。