Déployez Qwen3.6-35B en local sur un Mac grâce à MLX, à 77 tok/s

Cet article détaille les étapes pour exécuter le modèle Qwen3.6-35B-A3B (quantifié en 4 bits) directement sur un Mac à puce Apple Silicon (M1 à M4) doté d'au moins 48 Go de RAM unifiée, en utilisant le framework MLX d'Apple. L'ensemble du processus prend environ 20 à 40 minutes, majoritairement consacré au téléchargement du modèle. Une fois l'installation terminée, un serveur d'inférence local compatible API OpenAI sera disponible à l'adresse http://127.0.0.1:7979, prêt à être relié à tout client AI standard tout en préservant la confidentialité de vos données.

Contexte

This guide shows how to run the Qwen3.6-35B-A3B model (4-bit quantized) locally on an Apple Silicon Mac (M1/M2/M3/M4) with at least 48 GB of unified RAM using Apple's MLX framework. Setup takes 20-40 minutes, mostly spent on model download. By the end, you'll have an OpenAI API-compatible local inference server running at http://127.0.0.1:7979, ready to serve any OpenAI-compatible client.

Analyse approfondie

How to Run Qwen3.6-35B on Your Mac at 77 tok/s

Impact industriel

AI industry dynamics in 2026 Q1 continue to evolve rapidly, with this development representing a significant milestone in the transition from technology breakthroughs to mass commercialization.

Perspectives

The convergence of infrastructure investment growth, security standardization, open-source competition, and agentic AI deployment will reshape the technology landscape over the next 12-18 months.