Automatische vertaling
Dit artikel is automatisch vertaald vanuit de oorspronkelijke Engelse versie.
Beste lokale LLM-tools voor macOS
Lokale LLM-tools op macOS vallen uiteen in vier taken: eenvoudig serveren, GUI-verkenning, low-level controle over inferentie en Apple Silicon-native experimenten. Eén tool hoeft niet alle vier te doen.
Mijn standaardkeuze: gebruik Ollama voor een lokale API. Gebruik LM Studio voor modelverkenning. Gebruik llama.cpp wanneer je GGUF-runtimecontrole nodig hebt. Gebruik MLX wanneer je Apple Silicon-native Python-werk dicht op het model wilt.
Aanbevelingstabel
| Tool | Beste in | Gebruik wanneer | Belangrijkste afweging |
|---|---|---|---|
| Ollama | Eenvoudige lokale modelserver en modellevenscyclus | Je snel een lokaal endpoint wilt | Minder low-level controle dan llama.cpp. |
| LM Studio | GUI-chat, modelontdekking en lokale serverworkflows | Je modellen wilt vergelijken zonder glue code te schrijven | Desktopabstractie verbergt runtimedetails. |
| llama.cpp | GGUF-inferentie, kwantisatie, serverflags, Metal-controle | Je controle nodig hebt over context, batch, kwantisatie en runtimegedrag | Meer setup en meer flags. |
| MLX | Apple Silicon-native arrays en modelworkflows | Je experimenten op Python-niveau wilt op Macs met een M-series-chip | Kleiner serving-ecosysteem dan Ollama of llama.cpp. |
Welke moet je als eerste installeren?
Installeer Ollama eerst als je software bouwt. Veel apps weten ermee te praten, en de lokale API is voldoende voor prototypes, tests en kleine interne tools. Het is de kortste route van "ik heb een lokaal model nodig" naar "mijn app kan een lokaal model aanroepen."
Installeer LM Studio eerst als je een model kiest. Het is goed voor het bladeren door modellen, het wijzigen van instellingen, het vergelijken van output en het draaien van een OpenAI-compatibele lokale server zonder de workflow zelf te hoeven ontwerpen.
Installeer llama.cpp eerst als de mechaniek van inferentie belangrijk voor je is. Contextlengte, kwantisatie, Metal-flags, promptverwerking, batchgroottes en servergedrag zijn makkelijker te inspecteren wanneer je dichter op de runtime zit.
Gebruik MLX wanneer het werk niet alleen bestaat uit het serveren van een chatmodel. Het past goed bij Apple Silicon-native modeleexperimenten, conversie, fine-tuning en Python-workflows waarin unified memory onderdeel van het ontwerp is.
Workflowmatrix
| Workflow | Standaard | Waarom |
|---|---|---|
| Lokale API voor een app | Ollama | Stabiele developer ergonomics en brede integratieondersteuning. |
| Handmatige modelvergelijking | LM Studio | Een GUI maakt prompt- en modelvergelijking sneller. |
| Performance-debugging | llama.cpp | Je kunt de runtimeknoppen zien en aansturen. |
| Geserveerde gekwantiseerde GGUF-modellen | llama.cpp of Ollama | Gebruik llama.cpp voor controle, Ollama voor gemak. |
| Apple Silicon-modelexperimenten | MLX | Native arrayframework en modeltooling voor Macs met een M-series-chip. |
| Demo voor niet-technische stakeholders | LM Studio | Makkelijk interactief te tonen en bij te stellen. |
| Reproduceerbare engineering-setup | Ollama plus een gepinde modellijst | Makkelijker te scripten dan een workflow met alleen een GUI. |
Hardware-opmerkingen
Unified memory is de echte beperking op Apple Silicon. Een model dat op een MacBook Pro met 64 GB past, kan onbruikbaar zijn op een MacBook Air met 8 GB. Kwantisatie helpt, maar contextlengte kan ongemerkt het geheugengebruik domineren. Benchmark de daadwerkelijke promptvorm in plaats van alleen naar de modelnaam te kijken.
Voor kleine lokale tools is een model in de 7B- of 8B-klasse vaak nuttiger dan een overbelast groter model. Voor coding kunnen lange context en toolintegratie belangrijker zijn dan een ruwe benchmarkscore. Voor document-QA domineert retrievalkwaliteit meestal de keuze van het lokale model.
Wat je niet moet doen
Maak van lokale LLM-setup geen permanent benchmarkproject tenzij performance het product is. Begin met Ollama of LM Studio. Bewijs dat lokale inferentie helpt. Ga daarna pas verder naar llama.cpp of MLX wanneer je daar een concrete reden voor hebt.
Vergelijk modellen niet alleen in een chat-UI als de echte workload bestaat uit gestructureerde extractie, codebewerking of RAG-antwoordsynthese. Schrijf een klein eval-script met representatieve prompts.
Verder lezen
- Lokale LLM's op macOS behandelt de praktische setup.
- Open-source LLM-varianten en bestandsformaten legt GGUF, GPTQ, AWQ, basismodellen en instruct-modellen uit.
- MacBook-setup voor AI engineering behandelt de bredere workstation-setup.