Ga naar inhoud

Automatische vertaling

Dit artikel is automatisch vertaald vanuit de oorspronkelijke Engelse versie.

Beste lokale LLM-tools voor macOS

Lokale LLM-tools op macOS vallen uiteen in vier taken: eenvoudig serveren, GUI-verkenning, low-level controle over inferentie en Apple Silicon-native experimenten. Eén tool hoeft niet alle vier te doen.

Mijn standaardkeuze: gebruik Ollama voor een lokale API. Gebruik LM Studio voor modelverkenning. Gebruik llama.cpp wanneer je GGUF-runtimecontrole nodig hebt. Gebruik MLX wanneer je Apple Silicon-native Python-werk dicht op het model wilt.

Aanbevelingstabel

Tool Beste in Gebruik wanneer Belangrijkste afweging
Ollama Eenvoudige lokale modelserver en modellevenscyclus Je snel een lokaal endpoint wilt Minder low-level controle dan llama.cpp.
LM Studio GUI-chat, modelontdekking en lokale serverworkflows Je modellen wilt vergelijken zonder glue code te schrijven Desktopabstractie verbergt runtimedetails.
llama.cpp GGUF-inferentie, kwantisatie, serverflags, Metal-controle Je controle nodig hebt over context, batch, kwantisatie en runtimegedrag Meer setup en meer flags.
MLX Apple Silicon-native arrays en modelworkflows Je experimenten op Python-niveau wilt op Macs met een M-series-chip Kleiner serving-ecosysteem dan Ollama of llama.cpp.

Welke moet je als eerste installeren?

Installeer Ollama eerst als je software bouwt. Veel apps weten ermee te praten, en de lokale API is voldoende voor prototypes, tests en kleine interne tools. Het is de kortste route van "ik heb een lokaal model nodig" naar "mijn app kan een lokaal model aanroepen."

Installeer LM Studio eerst als je een model kiest. Het is goed voor het bladeren door modellen, het wijzigen van instellingen, het vergelijken van output en het draaien van een OpenAI-compatibele lokale server zonder de workflow zelf te hoeven ontwerpen.

Installeer llama.cpp eerst als de mechaniek van inferentie belangrijk voor je is. Contextlengte, kwantisatie, Metal-flags, promptverwerking, batchgroottes en servergedrag zijn makkelijker te inspecteren wanneer je dichter op de runtime zit.

Gebruik MLX wanneer het werk niet alleen bestaat uit het serveren van een chatmodel. Het past goed bij Apple Silicon-native modeleexperimenten, conversie, fine-tuning en Python-workflows waarin unified memory onderdeel van het ontwerp is.

Workflowmatrix

Workflow Standaard Waarom
Lokale API voor een app Ollama Stabiele developer ergonomics en brede integratieondersteuning.
Handmatige modelvergelijking LM Studio Een GUI maakt prompt- en modelvergelijking sneller.
Performance-debugging llama.cpp Je kunt de runtimeknoppen zien en aansturen.
Geserveerde gekwantiseerde GGUF-modellen llama.cpp of Ollama Gebruik llama.cpp voor controle, Ollama voor gemak.
Apple Silicon-modelexperimenten MLX Native arrayframework en modeltooling voor Macs met een M-series-chip.
Demo voor niet-technische stakeholders LM Studio Makkelijk interactief te tonen en bij te stellen.
Reproduceerbare engineering-setup Ollama plus een gepinde modellijst Makkelijker te scripten dan een workflow met alleen een GUI.

Hardware-opmerkingen

Unified memory is de echte beperking op Apple Silicon. Een model dat op een MacBook Pro met 64 GB past, kan onbruikbaar zijn op een MacBook Air met 8 GB. Kwantisatie helpt, maar contextlengte kan ongemerkt het geheugengebruik domineren. Benchmark de daadwerkelijke promptvorm in plaats van alleen naar de modelnaam te kijken.

Voor kleine lokale tools is een model in de 7B- of 8B-klasse vaak nuttiger dan een overbelast groter model. Voor coding kunnen lange context en toolintegratie belangrijker zijn dan een ruwe benchmarkscore. Voor document-QA domineert retrievalkwaliteit meestal de keuze van het lokale model.

Wat je niet moet doen

Maak van lokale LLM-setup geen permanent benchmarkproject tenzij performance het product is. Begin met Ollama of LM Studio. Bewijs dat lokale inferentie helpt. Ga daarna pas verder naar llama.cpp of MLX wanneer je daar een concrete reden voor hebt.

Vergelijk modellen niet alleen in een chat-UI als de echte workload bestaat uit gestructureerde extractie, codebewerking of RAG-antwoordsynthese. Schrijf een klein eval-script met representatieve prompts.

Verder lezen

Referenties