
Parameter-Efficient Fine-Tuning (PEFT) is een familie technieken voor het aanpassen van grote voorgetrainde modellen aan specifieke taken door slechts een kleine subset van parameters bij te werken, waardoor de computationele kosten en geheugenvereisten drastisch worden verlaagd vergeleken met volledige fine-tuning.
In 2026 is PEFT de standaardbenadering geworden voor het aanpassen van grote taalmodellen en vision-language modellen, met methoden als LoRA, QLoRA en adapterlagen geïntegreerd in gangbare trainingsframeworks zoals Hugging Face TRL en PEFT-bibliotheken.
Waarom het belangrijk is
Volledige fine-tuning van een 70-miljard-parameter model vereist honderden gigabytes aan GPU-geheugen en aanzienlijke trainingstijd — waardoor het buiten bereik is voor de meeste organisaties. PEFT-technieken verminderen dit met 90–99%, waardoor modelaanpassing toegankelijk wordt op consumentenhardware. Deze democratisering stelt kleine teams in staat om gespecialiseerde AI-applicaties te bouwen (klantenservice, juridische documentanalyse, medische diagnostiek) zonder enorme infrastructuurinvesteringen.
Hoe het werkt
PEFT-methoden delen een kernidee: in plaats van alle modelweights bij te werken, introduceren of selecteren ze een klein aantal trainbare parameters terwijl de rest wordt bevroren. LoRA (Low-Rank Adaptation) ontleedt weightaanpassingen in laag-rang matrices, waarbij slechts 0,1–1% nieuwe parameters worden toegevoegd. QLoRA combineert LoRA met 4-bit kwantisatie van het basismodel, waardoor het geheugengebruik verder wordt verminderd. Adapterlagen voegen kleine trainbare modules in tussen bestaande Transformer-lagen. Tijdens inferentie kunnen de PEFT-aanpassingen vaak worden teruggevouwen in de basisweights, waardoor er geen extra latency-overhead is.
Voorbeeld
Een healthcare-startup heeft een model nodig dat radiologierapporten begrijpt. In plaats van €50.000 uit te geven aan volledige fine-tuning van een 70B-model, passen ze QLoRA toe: het basismodel wordt geladen in 4-bit precisie (passend in 40 GB VRAM), en slechts 20 miljoen adapterparameters worden getraind op 10.000 radiologierapporten. De volledige trainingssessie is afgerond op één A100 GPU in minder dan 4 uur, wat een specialistisch model oplevert dat het basismodel overtreft op radiologietaken.
Verwante concepten
- LoRA (Low-Rank Adaptation)
- Fine-Tuning
- Quantization