TurboQuant vectorquantisatie is de nieuwste poging van Google Research om een van de knelpunten in de inferentie van grote taalmodellen aan te pakken: de steeds groter wordende key-value (KV) cache. Het idee, uiteengezet in een Google Research-artikel en ondersteund door een arXiv-preprint, gaat niet over het verkleinen van modelgewichten, maar over het comprimeren van het geheugengebruik dat nodig is om de aandachtgeschiedenis op te slaan. Om de  problematiek beter te begrijpen zou u eerst dit artikel van Elektor over AI-native silicium kunnen lezen.

Resultaten van TurboQuant vector quantization

Als je probeert langere contexten te draaien, meer gebruikers te bedienen of meer capabele modellen op dezelfde accelerator te passen, wordt KV-cachegeheugen al snel een knelpunt. Volgens Google kan TurboQuant het KV-cachegeheugengebruik met minstens 6x kan verminderen op naald-in-een-hooiberg benchmarks, de cache kan quantiseren naar 3 bits zonder training of fine-tuning, en tot 8x versnelling kan leveren voor aandacht-logit berekeningen op H100 GPU's. Geheugensnelheid en cachegrootte zijn nu inmiddels belangrijke ontwerpeisen voor moderne inferentie.

Wat TurboQuant vector quantization verandert

Het artikel beschrijft een tweefasige methode. Eerst komt PolarQuant, dat de gegevens roteert en herstructureert zodat scalair quantisatie ongebruikelijk goed werkt zonder de gebruikelijke overhead.

Diagram met de titel PolarQuant dat originele cartesiaanse invoervectoren toont die zijn getransformeerd in polaire componenten voor quantisatie.
PolarQuant Transformatie Diagram. Bron: Google

Daarna komt QJL, een 1-bits residuele stap die bedoeld is om bias in de schatting van inwendige producten te verwijderen. In gewone taal, het algorithme probeert de KV-cache te comprimeren zonder de aandachtsmathematica te verstoren die het model gebruikt. De auteurs rapporteren absolute kwaliteitsneutraliteit bij 3,5 bits per kanaal en slechts marginale degradatie bij 2,5 bits per kanaal in KV-cache-experimenten, wat een meer onderbouwde manier is om de "nulverlies" boodschap te interpreteren.

De vraag is natuurlijk of vectorquantisatie zijn weg zal vinden in mainstream inferentiestacks om relevant te worden buiten artikelen, benchmarkgrafieken en blogposts. Het werk van Google zal later deze maand worden gepresenteerd op ICLR 2026, terwijl het gerelateerde PolarQuant-werk gepland staat voor AISTATS 2026.

Inschrijven
Tagmelding: Abonneer u op de tag Embedded & AI en u ontvangt een e-mail zodra er een nieuw item hierover op onze website wordt gepubliceerd!