Liquid AI, een spin-off van MIT, heeft een gedetailleerd technisch rapport gepubliceerd over zijn Liquid Foundation Models series 2 (LFM2), dat effectief een blauwdruk biedt voor het trainen van hoogwaardige, kleinschalige AI-modellen rechtstreeks op apparaten. Deze stap daagt de traditionele afhankelijkheid van grote cloudgebaseerde taalmodellen (LLM’s) uit door aan te tonen dat capabele AI efficiënt kan werken op telefoons, laptops en ingebedde systemen zonder dat dit ten koste gaat van de prestaties.
De verschuiving naar AI op het apparaat
Jarenlang zijn bedrijven geconditioneerd om te geloven dat geavanceerde AI enorme rekenbronnen vereist die doorgaans worden aangetroffen in datacenters in de cloud. De LFM2-modellen van Liquid AI, variërend van 350 miljoen tot 1,2 miljard parameters, bewijzen dat dit niet noodzakelijkerwijs waar is. Deze modellen, geoptimaliseerd voor snelheid en efficiëntie, presteren beter dan veel grotere open-sourcealternatieven wat betreft CPU-doorvoer en kwaliteitsbenchmarks, waardoor realtime, privacybeschermende AI haalbaar wordt op hardware met beperkte middelen.
De uitbreiding van het bedrijf naar taakspecifieke varianten, videoanalyse en edge deployment stacks (LEAP) duidt op een bredere strategie: deze modellen positioneren als de kern van agentische systemen op apparaten. De publicatie van het technische LFM2-rapport over arXiv gaat nog een stap verder en biedt een gedetailleerd recept voor andere organisaties om het proces te repliceren, van het zoeken naar architectuur tot de pipelines na de training.
Waarom dit belangrijk is: operationele beperkingen stimuleren innovatie
De belangrijkste conclusie is dat de praktische AI-ontwikkeling wordt beperkt door beperkingen in de praktijk, zoals latentiebudgetten, geheugenplafonds en thermische beperking. De aanpak van Liquid AI pakt dit direct aan.
In plaats van academische benchmarks na te streven, gaf het bedrijf prioriteit aan het zoeken naar hardware-in-the-loop-architectuur, wat resulteerde in een consistent ontwerp dat werd gedomineerd door gated korte convoluties en minimale GQA-lagen (grouped-query-aandacht). Dit ontwerp werd herhaaldelijk gekozen omdat het onder reële omstandigheden de beste wisselwerking tussen kwaliteit, latentie en geheugen opleverde.
Voor bedrijven vertaalt dit zich in:
- Voorspelbaarheid: Een eenvoudige, stabiele architectuur die betrouwbaar schaalbaar is.
- Draagbaarheid: Varianten met hoge dichtheid en Mixture-of-Experts (MoE) delen een gemeenschappelijke structuur voor eenvoudige implementatie op diverse hardware.
- Haalbaarheid: Superieure CPU-doorvoer vermindert de afhankelijkheid van dure cloud-inferentie-eindpunten.
Trainingspijplijn voor betrouwbaar gedrag
Het trainingsproces van LFM2 compenseert kleinere modelgroottes door middel van strategisch ontwerp. Belangrijke elementen zijn onder meer 10-12T token-voortraining met een uitgebreide 32K-contextfase en een ontkoppelde Top-K-kennisdistillatiedoelstelling. De modellen worden verfijnd via een post-trainingsreeks in drie fasen (SFT, op lengte genormaliseerde voorkeursuitlijning en het samenvoegen van modellen) om betrouwbaar volgen van instructies en gebruik van hulpmiddelen te garanderen.
Het resultaat is niet zomaar een kleine LLM; het is een agent die in staat is tot gestructureerde formaten, JSON-schema’s en chatstromen met meerdere beurten. Veel open modellen van vergelijkbare afmetingen worstelen niet met redeneren, maar met een broze naleving van instructiesjablonen.
Multimodaliteit geoptimaliseerd voor apparaatbeperkingen
LFM2 breidt zich uit naar multimodale toepassingen met varianten als LFM2-VL (vision) en LFM2-Audio. Deze modellen geven prioriteit aan token-efficiëntie boven pure capaciteit. LFM2-VL gebruikt PixelUnshuffle om het aantal visuele tokens te verminderen, waarbij invoer met hoge resolutie dynamisch naast elkaar wordt geplaatst om binnen de apparaatbeperkingen te passen. LFM2-Audio maakt gebruik van een gesplitste aanpak voor transcriptie en spraakgeneratie op bescheiden CPU’s.
Dit ontwerp maakt toepassingen in de echte wereld mogelijk, zoals het begrijpen van documenten op het apparaat, lokale audiotranscriptie en multimodale agenten die binnen vaste latentie-enveloppen werken.
De hybride toekomst van zakelijke AI
Het werk van Liquid AI wijst in de richting van een hybride architectuur waarin kleine, snelle modellen op het apparaat tijdkritische taken uitvoeren (waarneming, opmaak, het aanroepen van tools), terwijl grotere cloudmodellen zware redeneringen afhandelen. Deze aanpak biedt:
- Kostenbeheersing: Vermijdt onvoorspelbare cloudfacturering voor routinematige gevolgtrekkingen.
- Latentiedeterminisme: Elimineert netwerkstoringen in agentworkflows.
- Beheer en naleving: Vereenvoudigt de verwerking van PII en de opslag van gegevens.
- Veerkracht: Behoudt functionaliteit, zelfs bij problemen met de cloudconnectiviteit.
Bedrijven zullen modellen op apparaten waarschijnlijk beschouwen als het ‘controlevlak’ voor agentische systemen, waarbij ze gebruik maken van cloudmodellen voor on-demand acceleratie.
Conclusie
LFM2 van Liquid AI vertegenwoordigt een verschuiving in de AI-ontwikkeling van ondernemingen. AI op het apparaat is niet langer een compromis, maar een haalbare ontwerpkeuze, die concurrerende prestaties, operationele betrouwbaarheid en architectonische convergentie biedt. De toekomst is niet cloud of edge; het is allebei, samenwerkend. Releases zoals LFM2 bieden de bouwstenen voor organisaties die klaar zijn om deze hybride toekomst doelbewust te bouwen.

































































