L’intelligenza artificiale liquida rilascia un progetto per la formazione su piccoli modelli di livello aziendale

2

Liquid AI, uno spin-off del MIT, ha pubblicato un rapporto tecnico dettagliato sui suoi Liquid Foundation Models serie 2 (LFM2), fornendo di fatto un modello per l’addestramento di modelli AI su piccola scala e ad alte prestazioni direttamente sui dispositivi. Questa mossa sfida la tradizionale dipendenza da grandi modelli linguistici basati su cloud (LLM), dimostrando che un’intelligenza artificiale capace può funzionare in modo efficiente su telefoni, laptop e sistemi integrati senza sacrificare le prestazioni.

Il passaggio all’intelligenza artificiale integrata nel dispositivo

Per anni, le aziende sono state condizionate a credere che l’intelligenza artificiale all’avanguardia richieda immense risorse computazionali tipicamente presenti nei data center cloud. I modelli LFM2 di Liquid AI, che vanno da 350 milioni a 1,2 miliardi di parametri, dimostrano che questo non è necessariamente vero. Questi modelli, ottimizzati per velocità ed efficienza, superano molte alternative open source più grandi in termini di throughput della CPU e benchmark di qualità, rendendo possibile l’intelligenza artificiale in tempo reale e che preserva la privacy su hardware con risorse limitate.

L’espansione dell’azienda in varianti specifiche per attività, analisi video e stack di distribuzione edge (LEAP) segnala una strategia più ampia: posizionare questi modelli come il nucleo dei sistemi agentici sul dispositivo. La pubblicazione del rapporto tecnico LFM2 su arXiv va oltre, offrendo una ricetta dettagliata ad altre organizzazioni per replicare il processo dalla ricerca dell’architettura alle pipeline post-formazione.

Perché è importante: i vincoli operativi guidano l’innovazione

Il punto fondamentale è che lo sviluppo pratico dell’intelligenza artificiale è vincolato da limitazioni del mondo reale come budget di latenza, limiti di memoria e limitazione termica. L’approccio dell’intelligenza artificiale liquida affronta questo problema direttamente.

Invece di inseguire benchmark accademici, l’azienda ha dato priorità alla ricerca dell’architettura hardware-in-the-loop, ottenendo un design coerente dominato da brevi convoluzioni recintate e livelli minimi di attenzione alle query raggruppate (GQA). Questo design è stato selezionato più volte perché offriva il miglior compromesso tra qualità, latenza e memoria in condizioni reali.

Per le imprese ciò si traduce in:

  • Prevedibilità: un’architettura semplice e stabile con scalabilità affidabile.
  • Portabilità: le varianti Dense e Mixture-of-Experts (MoE) condividono una struttura comune per una facile implementazione su hardware diversi.
  • Fattibilità: Il throughput superiore della CPU riduce la dipendenza da costosi endpoint di inferenza cloud.

Pipeline di formazione per un comportamento affidabile

Il processo di formazione di LFM2 compensa le dimensioni dei modelli più piccoli attraverso la progettazione strategica. Gli elementi chiave includono la pre-formazione dei token 10-12T con una fase estesa del contesto 32K e un obiettivo di distillazione della conoscenza Top-K disaccoppiato. I modelli vengono perfezionati attraverso una sequenza post-addestramento in tre fasi: SFT, allineamento delle preferenze normalizzate in lunghezza e fusione dei modelli, per garantire un seguito affidabile delle istruzioni e un utilizzo affidabile degli strumenti.

Il risultato non è solo un piccolo LLM; è un agente capace di formati strutturati, schemi JSON e flussi di chat multi-turno. Molti modelli aperti di dimensioni simili hanno difficoltà non con il ragionamento ma con una scarsa aderenza ai modelli di istruzioni.

Multimodalità ottimizzata per i vincoli dei dispositivi

LFM2 si estende ad applicazioni multimodali con varianti come LFM2-VL (visione) e LFM2-Audio. Questi modelli danno priorità all’efficienza dei token rispetto alla pura capacità. LFM2-VL utilizza PixelUnshuffle per ridurre il conteggio dei token visivi, affiancando dinamicamente gli input ad alta risoluzione per adattarsi ai vincoli del dispositivo. LFM2-Audio utilizza un approccio biforcato per la trascrizione e la generazione del parlato su CPU modeste.

Questo design consente applicazioni del mondo reale come la comprensione dei documenti sul dispositivo, la trascrizione audio locale e agenti multimodali che operano all’interno di inviluppi di latenza fissi.

Il futuro ibrido dell’intelligenza artificiale aziendale

Il lavoro dell’intelligenza artificiale liquida punta verso un’architettura ibrida in cui modelli piccoli e veloci sul dispositivo gestiscono attività critiche in termini di tempo (percezione, formattazione, invocazione di strumenti) mentre modelli cloud più grandi gestiscono ragionamenti pesanti. Questo approccio offre:

  • Controllo dei costi: Evita la fatturazione cloud imprevedibile per inferenze di routine.
  • Determinismo della latenza: Elimina il jitter di rete nei flussi di lavoro degli agenti.
  • Governance e conformità: Semplifica la gestione delle PII e la residenza dei dati.
  • Resilienza: mantiene la funzionalità anche in caso di problemi di connettività cloud.

Le aziende probabilmente tratteranno i modelli on-device come il “piano di controllo” per i sistemi ad agenti, sfruttando i modelli cloud per l’accelerazione on-demand.

Conclusione

LFM2 di Liquid AI rappresenta un cambiamento nello sviluppo dell’IA aziendale. L’intelligenza artificiale on-device non è più un compromesso ma una scelta progettuale praticabile, che offre prestazioni competitive, affidabilità operativa e convergenza dell’architettura. Il futuro non è cloud o edge; è entrambe le cose, lavorare di concerto. Rilasci come LFM2 forniscono gli elementi costitutivi per le organizzazioni pronte a costruire intenzionalmente questo futuro ibrido.