Liquid AI publie un plan pour la formation des petits modèles de niveau entreprise

7

Liquid AI, une spin-off du MIT, a publié un rapport technique détaillé sur sa série 2 de modèles Liquid Foundation (LFM2), fournissant effectivement un modèle pour la formation de modèles d’IA hautes performances à petite échelle directement sur les appareils. Cette décision remet en question la dépendance traditionnelle à l’égard des grands modèles linguistiques basés sur le cloud (LLM) en démontrant qu’une IA performante peut fonctionner efficacement sur les téléphones, les ordinateurs portables et les systèmes embarqués sans sacrifier les performances.

La transition vers l’IA sur appareil

Pendant des années, les entreprises ont été conditionnées à croire que l’IA de pointe exige d’immenses ressources informatiques que l’on trouve généralement dans les centres de données cloud. Les modèles LFM2 de Liquid AI, allant de 350 M à 1,2 B de paramètres, prouvent que ce n’est pas nécessairement vrai. Ces modèles, optimisés pour la vitesse et l’efficacité, surpassent de nombreuses alternatives open source plus importantes en termes de débit CPU et de tests de qualité, rendant l’IA en temps réel préservant la confidentialité viable sur du matériel aux ressources limitées.

L’expansion de l’entreprise dans les variantes spécifiques à des tâches, l’analyse vidéo et les piles de déploiement de périphérie (LEAP) signale une stratégie plus large : positionner ces modèles comme le cœur des systèmes agentiques sur appareil. La publication du rapport technique LFM2 sur arXiv va plus loin, en proposant une recette détaillée permettant à d’autres organisations de reproduire le processus depuis la recherche d’architecture jusqu’aux pipelines post-formation.

Pourquoi c’est important : les contraintes opérationnelles stimulent l’innovation

Le point clé à retenir est que le développement pratique de l’IA est limité par des limitations du monde réel telles que les budgets de latence, les plafonds de mémoire et la limitation thermique. L’approche de Liquid AI répond directement à ce problème.

Au lieu de rechercher des références académiques, l’entreprise a donné la priorité à la recherche d’architecture hardware-in-the-loop, ce qui a abouti à une conception cohérente dominée par des convolutions courtes fermées et des couches minimales d’attention aux requêtes groupées (GQA). Cette conception a été sélectionnée à plusieurs reprises car elle offrait le meilleur compromis qualité-latence-mémoire dans des conditions réelles.

Pour les entreprises, cela se traduit par :

  • Prévisibilité : Une architecture simple et stable qui évolue de manière fiable.
  • Portabilité : Les variantes Dense et Mixture-of-Experts (MoE) partagent une structure commune pour un déploiement facile sur divers matériels.
  • Faisabilité : Un débit CPU supérieur réduit la dépendance à l’égard de points de terminaison d’inférence cloud coûteux.

Pipeline de formation pour un comportement fiable

Le processus de formation du LFM2 compense les petites tailles de modèles grâce à une conception stratégique. Les éléments clés incluent une pré-formation de jetons 10 à 12T avec une phase de contexte étendue de 32K et un objectif découplé de distillation des connaissances Top-K. Les modèles sont affinés grâce à une séquence post-formation en trois étapes (SFT, alignement des préférences normalisées en longueur et fusion de modèles) pour garantir un suivi fiable des instructions et une utilisation des outils.

Le résultat n’est pas seulement un petit LLM ; c’est un agent capable de formats structurés, de schémas JSON et de flux de discussion multi-tours. De nombreux modèles ouverts de tailles similaires ont du mal non pas à raisonner, mais à adhérer de manière fragile aux modèles d’instructions.

Multimodalité optimisée pour les contraintes des appareils

LFM2 s’étend aux applications multimodales avec des variantes comme LFM2-VL (vision) et LFM2-Audio. Ces modèles donnent la priorité à l’efficacité des jetons plutôt qu’à la simple capacité. LFM2-VL utilise PixelUnshuffle pour réduire le nombre de jetons visuels, en mosaïque dynamiquement les entrées haute résolution pour s’adapter aux contraintes de l’appareil. LFM2-Audio utilise une approche bifurquée pour la transcription et la génération vocale sur des processeurs modestes.

Cette conception permet des applications réelles telles que la compréhension de documents sur l’appareil, la transcription audio locale et les agents multimodaux fonctionnant dans des enveloppes de latence fixes.

L’avenir hybride de l’IA d’entreprise

Le travail de Liquid AI s’oriente vers une architecture hybride dans laquelle de petits modèles rapides sur appareil gèrent des tâches urgentes (perception, formatage, appel d’outils) tandis que des modèles cloud plus grands gèrent un raisonnement lourd. Cette approche propose :

  • Contrôle des coûts : évite une facturation cloud imprévisible pour les inférences de routine.
  • Déterminisme de latence : Élimine la gigue du réseau dans les flux de travail des agents.
  • Gouvernance et conformité : Simplifie la gestion des informations personnelles et la résidence des données.
  • Résilience : Maintient la fonctionnalité même en cas de problèmes de connectivité cloud.

Les entreprises considéreront probablement les modèles intégrés aux appareils comme un « plan de contrôle » pour les systèmes agents, tirant parti des modèles cloud pour une accélération à la demande.

Conclusion

Le LFM2 de Liquid AI représente un changement dans le développement de l’IA d’entreprise. L’IA sur appareil n’est plus un compromis mais un choix de conception viable, offrant des performances compétitives, une fiabilité opérationnelle et une convergence architecturale. L’avenir n’est pas le cloud ou la périphérie ; ce sont les deux qui travaillent de concert. Des versions comme LFM2 fournissent les éléments de base pour les organisations prêtes à construire intentionnellement cet avenir hybride.