Liquid AI veröffentlicht Blaupause für die Schulung kleiner Modelle auf Unternehmensniveau

17

Liquid AI, ein Spin-off des MIT, hat einen detaillierten technischen Bericht über seine Liquid Foundation Models Serie 2 (LFM2) veröffentlicht, der praktisch eine Blaupause für das Training leistungsstarker, kleiner KI-Modelle direkt auf Geräten liefert. Dieser Schritt stellt die traditionelle Abhängigkeit von großen cloudbasierten Sprachmodellen (LLMs) in Frage, indem er zeigt, dass leistungsfähige KI auf Telefonen, Laptops und eingebetteten Systemen ohne Leistungseinbußen effizient arbeiten kann.

Der Wandel hin zur On-Device-KI

Seit Jahren sind Unternehmen davon überzeugt, dass modernste KI immense Rechenressourcen erfordert, die typischerweise in Cloud-Rechenzentren zu finden sind. Die LFM2-Modelle von Liquid AI mit Parametern von 350 M bis 1,2 B beweisen, dass dies nicht unbedingt der Fall ist. Diese auf Geschwindigkeit und Effizienz optimierten Modelle übertreffen viele größere Open-Source-Alternativen in Bezug auf CPU-Durchsatz und Qualitätsbenchmarks und machen datenschutzschonende Echtzeit-KI auf ressourcenbeschränkter Hardware realisierbar.

Die Expansion des Unternehmens in aufgabenspezifische Varianten, Videoanalyse und Edge Deployment Stacks (LEAP) signalisiert eine umfassendere Strategie: die Positionierung dieser Modelle als Kern geräteinterner Agentensysteme. Die Veröffentlichung des technischen LFM2-Berichts auf arXiv geht noch einen Schritt weiter und bietet ein detailliertes Rezept für andere Organisationen, um den Prozess von der Architektursuche bis hin zu Post-Training-Pipelines zu replizieren.

Warum das wichtig ist: Betriebliche Einschränkungen fördern Innovation

Die wichtigste Erkenntnis ist, dass die praktische KI-Entwicklung durch reale Einschränkungen wie Latenzbudgets, Speicherobergrenzen und thermische Drosselung eingeschränkt wird. Der Ansatz von Liquid AI geht hier direkt an.

Anstatt akademischen Benchmarks nachzujagen, priorisierte das Unternehmen die Suche nach Hardware-in-the-Loop-Architekturen, was zu einem konsistenten Design führte, das von Gated Short Convolutions und minimalen GQA-Schichten (Grouped Query Attention) dominiert wird. Dieses Design wurde wiederholt ausgewählt, da es unter realen Bedingungen den besten Kompromiss zwischen Qualität, Latenz und Speicher lieferte.

Für Unternehmen bedeutet dies:

  • Vorhersehbarkeit: Eine einfache, stabile Architektur, die zuverlässig skaliert.
  • Portabilität: Dense- und Mixture-of-Experts-Varianten (MoE) haben eine gemeinsame Struktur für eine einfache Bereitstellung auf unterschiedlicher Hardware.
  • Machbarkeit: Überlegener CPU-Durchsatz reduziert die Abhängigkeit von kostspieligen Cloud-Inferenzendpunkten.

Trainingspipeline für zuverlässiges Verhalten

Der Trainingsprozess von LFM2 gleicht kleinere Modellgrößen durch strategisches Design aus. Zu den Schlüsselelementen gehören das 10–12T-Token-Vortraining mit einer erweiterten 32K-Kontextphase und einem entkoppelten Top-K-Wissensdestillationsziel. Die Modelle werden durch eine dreistufige Post-Training-Sequenz – SFT, längennormalisierte Präferenzausrichtung und Modellzusammenführung – verfeinert, um eine zuverlässige Befehlsbefolgung und Werkzeugnutzung sicherzustellen.

Das Ergebnis ist nicht nur ein kleines LLM; Es handelt sich um einen Agenten, der strukturierte Formate, JSON-Schemas und Chat-Flows mit mehreren Runden unterstützt. Viele offene Modelle ähnlicher Größe haben nicht mit der Argumentation zu kämpfen, sondern mit der spröden Einhaltung von Anleitungsvorlagen.

Multimodalität optimiert für Gerätebeschränkungen

LFM2 erstreckt sich auf multimodale Anwendungen mit Varianten wie LFM2-VL (Vision) und LFM2-Audio. Bei diesen Modellen steht die Token-Effizienz über der bloßen Kapazität. LFM2-VL verwendet PixelUnshuffle, um die Anzahl der visuellen Token zu reduzieren und hochauflösende Eingaben dynamisch zu kacheln, um sie an die Gerätebeschränkungen anzupassen. LFM2-Audio verwendet einen zweigeteilten Ansatz für die Transkription und Spracherzeugung auf bescheidenen CPUs.

Dieses Design ermöglicht reale Anwendungen wie das Verstehen von Dokumenten auf dem Gerät, lokale Audiotranskription und multimodale Agenten, die innerhalb fester Latenzumschläge arbeiten.

Die hybride Zukunft der Unternehmens-KI

Die Arbeit von Liquid AI deutet auf eine hybride Architektur hin, bei der kleine, schnelle On-Device-Modelle zeitkritische Aufgaben (Wahrnehmung, Formatierung, Tool-Aufruf) übernehmen, während größere Cloud-Modelle schwere Schlussfolgerungen übernehmen. Dieser Ansatz bietet:

  • Kostenkontrolle: Vermeidet unvorhersehbare Cloud-Abrechnungen für routinemäßige Schlussfolgerungen.
  • Latenzdeterminismus: Eliminiert Netzwerk-Jitter in Agenten-Workflows.
  • Governance und Compliance: Vereinfacht die PII-Verarbeitung und Datenresidenz.
  • Belastbarkeit: Behält die Funktionalität auch bei Problemen mit der Cloud-Konnektivität.

Unternehmen werden geräteinterne Modelle wahrscheinlich als „Steuerungsebene“ für Agentensysteme betrachten und Cloud-Modelle für die bedarfsgesteuerte Beschleunigung nutzen.

Fazit

LFM2 von Liquid AI stellt einen Wandel in der KI-Entwicklung von Unternehmen dar. KI auf dem Gerät ist kein Kompromiss mehr, sondern eine praktikable Designwahl, die wettbewerbsfähige Leistung, Betriebszuverlässigkeit und Architekturkonvergenz bietet. Die Zukunft ist nicht Cloud oder Edge; Es ist beides, es arbeitet zusammen. Releases wie LFM2 bieten die Bausteine ​​für Unternehmen, die bereit sind, diese hybride Zukunft bewusst aufzubauen.