Liquid AI lanza un plan para la capacitación de modelos pequeños de nivel empresarial

18

Liquid AI, una empresa derivada del MIT, ha publicado un informe técnico detallado sobre su Liquid Foundation Models serie 2 (LFM2), que proporciona de manera efectiva un modelo para entrenar modelos de IA de pequeña escala y alto rendimiento directamente en dispositivos. Este movimiento desafía la dependencia tradicional de grandes modelos de lenguaje basados ​​en la nube (LLM) al demostrar que una IA capaz puede operar de manera eficiente en teléfonos, computadoras portátiles y sistemas integrados sin sacrificar el rendimiento.

El cambio hacia la IA en el dispositivo

Durante años, las empresas han sido condicionadas a creer que la IA de vanguardia exige inmensos recursos computacionales que normalmente se encuentran en los centros de datos en la nube. Los modelos LFM2 de Liquid AI, que van desde 350 millones a 1,2 mil millones de parámetros, demuestran que esto no es necesariamente cierto. Estos modelos, optimizados para velocidad y eficiencia, superan a muchas alternativas de código abierto más grandes en rendimiento de CPU y puntos de referencia de calidad, lo que hace que la IA en tiempo real y que preserva la privacidad sea viable en hardware con recursos limitados.

La expansión de la compañía hacia variantes de tareas específicas, análisis de video y pilas de implementación perimetral (LEAP) indica una estrategia más amplia: posicionar estos modelos como el núcleo de los sistemas de agentes en el dispositivo. La publicación del informe técnico de LFM2 sobre arXiv va más allá y ofrece una receta detallada para que otras organizaciones repliquen el proceso desde la búsqueda de arquitectura hasta los procesos posteriores a la capacitación.

Por qué esto es importante: las limitaciones operativas impulsan la innovación

La conclusión clave es que el desarrollo práctico de la IA está limitado por limitaciones del mundo real, como presupuestos de latencia, límites de memoria y estrangulamiento térmico. El enfoque de Liquid AI aborda esto directamente.

En lugar de perseguir puntos de referencia académicos, la empresa dio prioridad a la búsqueda de arquitectura de hardware en el bucle, lo que dio como resultado un diseño consistente dominado por convoluciones cortas cerradas y capas mínimas de atención de consultas agrupadas (GQA). Este diseño se seleccionó repetidamente porque ofrecía la mejor relación calidad-latencia-memoria en condiciones del mundo real.

Para las empresas, esto se traduce en:

  • Previsibilidad: Una arquitectura simple y estable que escala de manera confiable.
  • Portabilidad: Las variantes densa y de mezcla de expertos (MoE) comparten una estructura común para una fácil implementación en diversos hardware.
  • Factibilidad: El rendimiento superior de la CPU reduce la dependencia de costosos puntos finales de inferencia en la nube.

Canal de capacitación para un comportamiento confiable

El proceso de formación de LFM2 compensa los tamaños de modelos más pequeños mediante un diseño estratégico. Los elementos clave incluyen un entrenamiento previo de tokens de 10 a 12T con una fase extendida de contexto de 32K y un objetivo de destilación de conocimientos Top-K desacoplado. Los modelos se refinan a través de una secuencia posterior al entrenamiento de tres etapas (SFT, alineación de preferencias normalizada en longitud y fusión de modelos) para garantizar un seguimiento confiable de las instrucciones y el uso de herramientas.

El resultado no es sólo un pequeño LLM; es un agente capaz de formatos estructurados, esquemas JSON y flujos de chat de varios turnos. Muchos modelos abiertos de tamaños similares luchan no con el razonamiento sino con la frágil adherencia a las plantillas de instrucciones.

Multimodalidad optimizada para las limitaciones del dispositivo

LFM2 se extiende a aplicaciones multimodales con variantes como LFM2-VL (visión) y LFM2-Audio. Estos modelos priorizan la eficiencia simbólica sobre la pura capacidad. LFM2-VL utiliza PixelUnshuffle para reducir el recuento de tokens visuales, colocando en mosaico dinámicamente las entradas de alta resolución para ajustarse a las limitaciones del dispositivo. LFM2-Audio emplea un enfoque bifurcado para la transcripción y generación de voz en CPU modestas.

Este diseño permite aplicaciones del mundo real como comprensión de documentos en el dispositivo, transcripción de audio local y agentes multimodales que operan dentro de envolventes de latencia fija.

El futuro híbrido de la IA empresarial

El trabajo de Liquid AI apunta hacia una arquitectura híbrida donde modelos pequeños y rápidos en el dispositivo manejan tareas críticas en el tiempo (percepción, formato, invocación de herramientas) mientras que modelos de nube más grandes manejan razonamientos pesados. Este enfoque ofrece:

  • Control de costos: Evita la facturación impredecible en la nube por inferencias de rutina.
  • Determinismo de latencia: Elimina la fluctuación de la red en los flujos de trabajo de los agentes.
  • Gobierno y cumplimiento: Simplifica el manejo de PII y la residencia de datos.
  • Resiliencia: Mantiene la funcionalidad incluso con problemas de conectividad en la nube.

Es probable que las empresas traten los modelos en dispositivos como el “plano de control” para los sistemas agentes, aprovechando los modelos en la nube para la aceleración bajo demanda.

Conclusión

El LFM2 de Liquid AI representa un cambio en el desarrollo de la IA empresarial. La IA en el dispositivo ya no es un compromiso, sino una opción de diseño viable que ofrece rendimiento competitivo, confiabilidad operativa y convergencia arquitectónica. El futuro no es la nube o el borde; son ambas cosas, trabajando en conjunto. Lanzamientos como LFM2 proporcionan los cimientos para las organizaciones listas para construir este futuro híbrido de manera intencional.