Liquid AI, um spin-off do MIT, publicou um relatório técnico detalhado sobre sua série 2 de Liquid Foundation Models (LFM2), fornecendo efetivamente um modelo para treinar modelos de IA de pequena escala e alto desempenho diretamente em dispositivos. Esta mudança desafia a dependência tradicional de grandes modelos de linguagem baseados em nuvem (LLMs), demonstrando que a IA capaz pode operar eficientemente em telefones, laptops e sistemas incorporados sem sacrificar o desempenho.
A mudança em direção à IA no dispositivo
Durante anos, as empresas foram condicionadas a acreditar que a IA de ponta exige imensos recursos computacionais normalmente encontrados em data centers em nuvem. Os modelos LFM2 da Liquid AI, variando de parâmetros de 350M a 1,2B, provam que isso não é necessariamente verdade. Esses modelos, otimizados para velocidade e eficiência, superam muitas alternativas maiores de código aberto em desempenho de CPU e benchmarks de qualidade, tornando viável a IA em tempo real que preserva a privacidade em hardware com recursos limitados.
A expansão da empresa para variantes específicas de tarefas, análise de vídeo e pilhas de implantação de borda (LEAP) sinaliza uma estratégia mais ampla: posicionar esses modelos como o núcleo dos sistemas de agente no dispositivo. A publicação do relatório técnico LFM2 no arXiv vai além, oferecendo uma receita detalhada para outras organizações replicarem o processo desde a pesquisa de arquitetura até pipelines pós-treinamento.
Por que isso é importante: restrições operacionais impulsionam a inovação
A principal conclusão é que o desenvolvimento prático de IA é limitado por limitações do mundo real, como orçamentos de latência, limites máximos de memória e aceleração térmica. A abordagem da Liquid AI aborda isso diretamente.
Em vez de buscar benchmarks acadêmicos, a empresa priorizou a pesquisa de arquitetura hardware-in-the-loop, resultando em um design consistente dominado por convoluções curtas fechadas e camadas mínimas de atenção de consulta agrupada (GQA). Esse design foi selecionado repetidamente porque oferecia a melhor relação qualidade-latência-memória em condições do mundo real.
Para as empresas, isso se traduz em:
- Previsibilidade: Uma arquitetura simples e estável que pode ser dimensionada de maneira confiável.
- Portabilidade: As variantes Dense e Mixture-of-Experts (MoE) compartilham uma estrutura comum para fácil implantação em diversos hardwares.
- Viabilidade: O rendimento superior da CPU reduz a dependência de endpoints de inferência de nuvem dispendiosos.
Pipeline de treinamento para comportamento confiável
O processo de treinamento do LFM2 compensa modelos menores por meio de design estratégico. Os elementos principais incluem pré-treinamento de token de 10 a 12T com uma fase estendida de contexto de 32K e um objetivo de destilação de conhecimento Top-K dissociado. Os modelos são refinados por meio de uma sequência pós-treinamento de três estágios – SFT, alinhamento de preferência normalizado por comprimento e fusão de modelos – para garantir o seguimento confiável de instruções e o uso de ferramentas.
O resultado não é apenas um pequeno LLM; é um agente capaz de formatos estruturados, esquemas JSON e fluxos de chat multiturno. Muitos modelos abertos de tamanhos semelhantes lutam não com o raciocínio, mas com a frágil adesão aos modelos de instrução.
Multimodalidade otimizada para restrições de dispositivos
LFM2 se estende a aplicações multimodais com variantes como LFM2-VL (visão) e LFM2-Audio. Esses modelos priorizam a eficiência do token em detrimento da capacidade absoluta. LFM2-VL usa PixelUnshuffle para reduzir a contagem de tokens visuais, agrupando dinamicamente entradas de alta resolução para caber nas restrições do dispositivo. LFM2-Audio emprega uma abordagem bifurcada para transcrição e geração de fala em CPUs modestas.
Esse design permite aplicações do mundo real, como compreensão de documentos no dispositivo, transcrição de áudio local e agentes multimodais operando em envelopes de latência fixa.
O futuro híbrido da IA empresarial
O trabalho da Liquid AI aponta para uma arquitetura híbrida onde modelos pequenos e rápidos no dispositivo lidam com tarefas críticas em termos de tempo (percepção, formatação, invocação de ferramentas), enquanto modelos de nuvem maiores lidam com raciocínio pesado. Esta abordagem oferece:
- Controle de custos: evita cobrança imprevisível na nuvem para inferências de rotina.
- Determinismo de latência: elimina a instabilidade da rede nos fluxos de trabalho dos agentes.
- Governança e conformidade: simplifica o tratamento de PII e a residência de dados.
- Resiliência: mantém a funcionalidade mesmo com problemas de conectividade na nuvem.
As empresas provavelmente tratarão os modelos no dispositivo como o “plano de controle” para sistemas de agente, aproveitando os modelos de nuvem para aceleração sob demanda.
Conclusão
O LFM2 da Liquid AI representa uma mudança no desenvolvimento de IA empresarial. A IA no dispositivo não é mais um compromisso, mas uma escolha de design viável, oferecendo desempenho competitivo, confiabilidade operacional e convergência arquitetônica. O futuro não é nuvem ou edge; são ambos, trabalhando em conjunto. Lançamentos como o LFM2 fornecem os alicerces para organizações prontas para construir intencionalmente esse futuro híbrido.

































































