Liquid AI, спин-офф MIT, опубликовала подробный технический отчет о своей серии Liquid Foundation Models 2 (LFM2), фактически предоставив руководство по обучению высокопроизводительных, маломасштабных ИИ-моделей непосредственно на устройствах. Этот шаг бросает вызов традиционной зависимости от больших облачных языковых моделей (LLM), демонстрируя, что работоспособный ИИ может эффективно функционировать на телефонах, ноутбуках и встраиваемых системах, не жертвуя производительностью.
Сдвиг к ИИ на Устройствах
В течение многих лет предприятия были убеждены в том, что передовые ИИ требуют огромных вычислительных ресурсов, обычно доступных в облачных центрах обработки данных. Модели Liquid AI LFM2, от 350M до 1.2B параметров, доказывают, что это не обязательно так. Эти модели, оптимизированные для скорости и эффективности, превосходят многие более крупные модели с открытым исходным кодом в тестах пропускной способности ЦП и качества, что делает ИИ, сохраняющим конфиденциальность, жизнеспособным на оборудовании с ограниченными ресурсами.
Расширение компании в сторону специализированных вариантов задач, анализа видео и стеков развертывания на периферии (LEAP) сигнализирует о более широкой стратегии: позиционировании этих моделей в качестве основы агентных систем на устройствах. Публикация технического отчета LFM2 на arXiv еще больше продвигает это, предлагая подробный рецепт для других организаций, чтобы повторить этот процесс, от поиска архитектуры до последующих этапов обучения.
Почему Это Важно: Операционные Ограничения Стимулируют Инновации
Ключевой вывод заключается в том, что практическая разработка ИИ ограничена реальными ограничениями, такими как бюджеты задержки, лимиты памяти и тепловое дросселирование. Подход Liquid AI решает эту проблему напрямую.
Вместо погони за академическими показателями компания отдала приоритет поиску архитектуры с учетом оборудования в цикле обратной связи, что привело к последовательному дизайну, доминируемому заблокированными короткими свертками и минимальными слоями группового запроса (GQA). Этот дизайн неоднократно выбирался, потому что он обеспечивал наилучший компромисс между качеством, задержкой и памятью в реальных условиях.
Для предприятий это означает:
- Предсказуемость: Простая, стабильная архитектура, которая масштабируется надежно.
- Переносимость: Плотные и экспертные (MoE) варианты разделяют общую структуру для легкого развертывания на различном оборудовании.
- Осуществимость: Превосходная пропускная способность ЦП снижает зависимость от дорогостоящих облачных конечных точек вывода.
Процесс Обучения для Надежного Поведения
Процесс обучения LFM2 компенсирует меньшие размеры модели за счет стратегического дизайна. Ключевые элементы включают предварительное обучение на 10–12T токенов с расширенной фазой контекста 32K и отдельную цель дистилляции знаний Top-K. Модели уточняются в трехэтапной после-обучающей последовательности: SFT, выравнивание предпочтений, нормализованное по длине, и слияние моделей, чтобы обеспечить надежное следование инструкциям и использование инструментов.
Результатом является не просто крошечная LLM; это агент, способный к структурированным форматам, JSON-схемам и многоходовым чатовым потокам. Многие открытые модели аналогичного размера испытывают трудности не с рассуждениями, а с хрупким соблюдением шаблонов инструкций.
Мультимодальность, Оптимизированная для Ограничений Устройства
LFM2 расширяется в мультимодальные приложения с вариантами, такими как LFM2-VL (зрение) и LFM2-Audio. Эти модели ставят приоритет эффективности токенов над чистой емкостью. LFM2-VL использует PixelUnshuffle для уменьшения количества визуальных токенов, динамически разбивая высококачественные входные данные, чтобы соответствовать ограничениям устройства. LFM2-Audio использует раздвоенный подход для транскрипции и генерации речи на скромных ЦП.
Этот дизайн позволяет создавать реальные приложения, такие как распознавание документов на устройстве, локальная аудио-транскрипция и мультимодальные агенты, работающие в фиксированных огибающих задержки.
Гибридное Будущее Корпоративного ИИ
Работа Liquid AI указывает на гибридную архитектуру, где маленькие, быстрые модели на устройствах обрабатывают критически важные по времени задачи (восприятие, форматирование, вызов инструментов), а большие облачные модели обрабатывают тяжелые рассуждения. Этот подход предлагает:
- Контроль Стоимости: Избегает непредсказуемых облачных счетов за обычные выводы.
- Детерминированность Задержки: Устраняет сетевые колебания в рабочих процессах агентов.
- Управление и Соответствие Нормативным Требованиям: Упрощает обработку PII и соблюдение требований к хранению данных.
- Устойчивость: Поддерживает функциональность даже при проблемах с подключением к облаку.
Предприятия, вероятно, будут рассматривать модели на устройствах как «управляющую плоскость» для агентных систем, используя облачные модели для ускорения по требованию.
Заключение
LFM2 от Liquid AI представляет собой сдвиг в разработке корпоративного ИИ. ИИ на устройствах больше не является компромиссом, а является жизнеспособным выбором дизайна, предлагающим конкурентоспособную производительность, операционную надежность и архитектурную конвергенцию. Будущее — это не облако или периферия; это и то, и другое, работающее в тандеме. Выпуски, такие как LFM2, предоставляют строительные блоки для организаций, готовых намеренно строить это гибридное будущее.

































































