Microsoft представила три новые AI-модели: систему транскрипции речи (MAI-Transcribe-1), движок генерации голоса (MAI-Voice-1) и улучшенный генератор изображений (MAI-Image-2). Этот шаг является прямым вызовом лидерам отрасли, таким как OpenAI и Google. Эти модели, разработанные исключительно внутри компании, демонстрируют стремление Microsoft развивать собственные AI-возможности, а не полагаться исключительно на партнерства по распространению.
Сдвиг в сторону AI-самообеспечения
Этот шаг последовал за пересмотром Microsoft контракта с OpenAI, снявшим ограничения, ранее препятствовавшие независимой разработке AI. Это позволяет технологическому гиганту стремиться к “AI-самообеспечению”, как выразился глава отдела AI Microsoft Мустафа Сулейман. Новые модели охватывают ключевые коммерческие области: преобразование речи в текст, генерацию реалистичных голосов и создание изображений. Эти релизы – первый шаг в стремлении Microsoft конкурировать напрямую в разработке моделей.
Производительность и экономическая эффективность
MAI-Transcribe-1, модель преобразования речи в текст, лидирует по точности среди 25 языков, превосходя OpenAI Whisper-large-v3 и Google Gemini 3.1 Flash по нескольким показателям. Она достигает 3,8% ошибки распознавания слов, при этом используя вдвое меньше GPU, чем конкуренты. MAI-Voice-1 генерирует 60 секунд естественно звучащего аудио за одну секунду и предлагает создание пользовательских голосов. MAI-Image-2 обеспечивает более быстрое создание изображений в Foundry и Copilot.
Стратегические последствия
Эти модели решают обеспокоенность инвесторов по поводу значительных затрат Microsoft на AI-инфраструктуру. Они предлагаются по агрессивным ценам, чтобы снизить себестоимость Microsoft и обеспечить конкурентоспособные цены для разработчиков. Этот шаг позволяет Microsoft снижать цены на продукты конкурентов, таких как Amazon и Google, одновременно укрепляя свою позицию в качестве платформы для разработки AI.
Малые команды, большие результаты
Модели были созданы командами менее чем из 10 инженеров, что бросает вызов распространенному мнению в отрасли о том, что передовые AI требуют масштабных исследовательских команд. Такой экономный подход снижает затраты на разработку и повышает эффективность. Microsoft делает акцент на инновациях в моделях и данных, а не на численности персонала.
Будущее: передовая LLM
Сулейман подтвердил, что Microsoft будет создавать большую языковую модель (LLM) для прямой конкуренции с GPT от OpenAI. Компания инвестирует в GPU-кластеры и планирует достичь “AI-самообеспечения” в течение следующих 2-4 лет. Несмотря на трудности, новые модели Microsoft служат четким сигналом: компания готова конкурировать как ведущая AI-лаборатория.
Агрессивное стремление Microsoft к развитию AI подчеркивает сдвиг в отрасли в сторону независимых возможностей. Предлагая передовые модели по конкурентоспособным ценам, Microsoft стремится обеспечить свое будущее в быстро развивающемся AI-ландшафте.

































