Microsoft представила три нові AI-моделі: систему транскрипції мови (MAI-Transcribe-1), двигун генерації голосу (MAI-Voice-1) та покращений генератор зображень (MAI-Image-2). Цей крок є прямим викликом лідерам галузі, таким як OpenAI та Google. Ці моделі, розроблені виключно всередині компанії, демонструють прагнення Microsoft розвивати власні AI-можливості, а не покладатися виключно на партнерство з розповсюдження.
Зрушення у бік AI-самозабезпечення
Цей крок послідував за переглядом Microsoft контракту з OpenAI, що зняв обмеження, які раніше перешкоджали незалежній розробці AI. Це дозволяє технологічному гіганту прагнути “AI-самозабезпечення”, як висловився глава відділу AI Microsoft Мустафа Сулейман. Нові моделі охоплюють ключові комерційні області: перетворення мови на текст, генерацію реалістичних голосів та створення зображень. Ці релізи – перший крок у прагненні Microsoft конкурувати безпосередньо у розробці моделей.
Продуктивність та економічна ефективність
MAI-Transcribe-1, модель перетворення мови в текст, лідирує за точністю серед 25 мов, переважаючи OpenAI Whisper-large-v3 та Google Gemini 3.1 Flash за декількома показниками. Вона досягає 3,8% помилки розпізнавання слів, використовуючи вдвічі менше GPU, ніж конкуренти. MAI-Voice-1 генерує 60 секунд природно звучить аудіо за одну секунду і пропонує створення голосів користувача. MAI-Image-2 забезпечує більш швидке створення зображень у Foundry та Copilot.
Стратегічні наслідки
Ці моделі вирішують стурбованість інвесторів щодо значних витрат Microsoft на AI-інфраструктуру. Вони пропонуються за агресивними цінами, щоб знизити собівартість Microsoft та забезпечити конкурентоспроможні ціни для розробників. Цей крок дозволяє Microsoft знижувати ціни на продукти конкурентів, таких як Amazon і Google, одночасно зміцнюючи свою позицію як платформу для розробки AI.
Малі команди, великі результати
Моделі були створені командами з менш ніж 10 інженерів, що кидає виклик поширеній думці в галузі про те, що передові AI вимагають масштабних дослідницьких команд. Такий економний підхід знижує витрати на розробку та підвищує ефективність. Microsoft наголошує на інноваціях у моделях та даних, а не на чисельності персоналу.
Майбутнє: передова LLM
Сулейман підтвердив, що Microsoft створюватиме велику мовну модель (LLM) для прямої конкуренції з GPT від OpenAI. Компанія інвестує в GPU-кластери та планує досягти “AI-самозабезпечення” протягом наступних 2-4 років. Незважаючи на труднощі, нові моделі Microsoft є чітким сигналом: компанія готова конкурувати як провідна AI-лабораторія.
Агресивне прагнення Microsoft до розвитку AI підкреслює зсув у галузі у бік незалежних можливостей. Пропонуючи передові моделі за конкурентоспроможними цінами, Microsoft прагне забезпечити своє майбутнє в AI-ландшафті, що швидко розвивається.
