EuroWire , SAN FRANCISCO : Microsoft introducerade den 26 januari Maia 200, den andra generationen av sin egenutvecklade accelerator för artificiell intelligens, byggd för att köra AI-modeller i produktion i Azure-datacenter. Företaget sa att Maia 200 är utformad för inferens, det stadium där tränade modeller genererar svar på liveförfrågningar, och kommer att användas för att stödja en rad Microsofts AI-tjänster.

Maia 200 tillverkas med TSMC:s 3-nanometerprocess och innehåller mer än 140 miljarder transistorer, enligt Microsoft . Chipparen använder ett nytt minnessystem som inkluderar 216 gigabyte HBM3e högbandbreddsminne och cirka 272 megabyte inbyggt SRAM, vilket syftar till att hantera storskalig tokengenerering och andra inferenstunga arbetsbelastningar.
Microsoft sa att Maia 200 levererar mer än 10 petaflops prestanda med 4-bitars precision och cirka 5 petaflops med 8-bitars precision, format som vanligtvis används för att köra modern generativ AI effektivt. Företaget sa också att systemet är utformat kring ett effekthölje på 750 watt och är byggt med skalbart nätverk så att chip kan länkas för större implementeringar.
Företaget sa att den nya hårdvaran har börjat tas i drift i ett Azure US Central-datacenter i Iowa, med ytterligare en plats planerad i Arizona. Microsoft beskrev Maia 200 som sitt hittills mest effektiva inferenssystem, och rapporterade en förbättring på 30 % i prestanda per dollar jämfört med sina befintliga inferenssystem.
Fokus på AI-inferens och Azure-distribution
Microsoft sa att Maia 200 är avsedd att stödja AI-produkter och -tjänster som förlitar sig på högvolymsmodellkörning med låg latens, inklusive arbetsbelastningar som körs i Azure och Microsofts egna applikationer. Företaget sa att de har designat chipet och det omgivande systemet som en del av en heltäckande infrastrukturstrategi som inkluderar kisel, servrar, nätverk och programvara för att distribuera AI-modeller i stor skala.
Tillsammans med chipet tillkännagav Microsoft tidig tillgång till ett Maia-programvaruutvecklingskit för utvecklare och forskare som arbetar med modelloptimering. Företaget sa att verktyget syftar till att hjälpa team att kompilera och finjustera modeller för Maia-baserade system och är strukturerat för att passa in i vanliga AI-utvecklingsarbetsflöden som används för att distribuera inferens i molnet.
Prestandapåståenden och modellstöd
Microsoft sa att Maia 200 är byggd för att köra stora språkmodeller och avancerade resonemangssystem, och att den kommer att användas för interna och värdbaserade modelldistributioner i Azure. Företaget har positionerat chipet som en produktionsinferensaccelerator, vilket skiljer det från träningsfokuserade system som vanligtvis används för att bygga modeller före distribution.
Microsoft har accelererat arbetet med anpassade kisellösningar i takt med att efterfrågan på beräkningar för generativa AI-applikationer har ökat, där kostnader och tillgänglighet av acceleratorer kan påverka hur snabbt tjänster skalas upp. Maia 200 följer Maia 100, som Microsoft introducerade 2023, och representerar företagets senaste iteration av sin dedikerade AI-acceleratorlinje för datacenterinferens.
Inlägget Maia 200 stärker Microsoft Azure med nytt AI-inferenskisel dök först upp på Manchester Examiner .
