
Resumo
- O Maia 200 da Microsoft oferece mais de 10 petaFLOPS em precisão de 4 bits e 5 petaFLOPS em 8 bits, superando o Amazon Trainium e o TPU do Google.
- O chip é produzido com tecnologia de 3 nanômetros da TSMC, possui mais de 100 bilhões de transistores e utiliza memória HBM3e de 216 GB a 7 TB/s.
- O Maia 200 será usado pela equipe Microsoft Superintelligence, no Microsoft Foundry e no Microsoft 365 Copilot, com suporte para o Maia SDK.
A Microsoft anunciou hoje (26/01) o Maia 200, acelerador de inteligência artificial voltado para inferência de modelos em larga escala. A empresa promete desempenho superior ao da Amazon e do Google com o novo hardware, que apresenta custo-benefício 30% maior em relação aos sistemas anteriores da companhia. O chip já está em operação aa região Central dos Estados Unidos do Azure e deve chegar “em breve” à região West 3, no Arizona.
O Maia 200 entrega mais de 10 petaFLOPS em precisão de 4 bits e cerca de 5 petaFLOPS em 8 bits. Segundo os dados técnicos, o hardware atinge desempenho FP4 três vezes maior que o Amazon Trainium de terceira geração e supera o desempenho FP8 do TPU de sétima geração do Google. Segundo a MS, um node Maia 200 é capaz de executar os modelos atuais com margem para futuras expansões.
Este hardware estava previsto para o fim de 2025, mas sofreu um atraso de cerca de seis meses. A companhia atribuiu a situação a mudanças de projeto imprevistas, restrições de pessoal e atlta rotatividade.
Quais são as especificações técnicas do hardware?
Produzido com tecnologia de 3 nanômetros da TSMC, Cada chip é produzido em litografia de 3 nanômetros da TSMC e conta com mais de 100 bilhões de transistores. O hardware utiliza um sistema de memória HBM3e de 216 GB a 7 TB/s e 272 MB de SRAM on-chip, além de mecanismos de movimentação de dados para modelos de alta demanda. O subsistema de memória utiliza tipos de dados de precisão estreita, engine DMA e fabric NoC para garantir a largura de banda.
A arquitetura utiliza um design de scale-up de dois níveis baseado em Ethernet. Cada unidade oferece 1,4 TB/s de largura de banda para operações em clusters de até 6.144 aceleradores. No interior de cada tray, quatro chips Maia são conectados por links diretos. O protocolo de comunicação é padronizado para redes intra-rack e inter-rack, o que permite o escalonamento entre diferentes estruturas de datacenter.

Onde o Maia 200 será aplicado?
A equipe do Microsoft Superintelligence utilizará o chip para geração de dados sintéticos e aprendizado por reforço. O acelerador também será empregado em cargas de trabalho no Microsoft Foundry e no Microsoft 365 Copilot. De acordo com a empresa, a implementação nos racks de datacenter ocorreu em menos da metade do tempo registrado em projetos anteriores.
A Microsoft também anunciou hoje um preview do Maia SDK para desenvolvedores e laboratórios de pesquisa. O pacote inclui o compilador Triton, suporte para PyTorch, programação em NPL e um simulador para cálculo de custos e otimização de código.
O projeto Maia AI é planejado como uma linha multigeracional para o desenvolvimento de novos aceleradores de processamento.
Maia 200: Microsoft diz que novo chip supera aceleradores da Amazon e Google

