Evoluímos para um mundo linear. Se você caminhar por uma hora, você percorre uma certa distância. Caminhe por duas horas e você percorrerá o dobro dessa distância. Essa intuição nos serviu bem na savana. Mas falha catastroficamente ao confrontar a IA e as principais tendências exponenciais que estão no seu cerne.
Desde o momento em que comecei a trabalhar com IA em 2010 até agora, a quantidade de dados de treinamento que vão para modelos de IA de ponta cresceu espantosamente 1 trilhão de vezes – de cerca de 10¹⁴ flops (operações de ponto flutuante, a unidade central de computação) para sistemas iniciais para mais de 10²⁶ flops para os maiores modelos atuais. Isto é uma explosão. Todo o resto na IA decorre desse fato.
Os céticos continuam prevendo muros. E eles continuam errados diante dessa rampa computacional geracional épica. Freqüentemente, eles apontam que a Lei de Moore está desacelerando. Mencionam também a falta de dados ou citam limitações energéticas.
Mas quando olhamos para as forças combinadas que impulsionam esta revolução, a tendência exponencial parece bastante previsível. Para entender por quê, vale a pena olhar para a realidade complexa e em rápida evolução que está por trás das manchetes.
Pense no treinamento em IA como uma sala cheia de pessoas trabalhando com calculadoras. Durante anos, adicionar poder computacional significou adicionar mais pessoas com calculadoras àquela sala. Na maior parte do tempo, esses trabalhadores ficavam ociosos, tamborilando os dedos nas mesas, esperando que os números chegassem para o próximo cálculo. Cada pausa era um potencial desperdiçado. A revolução de hoje vai além de mais e melhores calculadoras (embora as forneça); na verdade, trata-se de garantir que todas essas calculadoras nunca parem e que funcionem juntas como uma só.
Três avanços estão agora convergindo para permitir isso. Primeiro, as calculadoras básicas ficaram mais rápidas. Os chips da Nvidia proporcionaram um aumento de mais de sete vezes no desempenho bruto em apenas seis anos, de 312 teraflops em 2020 para 2.250 teraflops hoje. Nosso próprio Maia 200 chip, lançado em janeiro, oferece desempenho 30% melhor por dólar do que qualquer outro hardware em nossa frota. Em segundo lugar, os números chegam mais rapidamente graças a uma tecnologia chamada HBM, ou memória de alta largura de banda, que empilha chips verticalmente como pequenos arranha-céus; a última geração, HBM3, triplica a largura de banda de seu antecessor, alimentando dados aos processadores com rapidez suficiente para mantê-los ocupados o tempo todo. Terceiro, a sala das pessoas com calculadoras tornou-se um escritório e depois um campus ou cidade inteira. Tecnologias como NVLink e Banda Infini conectar centenas de milhares de GPUs em supercomputadores do tamanho de armazéns que funcionam como entidades cognitivas únicas. Há alguns anos isso era impossível.
Todos esses ganhos se unem para oferecer muito mais computação. Enquanto o treinamento de um modelo de linguagem demorava 167 minutos em oito GPUs em 2020, agora leva menos de quatro minutos em hardware moderno equivalente. Para colocar isso em perspectiva: A Lei de Moore preveria apenas uma melhoria de cerca de 5x durante este período. Vimos 50x. Passamos de duas GPUs treinando AlexNet, o modelo de reconhecimento de imagem que deu início ao boom moderno do aprendizado profundo em 2012, para mais de 100.000 GPUs nos maiores clusters da atualidade, cada uma delas individualmente muito mais poderosa que suas antecessoras.
Depois, há a revolução no software. Pesquisa de Época IA sugere que a computação necessária para atingir um nível de desempenho fixo cai pela metade aproximadamente a cada oito meses, muito mais rápido do que a tradicional duplicação da Lei de Moore em 18 a 24 meses. Os custos de manutenção de alguns modelos recentes caíram por um factor de até 900 numa base anualizada. A IA está se tornando radicalmente mais barata de implantar.
Os números para o futuro próximo são igualmente surpreendentes. Considere que os principais laboratórios estão aumentando sua capacidade quase 4 vezes ao ano. Desde 2020, a computação usada para treinar modelos de fronteira cresceu 5x por ano. Prevê-se que a computação global relevante para IA atinja 100 milhões de equivalentes ao H100 até 2027, um aumento de dez vezes em três anos. Junte tudo isso e veremos algo em torno de mais 1.000 vezes em computação efetiva até o final de 2028. É plausível que até 2030 tragamos um adicional 200 gigawatts de computação online todos os anos – semelhante ao pico de consumo de energia do Reino Unido, França, Alemanha e Itália juntos.
O que tudo isso nos traz? Acredito que impulsionará a transição de chatbots para agentes quase de nível humano – sistemas semiautônomos capazes de escrever código durante dias, realizar projetos de semanas e meses, fazer ligações, negociar contratos, gerenciar logística. Esqueça os assistentes básicos que respondem a perguntas. Pense em equipes de trabalhadores de IA que deliberam, colaboram e executam. Neste momento, estamos apenas no sopé desta transição e as implicações vão muito além da tecnologia. Todas as indústrias construídas sobre o trabalho cognitivo serão transformadas.
A restrição óbvia aqui é a energia. Um único rack de IA do tamanho de uma geladeira consome 120 quilowatts, o equivalente a 100 residências. Mas esta fome esbarra em outro exponencial: Custos solares caíram por um fator de quase 100 em 50 anos; preços da bateria caíram 97% em três décadas. Há um caminho para uma escala limpa aparecendo.
A capital está implantada. A engenharia está entregando. Os clusters de 100 mil milhões de dólares, os consumos de energia de 10 gigawatts, os supercomputadores à escala de armazéns… estes já não são ficção científica. O terreno está sendo iniciado para esses projetos agora nos EUA e no mundo. Como resultado, estamos caminhando em direção à verdadeira abundância cognitiva. Na Microsoft AI, este é o mundo que nosso laboratório de superinteligência está planejando e construindo.
Os céticos habituados a um mundo linear continuarão a prever retornos decrescentes. Eles continuarão sendo surpreendidos. A explosão da computação é a história tecnológica do nosso tempo, ponto final. E ainda está apenas começando.
Mustafa Suleyman é CEO da Microsoft AI.





