Desafios

A morte lenta do scaling: por que maior já não é sempre melhor

Por Marc Molas·26 de maio de 2026·8 min de leitura

Sara Hooker — ex-líder da Cohere For AI, uma das poucas pesquisadoras com pele em jogo tanto no campo industrial quanto no acadêmico — publicou um ensaio chamado On the slow death of scaling. Ele encara uma pergunta que, durante a maior parte da última década, foi tratada como já respondida: maior é sempre melhor?

A resposta honesta, ela argumenta, é não. E as consequências de ter assumido o contrário são maiores do que a maioria das equipes — e da maioria dos reguladores — começou a encarar. Este é o primeiro post de uma série de três partes que destrincha o ensaio e o que ele significa para qualquer um que esteja entregando ou regulando IA em 2026.

A década que transformou "escala" em sinônimo de "progresso"

A história que Hooker conta começa com um acidente. Em 1945, Percy Spencer notou uma barra de chocolate derretendo no bolso perto de um tubo magnetron de radar e ganhamos o micro-ondas. Nos anos 2000, GPUs — projetadas nos anos 70 para renderizar o Mario — foram reaproveitadas para multiplicação de matrizes e ganhamos deep learning. O artigo do Google de 2012 usou 16.000 núcleos de CPU para classificar gatos; um ano depois, a mesma tarefa foi resolvida com dois núcleos de CPU e quatro GPUs.

Esse momento acendeu uma corrida por compute e, com ela, uma cultura. A velha piada de Ken Thompson — "quando em dúvida, use força bruta" — foi elevada à bitter lesson de Rich Sutton: jogue mais compute no problema, e a engenharia de conhecimento humano continua perdendo. De 2017 a 2023, os custos de treinamento cresceram aproximadamente quatro ordens de magnitude. O GNMT custou ~US$ 100 mil para treinar; o Gemini Ultra ultrapassou US$ 100 milhões. A "fórmula" virou: escalar o tamanho do modelo e dos dados de treino, repetir.

As implicações de capital foram enormes. A pesquisa de fronteira migrou da academia para um punhado de labs da indústria. Hooker cita a geografia diretamente: a produção notável de modelos de ML está hoje concentrada nos EUA e na China num grau que teria sido impensável em 2010. A cultura de publicação aberta colapsou em paralelo. Os labs da indústria pararam de publicar não porque a ciência ficou mais difícil de descrever, mas porque o moat mudou dos algoritmos para o capex.

A evidência de que o pressuposto está quebrando

É aqui que o ensaio fica desconfortável para qualquer um cujo roadmap dependa do dogma "maior é melhor" estar certo.

Hooker plota o Open LLM Leaderboard ao longo de dois anos. A tendência não é sutil:

Falcon 180B — antes fronteira — é facilmente superado por Llama-3 8B, Command R 35B e Gemma 2 27B.
Aya 23 8B e Aya Expanse 8B batem o BLOOM 176B apesar de terem 4,5% dos parâmetros.
Os melhores modelos abaixo de 13B rotineiramente batem outros muito maiores submetidos na mesma janela.

Esses não são casos isolados. São a tendência dominante num benchmark público ao longo de vários anos. Se "maior" ainda implicasse "melhor" de maneira significativa e confiável, nada disso estaria acontecendo. O que estamos vendo é que a taxa de retorno por unidade de compute está mudando, e essa mudança está sendo impulsionada por coisas além da contagem bruta de parâmetros — qualidade dos dados, técnica algorítmica, escolhas arquiteturais. Vamos entrar nisso na Parte 2.

Por que as leis de escala foram supervalorizadas

A justificativa intelectual dominante para a trajetória "maior é melhor" foram as scaling laws — Kaplan et al. (2020), Chinchilla, Hernandez et al. — que tentam prever como a loss diminui à medida que compute, dados e parâmetros crescem. Elas se tornaram, nas palavras de Hooker, "uma frase guarda-chuva para justificar tudo, de investimentos massivos de capital em startups de IA a decisões de política sobre limiares de compute".

Mas o ensaio cataloga, com citações, um conjunto de ressalvas que deveriam deixar nervoso qualquer um que use scaling laws para algo além de um único treinamento planejado:

Elas preveem principalmente a loss de teste de pré-treino, não capacidades downstream — e a relação entre as duas é "nebulosa ou inconsistente". Esta é a discussão das propriedades emergentes, que Hooker reformula com ironia: propriedades emergentes são apenas nossa admissão de que as scaling laws não previram o que saiu.
Foram difíceis de replicar sob premissas ligeiramente diferentes sobre a distribuição dos dados (Besiroglu et al. 2024 sobre Chinchilla; Anwar et al. 2024).
Muitas "power laws" se apoiam em menos de 100 pontos de dados (Ruan et al. 2024). Em qualquer outra área isso não passaria na revisão.
Algumas capacidades downstream escalam de forma errática ou não seguem power laws de jeito nenhum (Srivastava et al. 2023; Caballero et al. 2023).
Funcionam melhor quando arquitetura, otimizador e qualidade de dados permanecem constantes — exatamente as condições com menor probabilidade de se manter num horizonte de planejamento de vários anos.

A leitura honesta é que as scaling laws são úteis para planejar o próximo treinamento dentro de um regime conhecido e não muito mais. Tratá-las como uma previsão estrutural sobre a trajetória da capacidade da IA ao longo dos anos sempre foi um exagero.

O problema de política pública que isso cria

É aqui que o ensaio se torna estrutural para qualquer um que não esteja de fato treinando modelos de fronteira — ou seja, a maioria de nós. A regulação foi construída em cima do pressuposto "maior é melhor". O EU AI Act, as ordens executivas dos EUA e a onda de linguagem sobre limiares de compute na legislação de 2024–25 compartilham uma premissa estrutural: que compute de treino (FLOPs no tempo de treino, ou por proxy, acesso a hardware) é o melhor indicador de capacidade e, portanto, de risco.

Se Hooker estiver certa — e a evidência empírica que ela apresenta é difícil de descartar — então os limiares de compute:

Deixam passar inteiramente modelos pequenos e capazes. Um modelo de 8B que supere um de 180B em capacidades nocivas não vai disparar nenhum limiar baseado em FLOPs.
Sobre-regulam modelos grandes mas subperformantes, criando custo de compliance para uma capacidade que não existe.
Vão envelhecer mal à medida que compute em tempo de inferência, sistemas agênticos e técnicas livres de gradiente (Parte 3) deslocam onde a capacidade de fato se acumula.
Concentram poder ainda mais ao gravar em lei os pressupostos de escala do oligopólio atual.

As "responsible scaling policies" da Anthropic e da OpenAI herdam o mesmo pressuposto embutido: que o scaling vai continuar acontecendo e que a única pergunta em aberto é como escalar de forma responsável. O desafio de Hooker é mais desconfortável: e se scaling não for o único — nem o mais interessante — eixo de progresso?

O que isso significa se você está entregando produto, não política

As implicações descem em cascata. Se você é CTO, VP de Eng ou founder técnico tomando decisões de modelo para produção:

Pare de indexar por contagem de parâmetros. Sempre foi um proxy ruidoso e agora é ativamente enganoso. Scores de leaderboard abertos, evals específicos da tarefa e seu próprio mix de tráfego em produção dizem mais do que B-de-parâmetros.
Tenha como default "o menor modelo que atinge a barra do eval", não "o maior modelo que o orçamento permite". O custo de inferência compõe. A realidade "8B-bate-180B" significa que você normalmente consegue se virar com muito menos do que o marketing do fornecedor sugere.
Encare com desconfiança qualquer roadmap de fornecedor cuja proposta de valor seja "vamos ser maiores no ano que vem". Alguns dos ganhos de capacidade mais importantes dos últimos 24 meses — RAG, uso de ferramentas, chain-of-thought, distillation — não exigiram scaling nenhum.
Audite qualquer documento de planejamento interno que use scaling laws como previsão. Elas são previsoras fracas fora de regimes estreitos de treinamento. Se um roadmap de 3 anos depende de extrapolar uma, isso é risco, não plano.

O pressuposto "maior é melhor" foi útil durante uma década. Está, graciosa e lentamente, morrendo. A pergunta interessante é o que vem a seguir — e é aí que isso fica empolgante de novo. A criatividade de engenharia foi expulsa pelo capex durante anos. Está prestes a importar de novo.

A seguir nesta série: O que de fato impulsiona a taxa de retorno do compute — retornos decrescentes sobre parâmetros, o papel da qualidade dos dados, as melhorias algorítmicas que fazem o trabalho de verdade e por que arquitetura é o teto sobre o qual ninguém fala.

A morte lenta do scaling: por que maior já não é sempre melhor

A década que transformou "escala" em sinônimo de "progresso"

A evidência de que o pressuposto está quebrando

Por que as leis de escala foram supervalorizadas

O problema de política pública que isso cria

O que isso significa se você está entregando produto, não política

Artigos Relacionados

O que de fato impulsiona a taxa de retorno do compute

Além do scaling: os novos espaços de otimização para o progresso da IA

Tokens não são moeda. São linhas de código com fatura anexada.

Pronto para construir a sua equipa de engenharia?