Durante dois anos, muitas empresas trataram IA como mais uma linha de assinatura. Um assento de ChatGPT aqui. Uma licença de Copilot ali. Alguns pilotos corporativos, um grupo pequeno de entusiastas, um orçamento controlado.

Essa fase acabou. A IA entrou na era da escassez de tokens.

A mudança parece técnica, mas é gerencial. A unidade real de consumo da IA não é a licença comprada pelo departamento de tecnologia. É o token processado toda vez que um modelo lê, escreve, compara, revisa, chama uma ferramenta, consulta memória, executa um fluxo ou trabalha em paralelo com outros agentes. Enquanto o uso era episódico, a conta parecia software. Quando o uso vira operação, a conta começa a se comportar como infraestrutura.

O token virou restrição operacional

A confusão inicial era compreensível. Executivos compravam categorias. Compravam CRM, ERP, BI, colaboração, segurança. Quando a IA generativa apareceu, entrou mentalmente na mesma prateleira. Havia uma nova classe de software, um plano mensal, uma licença por usuário e uma promessa de produtividade.

Era previsível. Contido. Confortável.

Acontece que a lógica econômica da IA é diferente. Uma conversa rápida com um modelo e uma sessão autônoma de programação que dura horas não podem ter o mesmo preço real. Um prompt para resumir um documento e um agente que lê um repositório inteiro, escreve código, executa testes, revisa erros e tenta novamente consomem ordens de grandeza diferentes de computação.

Por isso, o movimento de mercado começou a mudar. GitHub Copilot caminha para cobrança baseada em uso. Google pode anunciar preços nominais menores para Gemini e, ao mesmo tempo, colocar limites de uso e cobrança por excedente. Empresas que passaram alguns meses além do piloto começam a descobrir o choque de custo da adoção real.

A era do subsídio de tokens está terminando. Durante a fase de aquisição de usuários, boa parte do custo ficou escondida, absorvida por fornecedores dispostos a ganhar mercado. Agora, o uso sério aparece na fatura. E a fatura revela o que estava encoberto: IA em escala consome capacidade escassa.

Agentes mudam a natureza da conta

O ponto central está no agente.

Um colaborador que pergunta algo ao ChatGPT algumas vezes por dia gera um tipo de consumo. Um agente que trabalha por horas dentro de um fluxo operacional gera outro. Um lê contratos. Outro compara versões. Outro escreve testes. Outro abre chamados. Outro consulta políticas internas. Outro prepara uma análise financeira. Cada um parece pequeno quando visto isoladamente. Em conjunto, formam uma nova estrutura de custo.

Multiplique isso por engenharia, financeiro, jurídico, vendas, atendimento e operações. A pergunta deixa de ser quantas licenças a empresa comprou. A pergunta passa a ser onde o trabalho computacional explode, quais fluxos justificam consumo alto de tokens, quais tarefas devem migrar para modelos mais baratos, quais agentes precisam de supervisão humana e quais equipes aprendem mais rápido a operar nessa nova lógica operacional.

Sim, modelos melhores importam. Mas o gargalo das empresas não está apenas na capacidade do modelo. Está entre a capacidade técnica disponível e a prática operacional instalada. Se o modelo bastasse, engenheiros alocados diretamente nos clientes não seriam uma das funções mais disputadas do mercado de tecnologia. A demanda por esses profissionais revela outra coisa: a maior parte das empresas ainda não sabe transformar agentes em rotina produtiva.

Faltam governança, desenho de fluxo de trabalho, disciplina de custo, arquitetura de memória, processo de avaliação e fluência executiva. Sobram pilotos, licenças, entusiasmo e algumas pessoas talentosas empurrando a organização para frente. Essa combinação produz movimento. Ainda não produz vantagem operacional durável.

A infraestrutura já está sendo reprificada

Não por acaso, a camada de infraestrutura começa a ser reprificada. Provedores de inferência captam capital em avaliações de mercado extraordinárias porque o mercado percebe que a demanda por computação tende a crescer muito além do uso recreativo ou experimental. OpenRouter ganha relevância porque desenvolvedores precisam alternar entre modelos de acordo com custo, desempenho e disponibilidade. Fornecedores de memória deixam de ser detalhe técnico e passam a ocupar posição estratégica na operação de agentes.

Até SpaceX começa a ser observada por outro ângulo. Menos como empresa de foguetes, mais como parte possível de uma infraestrutura de computação para uma economia de IA limitada por capacidade. Essa leitura pode parecer distante para o board de uma empresa tradicional. Ainda assim, a mensagem é simples: quando a restrição está na infraestrutura, o custo aparece onde antes havia promessa de abundância.

Em economia, escassez muda comportamento. Enquanto algo parece ilimitado, o uso cresce sem muita disciplina. Quando o recurso fica caro, a gestão aparece. A empresa passa a medir, priorizar, comparar, substituir, limitar e redesenhar. Foi assim com energia, banda, armazenamento, cloud e mão de obra especializada. Agora começa a acontecer com tokens.

A diferença é que tokens não são apenas custo de tecnologia. São custo de trabalho cognitivo automatizado. Quando um agente lê um contrato, quando outro depura um software, quando outro prepara uma proposta comercial, o consumo de tokens está diretamente ligado ao modo como a empresa executa trabalho. Por consequência, a disciplina de tokens pertence ao CEO, ao CFO e ao COO tanto quanto ao CTIO.

O board precisa mudar a pergunta

Uma empresa que trata IA como implantação de ferramenta pergunta quantos assentos deve comprar. Uma empresa que entende escassez de tokens faz perguntas melhores.

Onde a utilização vai crescer primeiro? Quais processos têm retorno suficiente para justificar modelos mais caros? Quais tarefas aceitam modelos menores? Onde a memória reduz retrabalho? Quais agentes podem operar com baixa supervisão? Onde o risco exige revisão humana? Qual área já desenvolveu intuição calibrada para saber quando usar IA, quando limitar IA e quando não usar IA?

Essas são perguntas de gestão antes de serem perguntas de tecnologia. O erro caro será delegá-las cedo demais para a camada técnica, como se o assunto fosse apenas arquitetura. A arquitetura importa. Mas a decisão sobre alocação de recurso escasso é decisão executiva. Sempre foi.

Se você dirige uma empresa, a implicação é direta: a próxima fase da IA não premiará quem comprou mais licenças, nem quem fez mais demonstrações internas. Premiará quem entende custo no nível do trabalho. Quem sabe quais fluxos merecem agentes, quais merecem automação simples, quais merecem gente experiente com IA ao lado e quais ainda devem continuar lineares por um tempo.

A vantagem operacional virá dessa fricção com o trabalho real. Operando agentes diariamente, percebendo onde quebram, ajustando prompts, escrevendo arquivos de memória, criando avaliações, trocando modelos, cortando consumo inútil e aprendendo a relacionar token gasto com resultado produzido. Medido. Supervisionado. Comparado. Cortado.

O CFO vai perceber a conta. O COO vai herdar a complexidade. O CEO será cobrado pela lógica operacional que permitiu, ou impediu, que a empresa aprendesse a usar IA sem transformar abundância aparente em desperdício estrutural.

Trate tokens como restrição operacional antes que o mercado ensine essa lição na fatura. A empresa que aprende a alocar IA aprende a alocar uma nova forma de trabalho. A que compra assentos continuará achando que o problema era software.