A corrida dos modelos de fronteira está acelerando. GPT-5.5, Claude Opus, DeepSeek V4 e a próxima leva de modelos open-weight vão continuar comprimindo o custo da inteligência e elevando o teto dos benchmarks. Mas não é aí que a maioria das empresas está errando.
O número mais importante veio da Cisco: em uma pesquisa recente com grandes empresas, 85% disseram ter pilotos com agentes de IA em andamento, mas apenas 5% levaram esses agentes para produção. Esse gap de 80 pontos não é um problema de capacidade do modelo. É um problema de governança. A própria Cisco colocou isso no centro da sua agenda de segurança no RSAC 2026: as empresas já conseguem ver o que agentes podem fazer, mas ainda não têm confiança suficiente para deixá-los agir com segurança em ambientes de produção. Fonte: Cisco
Essa é a mudança estratégica que muitos roadmaps de IA ainda não capturaram. A camada escassa está saindo da inteligência bruta e indo para arquitetura de confiança, orquestração, limites de autoridade, controle de credenciais e observabilidade. Em outras palavras, o gargalo não é mais se o modelo consegue executar a tarefa. O gargalo é se a organização consegue permitir que o agente execute a tarefa sem perder o controle do sistema ao redor dele.
O incidente que mostrou a camada invisível
O incidente recente com o Claude Code, da Anthropic, deixou isso muito claro.
Durante semanas, desenvolvedores reclamaram que o Claude Code parecia pior. A qualidade das respostas caiu. O raciocínio parecia mais raso. A interpretação externa foi previsível: o modelo regrediu, os pesos foram alterados, ou a Anthropic reduziu silenciosamente a capacidade do produto. A conversa rapidamente virou comparação de benchmark, threads no Reddit e especulação sobre uma possível piora do modelo em si.
O post-mortem da Anthropic mostrou outra coisa. O modelo base não era a causa principal. A empresa identificou problemas no produto e no harness, incluindo uma mudança no nível padrão de esforço de raciocínio do Claude Code, um problema de cache afetando o comportamento de contexto, e alterações de prompt ou verbosity que prejudicaram a experiência de coding. A Anthropic disse que corrigiu os problemas e resetou os limites de uso dos assinantes em 23 de abril. Fonte: Anthropic Engineering
Esse detalhe importa porque muda o diagnóstico. A superfície de falha não era apenas o modelo. Era a camada operacional ao redor do modelo. O harness mudou o comportamento. A orquestração mudou a experiência. O sistema em volta da inteligência criou uma degradação que o usuário sentiu como se fosse um problema do modelo.
Esse é o mesmo padrão que as empresas estão enfrentando em escala.
Pilotos não respondem às perguntas de produção
A maior parte das empresas ainda organiza estratégia de IA em torno de casos de uso e seleção de modelo. Elas perguntam qual modelo usar, onde aplicar, quanto custa e qual ganho de produtividade pode gerar. Essas perguntas continuam válidas, mas já não são suficientes. Quando agentes deixam de responder perguntas e passam a tomar ações, as perguntas difíceis viram operacionais e arquiteturais.
Em nome de quem o agente está agindo? Que autoridade ele tem? Quais sistemas ele pode acessar? Como credenciais são emitidas, limitadas, rotacionadas e revogadas? O que acontece quando um agente delega trabalho para outro? Como fica a trilha de auditoria quando cinco agentes colaboram em uma decisão? Como a empresa detecta que a camada de orquestração está degradando antes que usuários ou clientes sintam o problema?
Essas não são perguntas abstratas de governança. São bloqueios reais de produção. Jeetu Patel, presidente e Chief Product Officer da Cisco, descreveu o gap como um problema de confiança, separando delegação simples de delegação confiável. A cobertura da VentureBeat no RSAC trouxe os mesmos dados da Cisco e conectou o gap de 85% em piloto versus 5% em produção à ausência de uma arquitetura de confiança suficiente para implantação de agentes em tarefas críticas de negócio. Fonte: VentureBeat
O mercado está saindo de acesso ao modelo para controle de agentes
O mercado já começou a se reorganizar em torno dessa restrição. A BAND, startup da Thenvoi AI Ltd., saiu do stealth com US$ 17 milhões em seed funding para construir infraestrutura determinística de roteamento e orquestração para workflows multiagente. A empresa não está tentando construir outro modelo de fronteira. Está tentando construir a camada de coordenação que permite que agentes de diferentes frameworks e provedores se comuniquem, roteiem tarefas, respeitem limites e permaneçam observáveis. A VentureBeat também reportou a projeção do Gartner de que, até 2029, 90% das empresas que implantarem múltiplos agentes precisarão de um "Universal Orchestrator". Fonte: VentureBeat
Esse é o sinal real. O mercado de infraestrutura está saindo de acesso ao modelo para controle de agentes. O próximo stack de IA corporativa não será definido apenas por qual LLM está por baixo. Ele será definido por como autoridade, identidade, memória, roteamento, avaliação, monitoramento e rollback funcionam em uma rede de agentes.
O mesmo insight visto por dois ângulos
O incidente da Anthropic e o gap de produção da Cisco não são histórias separadas. São a mesma conclusão estrutural vista por ângulos diferentes. Nos dois casos, a experiência do usuário ou da organização dependia de um sistema inteligente cujo comportamento era moldado por camadas fora do modelo. Nos dois casos, a degradação só ficou visível quando expectativa e resultado se afastaram. Nos dois casos, o diagnóstico exigia olhar uma camada abaixo da conversa sobre benchmark.
A diferença é que a Anthropic conseguiu investigar, reverter e comunicar o problema. Uma grande empresa implantando agentes em compras, RH, finanças, atendimento e operações talvez não tenha esse luxo. Se a organização não construiu observabilidade, limites de autoridade, arquitetura de credenciais, enforcement de políticas e resposta a incidentes antes da produção, a falha não vai aparecer como um post-mortem limpo. Vai aparecer como evento de segurança, problema de compliance, quebra de processo com cliente, ou perda de confiança dentro da própria organização.
Por isso, "prontidão para IA" está virando uma expressão insuficiente. Muitas empresas estão prontas para experimentar IA. Poucas estão prontas para governar agentes de IA. A diferença entre uma coisa e outra vai definir quem transforma IA de atividade de piloto em alavanca operacional.
Quando a capacidade fica abundante, controle vira vantagem
A camada de capacidade está ficando abundante. O DeepSeek V4, por exemplo, chegou com preços agressivos, janela de contexto grande e posicionamento open-weight, aumentando a pressão sobre a estrutura de custo da inteligência de fronteira. A Reuters reportou que o DeepSeek V4 foi adaptado para chips Huawei Ascend, enquanto outras análises detalharam suas variantes Pro e Flash e o baixo custo por token em comparação com modelos fechados de fronteira. Fonte: Reuters Fonte: DataCamp
Isso não torna modelos irrelevantes. Torna modelos menos defensáveis como o principal gargalo corporativo. Se a inteligência continua ficando mais barata, mais rápida e mais disponível, a vantagem competitiva migra para a capacidade de absorver essa inteligência, governá-la e redesenhar workflows em torno dela.
Para executivos e líderes de programas de IA, a implicação é direta. Se o roadmap de agentes da empresa é principalmente um roadmap de modelos, a organização está resolvendo o problema visível e adiando o problema estrutural. Os laboratórios de fronteira vão continuar lançando modelos melhores. Os laboratórios open-source vão continuar comprimindo custo. A liderança em benchmark vai alternar. O gargalo da organização é conseguir transformar essa inteligência em ação controlada.
As perguntas que importam agora são outras. Qual é a arquitetura de autoridade para agentes? Quais ações cada agente pode tomar, em nome de quem e sob quais condições? Como separar credenciais de agentes de ambientes de execução não confiáveis? Como registrar colaboração multiagente de uma forma que compliance, segurança e donos de negócio consigam entender? Como detectar degradação na camada de harness antes que ela vire problema operacional?
Se essas perguntas não têm respostas claras, os agentes não estão prontos para produção, independentemente de qual benchmark o modelo por baixo liderou na semana passada.
As empresas que internalizarem essa mudança cedo vão acumular vantagem. Elas vão sair dos pilotos porque terão construído a camada de controle necessária para implantação. As empresas esperando que os modelos fiquem bons o suficiente para resolver governança por elas continuarão rodando demos impressionantes que nunca viram sistemas operacionais.
A próxima corrida de IA dentro das empresas não é seleção de modelo. É execução confiável.
O que a organização está realmente construindo para fechar o gap de governança, não o gap de capacidade?
Fontes
- Cisco, "Reimagining Security for the Agentic Workforce": https://blogs.cisco.com/news/reimagining-security-for-the-agentic-workforce
- Anthropic Engineering, "An update on recent Claude Code quality reports": https://www.anthropic.com/engineering/april-23-postmortem
- VentureBeat, "85% of enterprises are running AI agents. Only 5% trust them enough to ship": https://venturebeat.com/security/85-of-enterprises-are-running-ai-agents-only-5-trust-them-enough-to-ship/
- VentureBeat, "Talking to AI agents is one thing, what about when they talk to each other?": https://venturebeat.com/orchestration/talking-to-ai-agents-is-one-thing-what-about-when-they-talk-to-each-other-new-startup-band-debuts-universal-orchestrator/
- Reuters, "DeepSeek-V4, the Chinese AI model adapted for Huawei chips": https://www.reuters.com/world/china/deepseek-v4-chinese-ai-model-adapted-huawei-chips-2026-04-24/
- DataCamp, "DeepSeek V4: Features, Benchmarks, and Comparisons": https://www.datacamp.com/blog/deepseek-v4
