Dois pontos sob Opus 4.6, cinco vezes mais barato: Gemini 3.5 Flash refaz a conta

O Google liberou o Gemini 3.5 Flash na segunda-feira a US$ 1,50 por milhão de tokens de entrada e US$ 9 por milhão de saída. O novo modelo sustenta mais de 280 tokens de saída por segundo, mantém a mesma janela de contexto de um milhão de tokens do antecessor e se acomoda no Artificial Analysis Intelligence Index com 55 pontos, nove acima do Gemini 3 Flash. Na manhã de terça-feira, um tópico em r/Anthropic já tinha colado o gráfico ao lado do de Claude Opus 4.6 e fez a pergunta que o mercado vem contornando há seis meses: a partir de que ponto uma vantagem de dois pontos em um benchmark deixa de justificar um preço cinco vezes maior?

O Intelligence Index agrega um conjunto de avaliações públicas — raciocínio, conhecimento, programação, matemática e conclusão de tarefas agênticas — em uma única nota de 1 a 100. O Claude Opus 4.6, em modo de raciocínio adaptativo, fica em 57. O Gemini 3.5 Flash, lançado em 19 de maio, fica em 55. O salto de nove pontos entre versões é o maior que o Flash registrou em uma única geração, o suficiente para o modelo novo igualar o Sonnet anterior da Anthropic em inteligência bruta por uma fração do custo do Sonnet.

O enquadramento “mais inteligente” que o tópico do Reddit usou aumenta a diferença a favor do Flash. No Intelligence Index puro, o Opus 4.6 segue à frente por dois pontos. O gráfico que estourou o tópico não é o Intelligence Index isolado. É a visão de eficiência-de-inteligência contra custo, em que o eixo faz outro trabalho e em que o Flash 3.5 não apenas vence o Opus 4.6. Ele ocupa uma faixa em que ninguém mais está por perto.

O Opus 4.6 cobra cerca de US$ 6,25 por milhão de tokens de entrada e US$ 25 por milhão de saída. O Flash cobra US$ 1,50 e US$ 9. Para uma carga de chat com peso dois a um a favor da saída, a razão efetiva fica mais próxima de 4,5x do que do redondo “cinco vezes” do título. O arredondamento é honesto. A velocidade piora o quadro para a nave capitânia: o Flash 3.5 sustenta mais de 280 tokens de saída por segundo, enquanto o Opus 4.6 em modo de raciocínio de esforço máximo anda por cerca de um décimo desse ritmo na mesma bateria de testes. Para produtos em que o usuário fica olhando para um cursor — assistentes de programação, agentes de atendimento, qualquer fluxo interativo —, a latência é uma funcionalidade que o preço não recompra.

Um ano atrás, o argumento para comprar o modelo mais caro cabia em uma linha. O salto de qualidade para o nível seguinte era largo o bastante para a diferença de preço ser um erro de arredondamento contra o valor entregue. O gráfico que o tópico colou é outro gráfico. O custo marginal dos últimos dois pontos de inteligência virou a decisão de preço inteira para cargas de produção, e o erro de arredondamento agora aterrissa mais perto de US$ 4,75 em cada seis gastos.

Existe um argumento limpo para manter o Opus 4.6 na stack. Raciocínio de contexto longo sobre centenas de páginas, loops de agente em que os erros se acumulam passo a passo, análise documental em que uma diferença de dois pontos em uma nota agregada esconde vantagens específicas muito maiores. O Opus segue sendo o modelo ao qual um engenheiro recorre quando o modo de falha é “a resposta estava errada”, não “a resposta chegou tarde”. A fatia de cargas de produção que se parece com isso está encolhendo. Não é zero, e é justamente a faixa em que os US$ 25 por milhão ganham o salário.

Os turnos de chat que movem a maioria dos tokens faturáveis — redação, resumo, classificação, tradução, autocomplete de código, raciocínio voltado para o cliente — cabem todos no alcance do Flash. A pergunta que os times de engenharia fazem a cada trimestre não é mais “qual modelo é o melhor”. É “qual modelo rende mais por dólar com latência aceitável”. Essa segunda pergunta o Flash ganha agora por uma margem que não pede sutileza para ser interpretada.

O enquadramento secundário do tópico, de que em todo lugar o consenso é que o Opus 4.6 é melhor do que o 4.7, merece um tratamento mais suave. É anedótico. As duas últimas versões de Opus da Anthropic receberam análises divididas em avaliações de código e no rigor do uso de ferramentas, com times reportando regressões em loops de agente longos no 4.7 e outros reportando vitórias limpas em cargas idênticas. As duas observações podem ser verdadeiras ao mesmo tempo quando o comportamento é ajustado em vários eixos entre versões menores. Os dois modelos também ficam a menos de um ponto um do outro no índice público, então a divisão da comunidade lembra mais uma briga de gosto do que de capacidade. O que não está em debate é que o preço de nenhum dos dois Opus se move.

O sinal mais profundo na conversa do Reddit é aquilo que os usuários não estavam discutindo. Ninguém no tópico defendeu o preço do Opus em termos gerais. As defesas que apareceram eram específicas a uma carga. “O Opus ainda me ganha neste loop de agente”. “O Opus fica no nosso pipeline de revisão de documentos”. São reais, mas são defesas de carga, não defesas de nave capitânia. Uma nave capitânia deveria ganhar no conjunto, não em uma pista específica.

Dois pontos de diferença de inteligência. Cinco vezes o preço. Seis vezes a vantagem de velocidade no sentido oposto. Uma janela de contexto de um milhão de tokens a US$ 1,50 o milhão de entrada. Entrada multimodal, Elo em tarefas agênticas acima de 1650, desconto de noventa por cento na entrada em cache. A resposta da Anthropic no próximo trimestre vai contar a história dela. O argumento mais difícil de escrever, em maio de 2026, é o que um comercial precisa levar dentro para uma reunião com cliente.

Tags: Google, tech-en1, Anthropic, ia, Artificial Analysis, benchmarks de LLM