Claude achou 10.000 falhas críticas em um mês — humanos viraram o gargalo

Um modelo da Anthropic que ainda não foi lançado encontrou, em um único mês, mais de dez mil vulnerabilidades de software com severidade alta ou crítica, espalhadas pelo código de cerca de cinquenta organizações parceiras. O modelo, chamado internamente de Claude Mythos Preview, foi apontado para bibliotecas open source, navegadores e infraestrutura que rodam boa parte da internet moderna. O resultado vira de ponta-cabeça uma equação que valeu por décadas na segurança de software. Achar os bugs deixou de ser a parte difícil do trabalho. Difícil agora é corrigir.

O programa se chama Project Glasswing. A Anthropic o lançou cerca de um mês antes de publicar essa primeira leva de números. Aproximadamente cinquenta organizações parceiras toparam deixar que o modelo varresse o próprio código de produção. A Cloudflare soltou o Mythos sobre os seus sistemas críticos e voltou com cerca de duas mil ocorrências, quatrocentas delas classificadas como altas ou críticas. A Mozilla colocou o modelo para trabalhar contra o Firefox e fez emergir 271 falhas distintas para a próxima versão grande do navegador, mais de dez vezes o que a mesma equipe havia produzido na versão anterior com o Claude Opus 4.6, o modelo público.

O que esses números significam depende do software que você usa. O modelo descobriu uma falha de falsificação de certificados na wolfSSL, uma biblioteca de criptografia que mora dentro de bilhões de roteadores domésticos, hubs de casa inteligente e controladores industriais. A vulnerabilidade já tem identificador CVE, CVE-2026-5194, e o patch está em distribuição. A mesma varredura em mais de mil projetos open source produziu cerca de 6.202 incidentes de severidade alta ou crítica. Não são achados acadêmicos sobre benchmarks de brinquedo. São bugs no código real que cuida das suas conexões cifradas, das abas do seu navegador e das máquinas no outro lado do cabo.

O Mythos Preview não é uma versão do Claude que dê para comprar. A Anthropic optou por não publicá-lo. A empresa argumenta que o mesmo modelo que encontra vulnerabilidades nessa escala viraria, em mãos erradas, uma fábrica industrial de exploits. “Nenhuma empresa”, diz o anúncio, “desenvolveu salvaguardas fortes o bastante para impedir o uso indevido de modelos como esses.” Por enquanto, o Mythos Preview vive dentro de um programa controlado, com parceiros verificados e um canal coordenado de divulgação.

Que tipo de bug o modelo está achando? Erros de gestão de memória em bibliotecas C e C++, falhas no tratamento de certificados como a da wolfSSL, erros de lógica em implementações de protocolos de rede e brechas de autenticação em serviços amplamente usados. São exatamente as categorias que provocaram décadas de vazamentos reais. O UK AI Security Institute relata que o Mythos Preview é o primeiro modelo testado capaz de resolver de ponta a ponta as suas duas simulações de cyber range, ambientes controlados que imitam fluxos completos de ataque. A firma independente XBOW descreveu o modelo como um “salto significativo” em relação a trabalhos anteriores, com o que chamou de “uma precisão absolutamente sem precedentes”.

A próxima pergunta, para quem já mexeu com scanners automáticos, é quantos desses achados são reais. Empresas de segurança independentes revisaram 1.752 dos relatórios marcados como altos ou críticos. Cerca de 90,6 por cento — 1.587 deles — foram confirmados como vulnerabilidades legítimas. É um sinal muito mais limpo do que a taxa típica de ruído do fuzzing ou de ferramentas de busca por padrões, e a Cloudflare informou que a taxa de falsos positivos do modelo, em seus próprios testes, foi melhor do que a dos membros humanos do seu red team. Mas continua significando que cerca de um em cada dez alertas é alarme falso. Nessa escala, isso dá em torno de mil não-bugs no monte, cada um deles um relatório que ainda precisa ser lido e descartado por um humano.

O problema mais duro é o que acontece depois que um bug real é reportado. Até esta primeira atualização, apenas 75 das 530 vulnerabilidades altas ou críticas comunicadas aos mantenedores estavam corrigidas. A correção média leva cerca de duas semanas. Alguns mantenedores open source, ditos sobrecarregados, pediram à Anthropic que diminuísse o ritmo de divulgações. “O progresso em segurança de software costumava ser limitado pela velocidade com que conseguíamos achar novas vulnerabilidades”, escreve a empresa. “Agora está limitado pela velocidade com que conseguimos verificá-las, divulgá-las e corrigi-las.”

Para um usuário comum, a conclusão prática é pouco glamorosa. O software que você usa hoje, talvez o próprio navegador em que esta página carregou, quase certamente contém bugs críticos que uma IA já conhece e que humanos ainda não corrigiram. A divulgação coordenada presume que o patch chegue antes do anúncio público, e essa ordem só se mantém quando os patches chegam no prazo. O Project Glasswing está, por enquanto, ancorado nos Estados Unidos e no Reino Unido. Cloudflare, Mozilla, UK AI Security Institute e XBOW são os participantes nomeados. Não existe programa equivalente de divulgação coordenada na maioria dos outros países. Se os bugs que o modelo encontra em stacks de software brasileiros, indianos, japoneses ou coreanos vão receber a mesma urgência é uma pergunta em aberto.

A Anthropic diz que o Project Glasswing está se expandindo para mais parceiros. O modelo Mythos Preview continua fora do mercado, e a empresa não deu calendário para uma liberação pública; qualquer implantação mais ampla exigiria, pelo critério atual da própria Anthropic, salvaguardas que ainda não existem. Uma segunda atualização é esperada para mais tarde em 2026. A métrica a observar não será quantos bugs uma IA consegue achar. Será quantos deles os humanos do outro lado tiveram tempo de corrigir.

Tags: tech-en1, Anthropic, Claude, AI security, Project Glasswing, Cloudflare