IA

Claude Fable 5 volta a funcionar após 18 dias: a falha estava no ataque, não no modelo

Adrian Kessler

Claude Fable 5, o modelo de inteligência artificial mais poderoso lançado publicamente pela Anthropic, está disponível mundialmente. O retorno vem após dezoito dias de suspensão total, iniciada quando o governo americano impôs controles de exportação que exigiam da Anthropic verificação em tempo real da nacionalidade de seus usuários. Sem condições de atender a esse requisito na escala global da Claude, a empresa optou por suspender todo o acesso em vez de cumprir parcialmente a exigência.

A técnica que acionou os controles foi um método de jailbreak descoberto por pesquisadores da Amazon. O método usava Fable 5 para mapear vulnerabilidades de software de formas que as restrições de exportação americanas proíbem para certos estrangeiros. A investigação interna revelou algo que complica a lógica regulatória: as mesmas categorias de vulnerabilidades podiam ser identificadas com modelos bem menos poderosos — Opus 4.8, GPT-5.5 e Kimi K2.7, entre eles. A capacidade em questão não era exclusiva do Fable 5.

A correção que desbloqueou os controles

O que mudou é um novo classificador de segurança treinado especificamente para bloquear a técnica documentada pela Amazon. A Anthropic afirma que o classificador identifica o método divulgado em mais de 99% dos casos. Não é uma garantia de proteção total contra jailbreaks futuros: é uma correção direcionada para uma vulnerabilidade conhecida. O classificador atua na camada de entrada, redirecionando as requisições que correspondem aos padrões documentados antes de chegar ao modelo.

A implicação mais ampla importa para como a regulação de IA vai evoluir. Os controles foram aplicados ao Fable 5 não porque o modelo fosse o único capaz de causar o dano, mas porque uma técnica conhecida o explorou. Foram revogados não porque o marco regulatório tivesse resolvido essa questão, mas porque um classificador fechou a brecha documentada. A Anthropic trabalha com Amazon, Microsoft e Google em um framework compartilhado para avaliar a gravidade dos jailbreaks por quatro critérios: ganho de capacidade, abrangência desse ganho, facilidade de weaponização e detectabilidade. Esse framework ainda não existe como padrão público.

O que o modelo faz e quanto custa

O modelo em si não mudou. Fable 5 é projetado para raciocínio de longo alcance e trabalho agêntico — tarefas que exigem planejamento, execução e correção de curso em sequências longas sem aprovação humana em cada etapa. Sua janela de contexto é de um milhão de tokens, que também é o valor padrão. A saída máxima por resposta é de 128 mil tokens. O raciocínio está sempre ativo e é retornado como resumo legível, não como cadeia de pensamento bruta.

O acesso vem com condições que não existiam antes da suspensão. Fable 5 exige agora retenção de dados de 30 dias — não está disponível em acordos de retenção zero. Isso afeta organizações de saúde, jurídicas e governamentais onde os acordos de zero retenção costumam ser o requisito básico para adoção de ferramentas de IA. O preço está acima do nível Opus: dez dólares por milhão de tokens de entrada, cinquenta por milhão de saída. Requisições que acionam os classificadores de segurança podem ser atendidas por um modelo alternativo em vez de recusadas, e se essa substituição é visível ao usuário final depende de como cada operador configura seu serviço.

Disponibilidade

Fable 5 tem um modelo irmão, Claude Mythos 5, com as mesmas capacidades de base e o mesmo preço, mas com funções ofensivas de cibersegurança que Fable 5 não tem. Mythos 5 está disponível pelo Project Glasswing. O acesso a Mythos 5 foi restaurado para certas organizações americanas uma semana antes do retorno global do Fable 5.

Fable 5 está disponível agora na plataforma Claude, Claude.ai, Claude Code e Claude Cowork. Para os planos Pro, Max, Team e alguns Enterprise, o modelo está incluído em até 50% dos limites semanais de uso até 7 de julho, quando passa para precificação por créditos. O acesso via AWS, Google Cloud e Microsoft Foundry está sendo restaurado por fases. O framework que vai reger a resposta à próxima técnica de bypass ainda está sendo construído.

Tags: , , , , ,

Discussão

Há 0 comentários.