DeepSeek lança V4 a um quinto do preço do GPT-5 e sem chips da Nvidia

A DeepSeek acaba de liberar a versão preview do V4-Pro e do V4-Flash — dois modelos de linguagem de código aberto que entregam uma proposta clara: processar 1 milhão de tokens de contexto deixou de ser um problema de capacidade e virou apenas uma questão de eficiência. O V4-Pro reúne 1,6 trilhão de parâmetros totais, com 49 bilhões ativos por consulta — o suficiente para digerir um repositório de código inteiro ou um livro completo em um único prompt. Pela primeira vez, um modelo aberto compete a sério com os melhores modelos fechados em matemática, programação e tarefas de agente — e a um custo que desmonta o preço que OpenAI e Anthropic cobram hoje.

Os dois modelos chegam com licença MIT e os pesos já estão publicados no Hugging Face. O V4-Flash é a versão enxuta, com 284 bilhões de parâmetros totais e 13 bilhões ativos — compacto o suficiente para que uma versão quantizada rode num notebook de ponta. O V4-Pro é o carro-chefe: 865 gigabytes no disco, pensado para deploy em nuvem e para laboratórios de pesquisa. Os dois compartilham a mesma janela de contexto de 1 milhão de tokens — um salto que alcança o Gemini do Google e dobra o que a maioria dos modelos abertos concorrentes oferece.

A jogada arquitetural de fundo se chama Hybrid Attention: a DeepSeek combina duas técnicas de compressão para reduzir o custo de memória com tanta agressividade que o V4-Pro, na mesma janela de contexto, consome apenas 27% do processamento e 10% do cache que o V3.2 exigia. O V4-Flash vai ainda mais longe. Na prática: rodar um prompt de 1 milhão de tokens com o V4-Pro custa hoje menos do que rodar um de 100 mil com a geração anterior. Isso não é detalhe técnico — é a condição econômica para que os modelos de contexto longo deixem de ser demonstração de laboratório e virem produto comercial viável.

A virada de preço é onde o lançamento bate mais forte. O V4-Flash sai por 0,14 dólar por milhão de tokens de entrada — abaixo até do GPT-5.4 Nano da OpenAI. O V4-Pro custa 1,74 dólar por milhão de tokens de entrada e 3,48 dólares por milhão na saída — um terço do que a Anthropic cobra pelo Claude Opus 4.7 e um quinto do que a OpenAI cobra pelo GPT-5.5. Em benchmarks de programação, o V4-Pro atinge pontuação Codeforces de 3.206 — segundo a própria DeepSeek, uma marca que colocaria o modelo em 23º lugar entre programadores humanos em competições mundiais.

A leitura geopolítica pesa tanto quanto os benchmarks. A DeepSeek otimizou o V4 para os chips Ascend 950 da Huawei e para o silício da chinesa Cambricon, e recusou acesso prévio à Nvidia e à AMD para calibragem — uma inversão da prática padrão do setor. O lançamento funciona como teste comercial da cadeia tecnológica chinesa, que opera há anos sob as restrições de exportação americanas. Para países do Sul Global, incluindo o Brasil, a leitura é direta: existe pela primeira vez uma alternativa frontal aos modelos pagos da OpenAI e da Anthropic, rodando sobre uma cadeia de fornecimento que não depende de Washington. A soberania digital brasileira, sempre discutida em teoria, ganha um objeto concreto.

Há ressalvas importantes. O V4 é uma versão preview, não uma release de produção, e os benchmarks independentes de terceiros ainda não foram concluídos. O próprio relatório técnico da DeepSeek admite que o modelo anda de três a seis meses atrás do GPT-5.4 e do Gemini 3.1 Pro na capacidade de fronteira. O antecessor R1 foi banido ou restringido poucas semanas depois do lançamento em vários estados americanos, na Austrália, em Taiwan, na Coreia do Sul, na Dinamarca e na Itália — o V4 herda intacta a mesma exposição regulatória nesses mercados. Contratados do Pentágono têm proibição de usar modelos DeepSeek pela lei americana NDAA 2026, salvo autorização expressa.

Fora dessas zonas restritas, o acesso está liberado imediatamente. O chatbot web da DeepSeek expõe o V4-Pro pelo modo Expert e o V4-Flash pelo modo Instant sem custo, e desenvolvedores podem chamar a API trocando o nome do modelo para deepseek-v4-pro ou deepseek-v4-flash.

O lançamento caiu exatamente um ano depois que o DeepSeek-R1 balançou os mercados globais de IA, em 20 de janeiro de 2025 — o calendário é proposital. O preço definitivo da API fora da fase preview ainda está pendente, e os endpoints antigos deepseek-chat e deepseek-reasoner serão desligados em 24 de julho de 2026, quando todo o tráfego migra automaticamente para o V4. O que está em jogo aqui é maior do que um benchmark: é a primeira demonstração pública de que uma potência concorrente consegue entregar um stack completo, competitivo e barato sem depender de fornecedores americanos — e essa demonstração, sozinha, muda o cálculo para qualquer país que pretenda ter estratégia própria de inteligência artificial a partir de agora.

Tags: inteligência artificial, China