Tecnologia

O novo modelo de voz da OpenAI raciocina dentro do próprio loop de áudio, e o silêncio que entregava a IA desaparece

A pausa é o que entrega. Até agora, a IA por voz funcionava transcrevendo a fala, mandando o texto para um modelo de linguagem, recebendo a resposta e sintetizando ela de volta em áudio. Cada passo leva tempo. O usuário ouve silêncio, sabe que algo está sendo processado do outro lado, e nota a costura. O novo GPT-Realtime-2 da OpenAI colapsa toda essa pipeline em um único modelo em que o raciocínio acontece dentro do próprio loop de áudio, e a costura some.
Susan Hill

A OpenAI lançou nesta semana três modelos novos de áudio na sua Realtime API — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. O destaque é o primeiro. A empresa o descreve como o primeiro modelo de voz com “raciocínio classe GPT-5“, construído para que um único modelo cuide do áudio que entra e do que sai, com o pensamento entrelaçado na conversa em vez de espremido entre as etapas de transcrição e síntese. Os números que apoiam isso são concretos. A pontuação no Big Bench Audio saltou de 81,4 por cento para 96,6 por cento contra o modelo de referência anterior. Audio MultiChallenge subiu de 34,7 por cento para 48,5 por cento. A janela de contexto passou de 32 mil tokens para 128 mil — espaço suficiente para segurar o histórico inteiro de um cliente durante uma chamada.

A mudança estrutural custa mais para enxergar nos benchmarks. Por três anos, quem montava um agente de voz para produção tinha que costurar o stack na mão — Whisper ou Deepgram para a transcrição, um LLM para o raciocínio, ElevenLabs ou Cartesia para a voz, e prompting para tapar a latência. Cada salto entre peças custava milissegundos e nitidez. O usuário ouvia um “deixa eu verificar isso” enfiado por um script, depois ouvia nada enquanto o modelo pensava, e por fim ouvia a resposta. O GPT-Realtime-2 traz esses andaimes como comportamento nativo. Os preâmbulos permitem que o agente diga “deixa eu verificar isso” enquanto chama ferramentas, então o usuário não fica sentado no silêncio. As chamadas paralelas a ferramentas deixam o modelo disparar várias requisições para o backend ao mesmo tempo e narrar qual está em curso. O comportamento de recuperação captura as falhas e mostra elas em vez de congelar a conversa.

A superfície de controle que abre para o desenvolvedor é a parte mais interessante. O “esforço de raciocínio” é configurável — minimal, low, medium, high e xhigh — com low por padrão para manter a latência baixa em consultas simples. Um agente que responde “que horas vocês fecham?” não precisa de raciocínio classe GPT-5. Um agente que conduz um cliente numa disputa de reembolso, precisa. O mesmo modelo pode ser instruído sobre quanto pensar em cada turno, o que é uma mudança real em relação ao modelo anterior, onde a profundidade do raciocínio era fixa e o desenvolvedor escolhia entre rápido ou inteligente no deploy.

O ceticismo tem seu lugar. “Raciocínio classe GPT-5” é uma linha de marketing, não uma afirmação verificável — sem benchmarks independentes em diálogo realista, a comparação fica interna. Agentes de voz têm um modo de falha à parte que benchmarks pegam mal — o momento em que o agente diz algo errado com voz calma e natural. Raciocinar melhor ajuda, mas não elimina esse problema. O preço também pesa. GPT-Realtime-2 custa 32 dólares por milhão de tokens de áudio na entrada e 64 por milhão na saída. GPT-Realtime-Translate roda a 0,034 dólar por minuto e GPT-Realtime-Whisper a 0,017 por minuto. Barato o suficiente para atendimento de alto volume. Não tão barato a ponto de usar em produtos de consumo conversacional sem pensar bem na duração de cada sessão.

O contexto de implantação conta o resto da história. A Zillow colocou no ar busca de imóvel por voz no mesmo dia. A Deutsche Telekom desplegou suporte de voz traduzido ao vivo em quatorze mercados europeus. Os dois são exatamente o caso de uso para o qual a OpenAI precifica — conversas longas, transacionais, com muito contexto, em que o usuário se beneficia de um agente que raciocina de fato, em vez de só consultar. A Priceline está construindo sistemas que permitem ao viajante administrar reservas de hotel e acompanhar atrasos de voo inteiramente por voz. O padrão por trás dos nomes que a OpenAI solta primeiro é claro — os clientes citados são aqueles cujos sistemas de voz anteriores funcionavam pior — call centers, linhas de suporte, viagens transacionais. Os lugares em que o usuário hoje grita “atendente” no telefone.

Os modelos estão disponíveis na Realtime API agora. As melhorias de voz para o ChatGPT seguem pendentes — “Fiquem ligados, estamos cozinhando”, disse a OpenAI. Sam Altman enquadrou o lançamento em torno de uma mudança de comportamento — usuários cada vez mais recorrem à voz com a IA quando precisam “despejar” muito contexto. Se esse padrão se sustentar, a distância entre IA por voz e IA por texto começa a se fechar — e a costura que entregava a IA no telefone fica mais difícil de ouvir.

Discussão

Há 0 comentários.