Tecnologia

Ollama 0.22.1 leva o tool calling do Gemma 4 pro notebook sem chave de API

Susan Hill

O Ollama 0.22.1 entrega um renderizador atualizado para o Gemma 4 que enfim dá suporte às duas capacidades que importavam pro trabalho sério com IA local: o modo de pensamento explícito e a chamada de funções, ou tool calling. O tool calling deixa o modelo decidir a hora de chamar uma função externa — abrir uma página web, consultar um banco de dados, rodar um cálculo — e depois integra o resultado no próprio raciocínio. O modo de pensamento expõe os passos intermediários do modelo para que um aplicativo capte esses passos e aja em cima deles. As duas coisas vinham sendo recursos que as grandes APIs na nuvem cobravam. As duas agora rodam local contra o Gemma 4 sem nenhum serviço externo no meio.

O que faz essa novidade pesar mais do que mais um lançamento de modelo é a conta do hardware. A família Gemma 4 que o Google publicou com licença Apache-2.0 cobre quatro tamanhos: E2B, E4B, 26B A4B e 31B. As variantes menores rodam num notebook recente com gráfico integrado e doze a dezesseis gigabytes de RAM. As versões 26B A4B e 31B pedem uma GPU de desktop, mas ficam bem dentro do território de consumidor. A mesma arquitetura que antes obrigava a contratar uma API paga ou a montar um servidor doméstico de quatro dígitos vira uma instalação de tarde de sábado para qualquer um com uma máquina razoavelmente moderna.

A consequência prática pra quem não programa é que uma classe inteira de aplicativos tipo agente — os que leem o email, redigem respostas, baixam documentos, preenchem formulários, resumem reuniões — deixa de precisar mandar esses dados pra um servidor de terceiros. Um usuário preocupado com privacidade tinha até agora duas opções: confiar na política de dados de um provedor em nuvem ou rodar local um modelo bem mais fraco sem tool calling. O meio do caminho era um buraco, e o Ollama 0.22.1 tapa esse buraco pro peso do Gemma 4.

A leitura cética é que Ollama e Gemma 4 não são equivalentes da fronteira em nuvem. Um modelo 31B hospedado local não chega ao nível do Claude da Anthropic nem do GPT-5 da OpenAI em raciocínio complexo. A precisão do tool calling em cadeias longas é claramente pior nas variantes pequenas. As entradas multimodais funcionam, só que mais lentas. E o trabalho de integração cai em cima do usuário: ninguém ainda construiu um aplicativo de agente Gemma 4 mais Ollama polido o bastante pra competir com um fluxo SaaS pronto. O teto do hardware e o acabamento do software seguem como buracos reais.

A versão está disponível agora pelo instalador padrão do Ollama para macOS, Linux e Windows. Os pesos do Gemma 4 estão na biblioteca de modelos do Ollama sob o namespace gemma4, e a mudança de runtime trazida pela 0.22.1 se aplica automaticamente a qualquer tamanho assim que ele é baixado.

Discussão

Há 0 comentários.