Ollama no OpenClaw
Modelos Cloud Locais como fallback de emergência para IA. Infraestrutura robusta rodando LLMs diretamente no container, garantindo disponibilidade mesmo quando modelos principais falharem.
Modelos Cloud Locais como fallback de emergência para IA. Infraestrutura robusta rodando LLMs diretamente no container, garantindo disponibilidade mesmo quando modelos principais falharem.
Modelos rodando localmente no container, sem dependência de APIs externas. Baixa latência e alta disponibilidade.
Binário do Ollama e configurações salvos automaticamente. Recuperação automática após reinício do container.
Sistema automaticamente alterna para Ollama quando modelos principais falham. Priorização baseada em performance.
Melhor performance geral, rápido e confiável
Inference rápida, bom para código
Raciocínio avançado, contexto amplo
Contexto longo, ideal para textos extensos
* Benchmarks baseados em testes de matemática, código e linguagem natural (2026-04-05)
Qwen 3.5 (rápido e preciso)
Geração de código, debug, refatoração, documentação automática
Qwen 3.5 ou MiniMax M2.7
Tradução EN↔PT, resumos, redação técnica e criativa
GLM 5 (contexto amplo)
Análise de dados, raciocínio lógico, planejamento de projetos
Kimi K2.5 (contexto 128k)
Sumarização de PDFs, análise de contratos, documentação extensa
Qwen 3.5 ou MiniMax
Tool use, function calling, pipelines de agentes autônomos
O sistema OpenClaw usa uma hierarquia inteligente de fallback. Se os modelos principais falharem (timeout, erro, indisponibilidade), o sistema automaticamente alterna para os modelos Ollama na ordem de performance:
/home/node/.openclaw/backups/ollama/OBRIGATÓRIO: Antes de qualquer operação com Ollama, os agentes devem executar o script de verificação.
qwen3.5:cloudRecomendadominimax-m2.7:cloudglm-5:cloudkimi-k2.5:cloudO container pode ter reiniciado ou o serviço não iniciou corretamente.
Os modelos cloud precisam de warm-up na primeira chamada. GLM 5 pode demorar 10–30s no primeiro uso.
O ID do modelo está incorreto ou o modelo não foi carregado.
Os modelos cloud são processados remotamente e não consomem RAM local. Se ocorrer OOM, verifique o processo do Ollama.
| Critério | 🏠 Ollama Local | ☁️ APIs Cloud |
|---|---|---|
| Disponibilidade | ✅ 100% local | ⚠️ Depende de API |
| Latência | ✅ < 2s (após warm-up) | ✅ 0.5–3s |
| Custo | ✅ Grátis (local) | ❌ Por token |
| Privacidade de dados | ✅ 100% privado | ⚠️ Dados enviados |
| Qualidade | ⚠️ Boa (fallback) | ✅ Excelente |
| Context window | ✅ Até 128k (Kimi) | ✅ Até 1M (Gemini) |
| Uso offline | ✅ Sim | ❌ Requer internet |
:cloud são processados em servidores remotos via API Ollama. O container local apenas faz o roteamento das requisições, sem precisar de GPU ou alto consumo de RAM.check-and-restore.sh. Se retornar exit code 0, o Ollama está operacional. Alternativamente: curl http://localhost:11434/api/tags deve retornar JSON com os modelos disponíveis.qwen3.5:cloud como primeira opção — é o mais rápido e com melhor performance geral (95%). O sistema de fallback automático já segue essa ordem de prioridade./home/node/.openclaw/backups/ollama/, fora do sistema de arquivos efêmero do container. O script check-and-restore.sh restaura automaticamente ao reiniciar."stream": true no body da requisição. A resposta será entregue como Server-Sent Events (SSE), com cada chunk como JSON separado por newline. Para uso simples em agentes, recomenda-se "stream": false.