Container Status: Running | Ollama v0.9.3 — 2026

Ollama no OpenClaw

Modelos Cloud Locais como fallback de emergência para IA. Infraestrutura robusta rodando LLMs diretamente no container, garantindo disponibilidade mesmo quando modelos principais falharem.

4 Modelos Cloud
Português Nativo
Backup Automático

Visão Geral

🚀

Rápido & Local

Modelos rodando localmente no container, sem dependência de APIs externas. Baixa latência e alta disponibilidade.

🛡️

Backup Automático

Binário do Ollama e configurações salvos automaticamente. Recuperação automática após reinício do container.

🔀

Fallback Inteligente

Sistema automaticamente alterna para Ollama quando modelos principais falham. Priorização baseada em performance.

Modelos Cloud Disponíveis

💻
Qwen 3.5
qwen3.5:cloud
🥇 Melhor

Melhor performance geral, rápido e confiável

Velocidade🟢 Rápido
Matemática✅ Passou
Português✅ Nativo
MiniMax M2.7
minimax-m2.7:cloud
🥈 Bom

Inference rápida, bom para código

Velocidade🟡 Médio
Matemática✅ Passou
Português✅ Nativo
🧠
GLM 5
glm-5:cloud
Warm-up

Raciocínio avançado, contexto amplo

Velocidade🔴 Lento→Rápido
Matemática✅ Passou
Português✅ Nativo
💬
Kimi K2.5
kimi-k2.5:cloud
Contexto

Contexto longo, ideal para textos extensos

Velocidade🟡 Médio-Lento
Matemática✅ Passou
Português✅ Nativo

Performance & Benchmarks

Comparativo de Performance

Qwen 3.5
95%
MiniMax
80%
GLM 5
70%
Kimi K2.5
60%

* Benchmarks baseados em testes de matemática, código e linguagem natural (2026-04-05)

Casos de Uso Recomendados

💻Código & Desenvolvimento

Qwen 3.5 (rápido e preciso)

Geração de código, debug, refatoração, documentação automática

🌐Tradução & Texto

Qwen 3.5 ou MiniMax M2.7

Tradução EN↔PT, resumos, redação técnica e criativa

💡Análise & Raciocínio

GLM 5 (contexto amplo)

Análise de dados, raciocínio lógico, planejamento de projetos

📄Documentos Longos

Kimi K2.5 (contexto 128k)

Sumarização de PDFs, análise de contratos, documentação extensa

🤖Automação de Agentes

Qwen 3.5 ou MiniMax

Tool use, function calling, pipelines de agentes autônomos

Integração com OpenClaw

Cadeia de Prioridade de Fallback

O sistema OpenClaw usa uma hierarquia inteligente de fallback. Se os modelos principais falharem (timeout, erro, indisponibilidade), o sistema automaticamente alterna para os modelos Ollama na ordem de performance:

PrimaryModelos Principais
GLM 4.7 Claude Haiku 4.5 GPT-5 Mini Gemini 2.5
Ollama FallbackModelos de Emergência
1.ollama/qwen3.5:cloud🥇 Recomendado
2.ollama/minimax-m2.7:cloud
3.ollama/glm-5:cloud
4.ollama/kimi-k2.5:cloud

Backup & Recuperação Automática

Backup Automático

Binário salvo em /home/node/.openclaw/backups/ollama/
Modelos cloud não requerem download local
Backup persiste fora do container Docker
Scripts de verificação e recuperação automáticos

Recuperação Automática

# Verificar antes de usar check-and-restore.sh # Se falhar, recupera automaticamente install.sh

📋 Protocolo para Agentes

OBRIGATÓRIO: Antes de qualquer operação com Ollama, os agentes devem executar o script de verificação.

# Verificar Ollama check-and-restore.sh # Se exit code = 0, usar Ollama # Se exit code != 0, notificar erro

API Documentation

Endpoint Principal

# Base URL (dentro do container) http://localhost:11434 # Gerar texto (chat) POST http://localhost:11434/api/chat

Exemplo de Request

// fetch via JavaScript const response = await fetch('http://localhost:11434/api/chat', {   method: 'POST',   headers: { 'Content-Type': 'application/json' },   body: JSON.stringify({     model: 'qwen3.5:cloud',     messages: [{ role: 'user', content: 'Olá!' }],     stream: false   }) });

Exemplo de Response

// Resposta JSON {   "model": "qwen3.5:cloud",   "message": {     "role": "assistant",     "content": "Olá! Como posso ajudar?"   },   "done": true,   "total_duration": 1234567890 }

IDs dos Modelos

qwen3.5:cloudRecomendado
minimax-m2.7:cloud
glm-5:cloud
kimi-k2.5:cloud

Troubleshooting

Ollama não responde / connection refused

O container pode ter reiniciado ou o serviço não iniciou corretamente.

# 1. Verificar status check-and-restore.sh # 2. Se falhar, reinstalar install.sh # 3. Verificar se está rodando curl http://localhost:11434/api/tags

Resposta muito lenta (primeira requisição)

Os modelos cloud precisam de warm-up na primeira chamada. GLM 5 pode demorar 10–30s no primeiro uso.

✅ Normal no primeiro uso Chamadas seguintes: < 2s

Modelo não encontrado (404)

O ID do modelo está incorreto ou o modelo não foi carregado.

# Listar modelos disponíveis curl http://localhost:11434/api/tags | jq '.models[].name'
🧠

Out of memory / OOM error

Os modelos cloud são processados remotamente e não consomem RAM local. Se ocorrer OOM, verifique o processo do Ollama.

# Verificar uso de memória ps aux | grep ollama # Reiniciar serviço pkill ollama && ollama serve &

Comparativo: Ollama vs Modelos Cloud

Critério 🏠 Ollama Local ☁️ APIs Cloud
Disponibilidade✅ 100% local⚠️ Depende de API
Latência✅ < 2s (após warm-up)✅ 0.5–3s
Custo✅ Grátis (local)❌ Por token
Privacidade de dados✅ 100% privado⚠️ Dados enviados
Qualidade⚠️ Boa (fallback)✅ Excelente
Context window✅ Até 128k (Kimi)✅ Até 1M (Gemini)
Uso offline✅ Sim❌ Requer internet
* Ollama é usado como fallback de emergência quando APIs Cloud estão indisponíveis.

Perguntas Frequentes (FAQ)

Quando o Ollama é ativado como fallback?
O Ollama é ativado automaticamente quando os modelos principais (GLM 4.7, Claude Haiku 4.5, GPT-5 Mini, Gemini 2.5) retornam erro de timeout, HTTP 5xx, ou ficam indisponíveis por mais de 3 tentativas consecutivas.
Os modelos Ollama precisam de GPU?
Não! Os modelos com sufixo :cloud são processados em servidores remotos via API Ollama. O container local apenas faz o roteamento das requisições, sem precisar de GPU ou alto consumo de RAM.
Como verificar se o Ollama está funcionando?
Execute o script check-and-restore.sh. Se retornar exit code 0, o Ollama está operacional. Alternativamente: curl http://localhost:11434/api/tags deve retornar JSON com os modelos disponíveis.
Qual modelo devo usar por padrão no fallback?
Use sempre qwen3.5:cloud como primeira opção — é o mais rápido e com melhor performance geral (95%). O sistema de fallback automático já segue essa ordem de prioridade.
O Ollama persiste após reinício do container?
Sim! O binário do Ollama e as configurações são salvos em /home/node/.openclaw/backups/ollama/, fora do sistema de arquivos efêmero do container. O script check-and-restore.sh restaura automaticamente ao reiniciar.
Posso usar streaming com a API?
Sim! Defina "stream": true no body da requisição. A resposta será entregue como Server-Sent Events (SSE), com cada chunk como JSON separado por newline. Para uso simples em agentes, recomenda-se "stream": false.