Container Status: Running | Ollama v0.9.3 — 2026

Ollama no OpenClaw

Modelos Cloud Locais como fallback de emergência para IA. Infraestrutura robusta rodando LLMs diretamente no container, garantindo disponibilidade mesmo quando modelos principais falharem.

Ver Modelos Docs Ollama

4 Modelos Cloud

Português Nativo

Backup Automático

Visão Geral

🚀

Rápido & Local

Modelos rodando localmente no container, sem dependência de APIs externas. Baixa latência e alta disponibilidade.

🛡️

Backup Automático

Binário do Ollama e configurações salvos automaticamente. Recuperação automática após reinício do container.

🔀

Fallback Inteligente

Sistema automaticamente alterna para Ollama quando modelos principais falham. Priorização baseada em performance.

Modelos Cloud Disponíveis

💻

Qwen 3.5

qwen3.5:cloud

🥇 Melhor

Melhor performance geral, rápido e confiável

Velocidade🟢 Rápido

Matemática✅ Passou

Português✅ Nativo

⚡

MiniMax M2.7

minimax-m2.7:cloud

🥈 Bom

Inference rápida, bom para código

Velocidade🟡 Médio

Matemática✅ Passou

Português✅ Nativo

🧠

GLM 5

glm-5:cloud

Warm-up

Raciocínio avançado, contexto amplo

Velocidade🔴 Lento→Rápido

Matemática✅ Passou

Português✅ Nativo

💬

Kimi K2.5

kimi-k2.5:cloud

Contexto

Contexto longo, ideal para textos extensos

Velocidade🟡 Médio-Lento

Matemática✅ Passou

Português✅ Nativo

Performance & Benchmarks

Comparativo de Performance

Qwen 3.5

95%

MiniMax

80%

GLM 5

70%

Kimi K2.5

60%

* Benchmarks baseados em testes de matemática, código e linguagem natural (2026-04-05)

Casos de Uso Recomendados

💻Código & Desenvolvimento

Qwen 3.5 (rápido e preciso)

Geração de código, debug, refatoração, documentação automática

🌐Tradução & Texto

Qwen 3.5 ou MiniMax M2.7

Tradução EN↔PT, resumos, redação técnica e criativa

💡Análise & Raciocínio

GLM 5 (contexto amplo)

Análise de dados, raciocínio lógico, planejamento de projetos

📄Documentos Longos

Kimi K2.5 (contexto 128k)

Sumarização de PDFs, análise de contratos, documentação extensa

🤖Automação de Agentes

Qwen 3.5 ou MiniMax

Tool use, function calling, pipelines de agentes autônomos

Integração com OpenClaw

Cadeia de Prioridade de Fallback

O sistema OpenClaw usa uma hierarquia inteligente de fallback. Se os modelos principais falharem (timeout, erro, indisponibilidade), o sistema automaticamente alterna para os modelos Ollama na ordem de performance:

PrimaryModelos Principais

GLM 4.7 Claude Haiku 4.5 GPT-5 Mini Gemini 2.5

Ollama FallbackModelos de Emergência

1.ollama/qwen3.5:cloud🥇 Recomendado

2.ollama/minimax-m2.7:cloud

3.ollama/glm-5:cloud

4.ollama/kimi-k2.5:cloud

Backup & Recuperação Automática

Backup Automático

Binário salvo em /home/node/.openclaw/backups/ollama/

Modelos cloud não requerem download local

Backup persiste fora do container Docker

Scripts de verificação e recuperação automáticos

Recuperação Automática

                                # Verificar antes de usar
                                check-and-restore.sh
                                # Se falhar, recupera automaticamente
                                install.sh
                            

📋 Protocolo para Agentes

OBRIGATÓRIO: Antes de qualquer operação com Ollama, os agentes devem executar o script de verificação.

                        # Verificar Ollama
                        check-and-restore.sh
                        # Se exit code = 0, usar Ollama
                        # Se exit code != 0, notificar erro
                    

API Documentation

Endpoint Principal

                        # Base URL (dentro do container)
                        http://localhost:11434
                        # Gerar texto (chat)
                        POST http://localhost:11434/api/chat
                    

Exemplo de Request

                        // fetch via JavaScript
                        const response = await fetch('http://localhost:11434/api/chat', {
                          method: 'POST',
                          headers: { 'Content-Type': 'application/json' },
                          body: JSON.stringify({
                            model: 'qwen3.5:cloud',
                            messages: [{ role: 'user', content: 'Olá!' }],
                            stream: false
                          })
                        });
                    

Exemplo de Response

                        // Resposta JSON
                        {
                          "model": "qwen3.5:cloud",
                          "message": {
                            "role": "assistant",
                            "content": "Olá! Como posso ajudar?"
                          },
                          "done": true,
                          "total_duration": 1234567890
                        }
                    

IDs dos Modelos

qwen3.5:cloudRecomendado

minimax-m2.7:cloud

glm-5:cloud

kimi-k2.5:cloud

Troubleshooting

Ollama não responde / connection refused

O container pode ter reiniciado ou o serviço não iniciou corretamente.

                            # 1. Verificar status
                            check-and-restore.sh
                            # 2. Se falhar, reinstalar
                            install.sh
                            # 3. Verificar se está rodando
                            curl http://localhost:11434/api/tags
                        

⏱

Resposta muito lenta (primeira requisição)

Os modelos cloud precisam de warm-up na primeira chamada. GLM 5 pode demorar 10–30s no primeiro uso.

✅ Normal no primeiro uso Chamadas seguintes: < 2s

⚠

Modelo não encontrado (404)

O ID do modelo está incorreto ou o modelo não foi carregado.

                            # Listar modelos disponíveis
                            curl http://localhost:11434/api/tags | jq '.models[].name'
                        

🧠

Out of memory / OOM error

Os modelos cloud são processados remotamente e não consomem RAM local. Se ocorrer OOM, verifique o processo do Ollama.

                            # Verificar uso de memória
                            ps aux | grep ollama
                            # Reiniciar serviço
                            pkill ollama && ollama serve &
                        

Comparativo: Ollama vs Modelos Cloud

Critério	🏠 Ollama Local	☁️ APIs Cloud
Disponibilidade	✅ 100% local	⚠️ Depende de API
Latência	✅ < 2s (após warm-up)	✅ 0.5–3s
Custo	✅ Grátis (local)	❌ Por token
Privacidade de dados	✅ 100% privado	⚠️ Dados enviados
Qualidade	⚠️ Boa (fallback)	✅ Excelente
Context window	✅ Até 128k (Kimi)	✅ Até 1M (Gemini)
Uso offline	✅ Sim	❌ Requer internet

* Ollama é usado como fallback de emergência quando APIs Cloud estão indisponíveis.

Perguntas Frequentes (FAQ)

Quando o Ollama é ativado como fallback?

O Ollama é ativado automaticamente quando os modelos principais (GLM 4.7, Claude Haiku 4.5, GPT-5 Mini, Gemini 2.5) retornam erro de timeout, HTTP 5xx, ou ficam indisponíveis por mais de 3 tentativas consecutivas.

Os modelos Ollama precisam de GPU?

Não! Os modelos com sufixo :cloud são processados em servidores remotos via API Ollama. O container local apenas faz o roteamento das requisições, sem precisar de GPU ou alto consumo de RAM.

Como verificar se o Ollama está funcionando?

Execute o script check-and-restore.sh. Se retornar exit code 0, o Ollama está operacional. Alternativamente: curl http://localhost:11434/api/tags deve retornar JSON com os modelos disponíveis.

Qual modelo devo usar por padrão no fallback?

Use sempre qwen3.5:cloud como primeira opção — é o mais rápido e com melhor performance geral (95%). O sistema de fallback automático já segue essa ordem de prioridade.

O Ollama persiste após reinício do container?

Sim! O binário do Ollama e as configurações são salvos em /home/node/.openclaw/backups/ollama/, fora do sistema de arquivos efêmero do container. O script check-and-restore.sh restaura automaticamente ao reiniciar.

Posso usar streaming com a API?

Sim! Defina "stream": true no body da requisição. A resposta será entregue como Server-Sent Events (SSE), com cada chunk como JSON separado por newline. Para uso simples em agentes, recomenda-se "stream": false.