OpenClaw LLM 请求超时（Timeout）怎么办？常见原因与分步排查指南

一、问题现象：哪些表现属于 OpenClaw 超时？

当你使用 OpenClaw 调用本地或远程 LLM 服务时，出现以下任一情况，即属于典型的超时问题：

HTTP 请求返回 504 Gateway Timeout 或 502 Bad Gateway（常见于 Nginx/反向代理后）
客户端报错：requests.exceptions.Timeout、urllib3.exceptions.ReadTimeoutError、ConnectionResetError
Curl 命令卡住数秒后提示 Operation timed out 或 Failed to connect
OpenClaw Web UI 显示「请求失败」或长时间转圈无响应，控制台 Network 面板显示 pending 或 status=0

二、常见原因分类（按优先级排序）

超时不是单一故障，而是链路中某环节响应过慢的综合体现。请按以下顺序逐层排查：

客户端配置过短：调用方（如 Python requests、curl、Postman）未设置合理 timeout，或设为默认极短值（如 requests 默认无 timeout，但某些封装库设为 3s）
网络层阻塞：本地到 OpenClaw 服务端存在防火墙、代理、DNS 解析慢、跨网段高延迟（尤其 Docker 容器内访问 host 网络）
服务端启动/加载慢：首次加载大模型（如 Qwen2-7B、Llama3-8B）耗时长，OpenClaw 启动时未预热，或 GPU 显存不足触发 OOM 后降级等待
反向代理超时设置不合理：若通过 Nginx/Caddy 暴露服务，其 proxy_read_timeout、proxy_connect_timeout 默认常为 60s，低于模型推理实际耗时
模型推理本身缓慢：CPU 模式运行、量化等级过低（如 fp16 未启用）、batch_size 过大、context_length 过长导致 KV Cache 膨胀

三、分步解决方案

✅ 步骤 1：确认并延长客户端超时阈值

以 Python requests 为例，显式设置足够长的 timeout（单位：秒）：

import requests
response = requests.post(
    "http://localhost:8000/v1/chat/completions",
    json={"model": "qwen2", "messages": [{"role": "user", "content": "你好"}]},
    timeout=(10, 300)  # (connect_timeout, read_timeout)
)

注意：timeout=(10, 300) 表示连接最多等 10 秒，响应体读取最多等 300 秒（5 分钟），适配多数中等规模模型首 token 延迟。

✅ 步骤 2：检查服务端是否已就绪 & 是否在加载中

查看 OpenClaw 启动日志（尤其是 INFO 或 WARNING 级别）：

是否有 Loading model...、Compiling graph... 等长时间无输出日志？
是否出现 torch.cuda.OutOfMemoryError 或 Failed to allocate memory？
启动后执行健康检查：curl -v http://localhost:8000/health，确认返回 200 OK 且无延迟

✅ 步骤 3：验证反向代理配置（如使用 Nginx）

检查 Nginx 配置中对应 location 块是否包含以下参数：

location / {
    proxy_pass http://127.0.0.1:8000;
    proxy_set_header Host $host;
    proxy_set_header X-Real-IP $remote_addr;
    proxy_read_timeout 600;        # ⬅ 关键：至少设为 600（10分钟）
    proxy_connect_timeout 60;
    proxy_send_timeout 600;
}

修改后执行 nginx -t && nginx -s reload 生效。

四、如何验证是否修复成功？

完成调整后，按顺序验证：

直接 curl 服务端地址（绕过 Nginx）：time curl -s http://localhost:8000/health → 应 <100ms 返回
发起最小推理请求：curl -X POST http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"qwen2","messages":[{"role":"user","content":"hi"}]}' → 观察是否在预期时间内返回 JSON
在 Web UI 中发送短消息，检查「响应时间」面板或浏览器 DevTools Network 时间线

五、仍无法解决？补充建议

⚠️ 注意：OpenClaw 当前为活跃开发项目，不同 commit 或分支行为可能差异较大。请始终以 GitHub 主仓库 README 和 docs/ 目录为准。

尝试降低推理负载：设置 max_tokens=128、temperature=0.1、禁用 streaming，排除流式响应引发的连接维持问题
检查 GPU 状态：nvidia-smi 确认显存占用率 & GPU 利用率；若显存 >95%，考虑换用更小模型或启用 --quantize awq 等量化选项
启用详细日志：启动时加 --log-level DEBUG，关注 router 和 engine 模块耗时日志
临时关闭安全组/防火墙测试，排除中间设备拦截重传导致的伪超时

如以上均无效，建议在 GitHub Issues 提交新 issue，并附上：openclaw --version 输出、完整启动命令、复现请求的 cURL 命令、以及 journalctl -u openclaw -n 100 --no-pager（Linux systemd）或终端最后 100 行日志。

转载请注明：AI工具问题解答站 » OpenClaw LLM 请求超时（Timeout）怎么办？常见原因与分步排查指南