📚 渡口文档库

n160 · /home/joehuang

🏠 首页

浩元居系统恢复方案 v1.0(2026-05-16)

背景

2026-05-16 吉修完成系统架构调整,解决以下问题:
1. 心跳从 crontab 迁移到 jobs.json(OpenClaw 原生调度)
2. Dispatcher 恢复每20分钟派工
3. 三人失联(老道/振玄/映像)心跳重新开启
4. 加入180秒恢复缓冲防止重启风暴
5. dispatcher_daemon 停用(避免重复)


核心架构

┌─────────────────────────────────────────────────────────┐
│  OpenClaw cron daemon(jobs.json,40个任务)             │
│  └─ 心跳任务(12个,30分钟错开)                         │
│      tech_ops / main / xihe / holyrange / mercury /    │
│      sageguide / dao_yi_consultant / phymath /         │
│      quality_inspector / njsoftwareengineer /          │
│      product_chief / mediax                              │
│  └─ 其他定时任务(系统看门狗/巡检/报告等)                 │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│  Hub API(127.0.0.1:8792)                              │
│  └─ 收件箱(agent_messages)                            │
│  └─ WBS任务派工                                         │
└─────────────────────────────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────┐
│  Dispatcher(crontab,每20分钟)                        │
│  └─ 读 WBS → 检查派工条件 → 叫醒 agent                   │
│  └─ 180秒恢复缓冲(重启后等3分钟再派工)                   │
└─────────────────────────────────────────────────────────┘

各层职责

1. 心跳(jobs.json)

2. 收件箱(Hub API)

3. Dispatcher(crontab,每20分钟)


风暴防护机制

保护层 机制
心跳错开 12个agent分布在30分钟内,不同时触发
冷却期 dispatcher 2分钟冷却(每轮最多派3个)
并发上限 每个agent最多claim 1-3个任务
LLM上限 系统级检测,超限跳过派工
恢复缓冲 重启后180秒内不派工

失联三人处理记录(2026-05-16)

Agent 问题 解决
道引真人 (sageguide) jobs.json心跳 enabled=False 已改为 True
振玄 (phymath) jobs.json心跳 enabled=False 已改为 True
映像 (mediax) jobs.json心跳 enabled=False 已改为 True

Bot状态全部正常(TG getMe = ok:true)


SOP 检查项(重启后执行)

bash /home/joehuang/.openclaw/scripts/sop_check.sh

检查8项:
1. Gateway 运行中
2. 关键进程(mihomo / dockerd / parser / dispatcher)
3. OpenClaw cron daemon(jobs.json)
4. crontab 只有 dispatcher
5. Dispatcher 日志正常
6. Hub API 正常
7. TG API + 出口节点
8. tech_ops 心跳脚本


文件位置

文件 路径
SOP检查脚本 ~/.openclaw/scripts/sop_check.sh
jobs.json ~/.openclaw/cron/jobs.json
Dispatcher ~/.openclaw/collaboration/scripts/dispatcher.py
心跳脚本 ~/.openclaw/scripts/heartbeat_*.sh
Hub ~/.openclaw/projects/agent-hub/hub.py
恢复缓冲代码 dispatcher_daemon.py (已停用)

下次重启测试步骤

  1. SSH 登录 → bash sop_check.sh
  2. 确认所有检查通过
  3. 等3分钟缓冲
  4. 观察 dispatcher 日志
  5. 确认心跳正常触发

归档:浩元渡口/指挥所/系统恢复方案_v1.0_20260516.md
记录人:吉修 tech_ops
日期:2026-05-16