质量工程 Demo

跨系统故障诊断 Agent

一个故障诊断 Agent:从日志、指标、部署和配置中收集证据,再通过可证伪假设逐步收敛。

可运行 demo · 仓库路径: workshops/workshop3-incident-diagnosis

结构蓝图

跨系统故障诊断 Agent blueprint

可点、可跑、可观察

交互式浏览器 Demo

这个模拟器不替代命令行运行,但可以直接在网页里观察每一步的状态、执行日志、质量门和最终输出。

实时流水线

状态检查器

执行日志

当前输出

一步一步看设计

01

接入告警

明确事故时间窗和服务边界。

上下文分诊
02

并行查询

并行读取日志、指标、部署事件和配置。

扇出/汇聚
03

融合证据

把异构证据规范成同一条时间线。

多模态融合
04

形成假设

提出最可能根因和验证动作。

迭代假设
05

证伪/收敛

拒绝弱假设,收敛到证据支持的原因。

迭代假设
06

发布报告

输出时间线、置信度、下一步和未解风险。

可观测性 Harness

截图

命令行输出:证据扇出、假设循环、置信度和下一步行动。
命令行输出:证据扇出、假设循环、置信度和下一步行动。

模式映射

模式设计作用
扇出/汇聚事故证据分散在多个系统,可并行查询。
多模态融合日志、指标和配置要变成一条可比较时间线。
迭代假设Agent 要测试并拒绝假设,而不只是复述症状。
可观测性 Harness每个诊断都要有轨迹、置信度和未解风险。

设计洞察

诊断不是搜索

更多日志本身没有意义,除非 Agent 有假设循环。

只读也可以很强

诊断 Agent 不执行修复,只输出证据和下一步,也能很安全。

置信度是路由信号

低置信度应该触发升级,而不是生成一段貌似自信的话。

运行路径

cd workshops/workshop3-incident-diagnosis python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt python src/main.py open visual/index.html
READMEworkshops/workshop3-incident-diagnosis/README.md
Blueprintimages/training/visual/workshop3-incident-diagnosis-blueprint.png