定义
重试风暴是一种故障模式,多个 Agent 同时重试软失败的请求,级联触发速率限制上限或依赖服务过载,有时会升级为严重事故。
深入了解
当 Agent 编排层在没有退避或熔断逻辑的情况下激进地重试模糊错误(超时、解析器故障、5xx 瞬态错误)时,就会出现重试风暴。在高负载下,一个 Agent 的重试与另一个 Agent 的重试碰撞,依赖服务要么触发速率限制要么直接崩溃。修复方法是结合使用结构化错误码(让 Agent 区分真正故障和瞬态故障)、指数退避加抖动以及逐次调用超时。Scavio 正是为了帮助 Agent 编排层避免重试风暴而发布类型化的错误码。
用法示例
一位值班工程师追溯了周五下午的告警,发现是团队自建搜索工具中的解析器抖动触发了一场重试风暴。
平台
重试风暴在以下平台中相关,所有这些平台都可通过Scavio的统一API访问:
- Amazon
- YouTube
- Walmart