Definizione
Una retry storm è una modalità di fallimento in cui molti agenti riprovano contemporaneamente una richiesta con fallimento soft, causando cascate verso i limiti di rate-limit o sovraccarico delle dipendenze, e talvolta degenerando in incidenti.
Approfondimento
Le retry storm emergono quando un agent harness riprova aggressivamente errori ambigui (timeout, fallimenti del parser, 5xx transitori) senza logica di backoff o circuit-breaker. Sotto carico, i tentativi di un agente si scontrano con quelli di un altro e la dipendenza o va in rate-limit o collassa. La soluzione è una combinazione di codici di errore strutturati che permettono all'agente di distinguere fallimenti reali da quelli transitori, backoff esponenziale con jitter e timeout per chiamata. Scavio pubblica codici di errore tipizzati proprio per aiutare gli agent harness a evitare retry storm.
Utilizzo di Esempio
Un ingegnere di turno ha ricondotto un avviso del pager del venerdì pomeriggio a una retry storm innescata da un parser-flap nello strumento di ricerca personalizzato del team.
Piattaforme
Retry Storm è rilevante sulle seguenti piattaforme, tutte accessibili tramite l'API unificata di Scavio:
- Amazon
- YouTube
- Walmart
Termini correlati
Agent Harness
Un agent harness è il runtime e il livello di orchestrazione attorno a un LLM che decide quando chiamare gli strumenti, ...
Sub-agente
Un sub-agente è un agente specializzato generato da un agente genitore per gestire un compito limitato, consentendo di s...
Limitazione della frequenza API
La limitazione della frequenza API è un meccanismo che limita il numero di richieste che un client può inviare a un'API ...