Quando smettere di mantenere i tuoi scraper Amazon

Smetti di mantenere il tuo scraper Amazon quando spendi piu' tempo a riparare lo scraper che a usarne i dati. E' la linea su cui un thread di r/thewebscrapingclub continuava a tornare, ed e' il test giusto. Lo scraping self-hosted non e' gratis, e' una voce di stipendio. La domanda e' se il lavoro che ti costa vale piu' di una API gestita.

I costi nascosti di uno scraper Amazon gestito in proprio

Il prezzo di listino di uno scraper e' "gratis, l'ho scritto io". Il conto vero e' ricorrente:

Proxy. Amazon blocca in fretta gli IP datacenter, quindi compri proxy residenziali, spesso la voce piu' grossa, e vengono comunque segnalati.
Risoluzione captcha. Aggiungi un servizio solver, poi ne tieni d'occhio il tasso di fallimento.
Selector drift. Amazon cambia il DOM, il tuo parser restituisce silenziosamente null, e te ne accorgi quando un report a valle sembra sbagliato.
Manutenzione del browser headless. Playwright o Puppeteer combatte contro il bot detection, divora RAM e si rompe sui cambi di layout.

Un commentatore ha riassunto il gioco a colpire la talpa: aggiornamenti continui e problemi di proxy, una partita senza fine. Un altro e' passato a uno scraper gestito apposta per smettere di avere a che fare con i ban dei proxy e i grattacapi di Playwright.

I conti del punto di pareggio

Metti numeri veri. Diciamo che la manutenzione si mangia un giorno-uomo a settimana. A una tariffa caricata, sono facilmente qualche migliaio di dollari al mese prima ancora di una bolletta dei proxy. Ora il lato API gestita, verificato a giugno 2026:

ScrapingBee: 49$/mese per 250.000 crediti API, il parsing lo scrivi comunque tu.
Bright Data: 1,50$ ogni 1.000 richieste pay-as-you-go sulle sue scraper API, fatturazione basata sul successo.
Scavio: 0,005$ per richiesta (1 credito) per JSON strutturato dei prodotti Amazon, 50 crediti gratis all'iscrizione, niente proxy o captcha da gestire.

Se preleva, diciamo, 50.000 record prodotto al mese, una API strutturata a 0,005$ l'uno fa 250$, con zero manutenzione. Contro un giorno-uomo a settimana di manutenzione piu' i costi dei proxy, l'API vince sul costo da sola, prima ancora di contare l'affidabilita' che ti riprendi.

Quando il self-hosting vince ancora

Sii onesto sulle eccezioni. Tieni il tuo scraper quando:

Ti servono dati dietro login o in un flusso che nessuna API espone.
Fai scraping di una coda lunga di campi di nicchia che una product API non restituisce.
Il tuo volume e' cosi' alto che il pricing per richiesta supera il costo della tua infrastruttura (raro, e te ne accorgerai).

Per il caso comune, dati prodotto pubblici, prezzo, titolo, seller, rating, una API strutturata li restituisce come JSON senza la corsa agli armamenti contro il bot detection.

Una chiamata API strutturata, niente stack di proxy

Python

import os, requests

H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/amazon",
    headers=H, json={"query": "B08N5WRWNW"}).json()  # ASIN as query
print(r["data"])  # structured product fields, no parsing

La stessa chiave preleva anche da Google, Walmart, Reddit, YouTube e TikTok, quindi il monitoraggio prezzi cross-platform e' un'unica integrazione invece di uno scraper per sito.

La regola decisionale

Traccia un numero per un mese: ore spese a mantenere lo scraper contro ore spese a usarne i dati. La prima volta che la manutenzione vince quel rapporto, hai la tua risposta. Lo scraping e' un mezzo per arrivare ai dati, non un hobby, e quando il mezzo costa piu' del fine, cambia.

I costi nascosti di uno scraper Amazon gestito in proprio

Il prezzo di listino di uno scraper e' "gratis, l'ho scritto io". Il conto vero e' ricorrente:

Proxy. Amazon blocca in fretta gli IP datacenter, quindi compri proxy residenziali, spesso la voce piu' grossa, e vengono comunque segnalati.

Risoluzione captcha. Aggiungi un servizio solver, poi ne tieni d'occhio il tasso di fallimento.

Selector drift. Amazon cambia il DOM, il tuo parser restituisce silenziosamente null, e te ne accorgi quando un report a valle sembra sbagliato.

Manutenzione del browser headless. Playwright o Puppeteer combatte contro il bot detection, divora RAM e si rompe sui cambi di layout.

I conti del punto di pareggio

ScrapingBee: 49$/mese per 250.000 crediti API, il parsing lo scrivi comunque tu.

Bright Data: 1,50$ ogni 1.000 richieste pay-as-you-go sulle sue scraper API, fatturazione basata sul successo.

Scavio: 0,005$ per richiesta (1 credito) per JSON strutturato dei prodotti Amazon, 50 crediti gratis all'iscrizione, niente proxy o captcha da gestire.

Quando il self-hosting vince ancora

Sii onesto sulle eccezioni. Tieni il tuo scraper quando:

Ti servono dati dietro login o in un flusso che nessuna API espone.

Fai scraping di una coda lunga di campi di nicchia che una product API non restituisce.

Il tuo volume e' cosi' alto che il pricing per richiesta supera il costo della tua infrastruttura (raro, e te ne accorgerai).

Per il caso comune, dati prodotto pubblici, prezzo, titolo, seller, rating, una API strutturata li restituisce come JSON senza la corsa agli armamenti contro il bot detection.

Una chiamata API strutturata, niente stack di proxy

Python

import os, requests

H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/amazon",
    headers=H, json={"query": "B08N5WRWNW"}).json()  # ASIN as query
print(r["data"])  # structured product fields, no parsing

La stessa chiave preleva anche da Google, Walmart, Reddit, YouTube e TikTok, quindi il monitoraggio prezzi cross-platform e' un'unica integrazione invece di uno scraper per sito.

Quando smettere di mantenere i tuoi scraper Amazon

I costi nascosti di uno scraper Amazon gestito in proprio

I conti del punto di pareggio

Quando il self-hosting vince ancora

Una chiamata API strutturata, niente stack di proxy

La regola decisionale

Continua a leggere

API di deep research vs accesso web fai-da-te dell'agente: quando vince ciascuna

Perche le risposte Reddit auto-redatte falliscono (e come sistemare la voce)

Quando smettere di mantenere i tuoi scraper Amazon

I costi nascosti di uno scraper Amazon gestito in proprio

I conti del punto di pareggio

Quando il self-hosting vince ancora

Una chiamata API strutturata, niente stack di proxy

La regola decisionale

Continua a leggere

API di deep research vs accesso web fai-da-te dell'agente: quando vince ciascuna

Perche le risposte Reddit auto-redatte falliscono (e come sistemare la voce)