Paga per un'API di deep research quando esegui migliaia di query multi-hop e non puoi permetterti di gestire da solo indice, dedup e pulizia dei token. Costruisci il tuo loop quando il volume e modesto e vuoi il controllo. E tutta qui la risposta alla domanda che r/aiagents e r/Rag continuano a girare a meta 2026, e tutto cio che segue e il ragionamento e i numeri che ci stanno dietro.
Cosa vende davvero un'API di deep research
Un'API di deep research non e un loop di ricerca che potresti banalmente ricostruire. Lo stesso team di Parallel, rispondendo su r/aiagents, e stato chiaro: per agenti basici dove non ti interessano latenza, costo o qualita, non noterai differenza; le aziende che fanno milioni di ricerche non vogliono gestire quell'infrastruttura. Quello che affitti sono tre cose: un indice classificato per il contesto LLM invece che per i click umani, la provenienza delle fonti e le citazioni, e qualcun altro che si accolla latenza e dedup su scala.
Il punto dell'indice e quello vero. Google classifica i risultati perche una persona clicchi il primo link blu. Un indice nativo per LLM classifica gli snippet per rilevanza rispetto a una context window, il che significa meno token sprecati per query. A milioni di query, il token bloat da contesto irrilevante e una voce di costo; a qualche migliaio, no.
Cosa costa davvero il loop fai-da-te
La versione fai-da-te e una search API, un passo di rifinitura e una condizione di stop. Chiami un endpoint di ricerca, leggi i primi risultati, decidi se hai abbastanza, cerchi di nuovo con una query piu affilata se no. E gran parte di cio che fa la modalita "deep research" sotto il cofano, un loop di ricerca piu un loop di rifinitura, come ha detto un commentatore su r/aiagents. Il lavoro che ti accolli e l'orchestrazione: riscrittura delle query, dedup, decidere quando fermarsi e assemblare le citazioni.
Per volumi modesti questo costa poco e ti tieni il controllo. Possiedi i prompt, le condizioni di stop e la forma del dato. Non stai debuggando un harness opaco quando i risultati sembrano sbagliati.
I prezzi 2026, verificati
Verificati sulle pagine dei fornitori il 2026-06-26:
- Exa: ricerca neurale standard 7 $ ogni 1.000 (alzata da 5 $ a marzo 2026), deep 12 $/1k, deep-reasoning 15 $/1k, 1.000 ricerche gratis/mese.
- Parallel: 5 $ ogni 1.000 richieste con 10 risultati inclusi, +1 $/1k risultati extra, circa 16.000 richieste gratuite.
- Tavily: 1.000 crediti gratis/mese, basic 1 credito, advanced 2 crediti, 0,008 $/credito pay-as-you-go.
- Una semplice SERP API (Scavio): 0,005 $/credito, SERP completa 2 crediti, Reddit 2 crediti, sul piano 30 $/7.000 crediti sono all'incirca 4,30 $ ogni 1.000 chiamate SERP completa.
I tier deep (12-15 $/1k) sono dove il premium morde. Se il tuo bisogno "deep" e in realta "cerca, rifinisci una volta, cerca di nuovo," un loop su un'API da 4-5 $/1k lo fa a meno.
Dove il fai-da-te cede
Sii onesto sul soffitto. Su scala reale, catene multi-hop su milioni di query, l'indice gestito si guadagna il prezzo. Dedup su migliaia di fonti, provenienza che puoi mostrare a un cliente, ed efficienza dei token che si compone su milioni di chiamate sono infrastruttura vera che altrimenti costruiresti e gestiresti. Il rappresentante di Parallel non stava bluffando su quella parte.
L'altra debolezza del fai-da-te e la qualita dell'indice. Un loop su risultati a forma di Google eredita il ranking a click umano di Google. Per ricognizioni di letteratura a tema aperto, un indice neurale come Exa fa emergere davvero pagine che la ricerca per keyword perde.
Una regola di decisione
Usa il test di costo-ricerca di Scavio: stima le query di ricerca mensili per la tariffa del tier deep, poi confrontale con una semplice SERP API piu le ore di ingegneria per gestire il tuo loop.
- Sotto le ~50.000 query/mese e per lo piu grounding fattuale: loop fai-da-te su una SERP API strutturata. Costa meno, e ti tieni il controllo.
- Alto volume, multi-hop, sensibile alla provenienza (mostri citazioni ai clienti): compra Parallel o Exa. Stai pagando per non possedere l'infrastruttura, che e il trade corretto a quella scala.
- Scoperta semantica a tema aperto ("trovami tutto cio che e come questo"): la ricerca neurale di Exa, a prescindere dal volume.
Un'altra cosa che il fronte fai-da-te sottovaluta: molte domande di "ricerca" non sono domande web. "Cosa dice davvero la gente di questo tool" e una chiamata Reddit. "Questo prodotto sta diventando trend" e una chiamata Amazon o TikTok. Un'API multi-piattaforma come Scavio fa grounding su tutte queste dietro una chiave, 0,005 $/credito, 50 gratis per iniziare, che nessuna API di research solo-web raggiunge. Verificato in questa sessione: una chiamata /api/v1/google con light_request:false ha restituito 7 risultati organici piu 8 ricerche correlate e il blocco knowledge graph a 2 crediti, che e il layer di grounding su cui poggiano comunque la maggior parte dei loop di ricerca.
L'API di deep research non e una truffa e il loop fai-da-te non e sempre ingenuo. Scegli sul volume e sul fatto che tu stia facendo grounding o vera ricerca multi-hop. La maggior parte degli agenti fa grounding e paga prezzi da ricerca.