リサーチエージェントの検索API vs スクレイピング(2026年)

発見と、公開済みでインデックスされたデータには構造化された検索APIを使い、ログインの裏にあるページや、表示に本物のブラウザが必要なページに限ってスクレイパーを持ち出す。これが2026年にリサーチエージェントを組む最も安く、最も安定した形であり、たいていのチームは痛い目を見てからここにたどり着く。

このパターンはあちこちで繰り返し現れる。r/AI_Agents のあるスレッドは率直にこう言っていた。「リサーチエージェントがスクレイピングで予算を食い潰している。今みんなはどんなスタックを使ってるんだ?」コメントで描かれたスタックはこうだ。オーケストレーターが3〜5体の検索ドローン(Brave、Tavily、DDG)に扇状に投げ、続いて抽出に Firecrawl、サイトが抵抗してきたときの最後の手段として Playwright。誰もが挙げる痛みは同じで、Cloudflare のチャレンジと住宅用プロキシの請求額だった。

まず発見、次に抽出

この2段構えが効く理由は込み入ったものではない。r/LocalLLM の誰かが私より上手く言っていた。「発見と抽出を切り分けた途端、変なエッジケースの多くが勝手に消える」、そして「先に検索してから抽出する… 一発スクレイピングと比べた信頼性の差は異常だ」。

理由はこうだ。発見は構造化データの問題である。クエリに対して、URL・タイトル・スニペット・関連質問の順位付きリストが欲しい。そのデータはすでにインデックス化されていて、検索APIがきれいなJSONで返してくれる。ヘッドレスブラウザもプロキシプールも Cloudflare 回避も要らない。抽出は別の問題だ。エージェントが実際に読むと決めた数ページから本文全体を取り出す。スクレイパーが給料分の働きをするのはここだ。

チームが発見を飛ばしてスクレイピングでURLにたどり着こうとすると、検索APIならわずかな費用で済む作業に、金と信頼性を燃やすことになる。人々が「スクレイピング代」と呼ぶものの大半は、姿を変えた発見にすぎない。

コスト計算

値段をつけよう。Firecrawl は月1,000クレジットまで無料で、その先の Hobby プランは年払いで月16ドル、5,000クレジット、同時実行5。1ページ1クレジットで、Search 機能は10件あたり2クレジットかかる。Firecrawl は優れた抽出ツールだが、その Search で発見をまかなうのは、リンク探しに抽出用クレジットを使うことを意味する。

Exa Search は1リクエスト0.007ドル(1,000件で7ドル)。Scavio の Google SERP は軽量リクエストで1クレジット、1クレジット0.005ドルなので1リクエスト0.005ドル。light_request=false のフルSERPは2クレジット(0.01ドル)。純粋な発見なら、たいてい軽量リクエストで足りる。

1コールあたりの数字より、形のほうが効いてくる。エージェントが1,000回検索し、本当に関連しそうな20ページだけを抽出するなら、1,000回分はSERP価格、20ページ分は抽出価格で済む。全部をスクレイパー価格で払い、最後までプロキシと格闘するのとは違う。

Scavio の SERP 呼び出しで発見する

これはエージェントが順位付け・絞り込み・選択的な抽出に使える、ランク付きリストを返す。

Python

import os, requests
H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/google", headers=H,
    json={"query": "best serp api", "light_request": False})
data = r.json()
for row in data["organic_results"]:
    print(row["position"], row["title"], row["link"])

organic_results、people_also_ask、knowledge_graph、related_searches が構造化JSONで返る。プロキシプールも、Cloudflare との取っ組み合いもない。(Scavio は Google の AI Overviews を返さないので、それを前提に作ってはいけない。)同じキーで Reddit、YouTube、Amazon、Walmart、TikTok も一つのクレジットプールから扱える。プラットフォームごとに別プロバイダを配線するのではなく、発見をここに通す本当の理由がこれだ。

正直なトレードオフ

検索APIはスクレイピングの代わりにはならない。ログインの裏にある本文全体や、大量のJavaScriptを経てようやく描画されるページが必要なら、やはり Firecrawl、Apify、Playwright が要る。Scavio がスクレイピングを置き換えるのは、公開済みでインデックスされたSERPとソーシャルのデータに限られる。任意のページ向けの抽出エンジンではない。

そして、可能なかぎり安い価格で生の Google SERP だけが要件なら、Scavio が最安ではない。DataForSEO は1リクエスト0.0006ドルほどだが、最低50ドルの入金を求め、Standard 段はキューに並ぶ。Serper は1リクエスト0.001ドルほどだが Google 専用だ。Google だけでよく、入金を受け入れるなら、どちらも生の価格では Scavio に勝つ。

無料だが自分で運用する、という正当な道もある。セルフホストの Firecrawl と SearxNG を組み合わせれば、コールごとの請求なしで発見と抽出ができる。インフラを動かし、面倒を見続ける覚悟があるかぎりは。

Scavio の強みは1コールあたりの最安値ではない。一つのキーと一つのクレジットプールでのマルチプラットフォーム発見、最低入金も月額の下限もない本物の従量課金、そして構造化JSONに https://mcp.scavio.dev/mcp でホストされたMCPだ。Google・Reddit・ソーシャルシグナルを混ぜて使うリサーチエージェントにとって、これがたいてい、仕事の発見側を片づける最も安く、最も理にかなったやり方になる。

まず発見、次に抽出

コスト計算

Scavio の SERP 呼び出しで発見する

これはエージェントが順位付け・絞り込み・選択的な抽出に使える、ランク付きリストを返す。

Python

import os, requests
H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/google", headers=H,
    json={"query": "best serp api", "light_request": False})
data = r.json()
for row in data["organic_results"]:
    print(row["position"], row["title"], row["link"])

正直なトレードオフ

リサーチエージェントの検索API vs スクレイピング(2026年)

まず発見、次に抽出

コスト計算

Scavio の SERP 呼び出しで発見する

正直なトレードオフ

続きを読む

Exa Searchが高い理由と、2026年の安い代替策

Redditで、すでにある自社プロダクトの需要を掘り当てる

リサーチエージェントの検索API vs スクレイピング(2026年)

まず発見、次に抽出

コスト計算

Scavio の SERP 呼び出しで発見する

正直なトレードオフ

続きを読む

Exa Searchが高い理由と、2026年の安い代替策

Redditで、すでにある自社プロダクトの需要を掘り当てる