自前のAmazonスクレイパーの保守は、データを使う時間よりスクレイパーを直す時間の方が長くなったらやめどきです。これはr/thewebscrapingclubのスレッドが何度もたどり着いた線であり、正しい判定基準です。セルフホストのスクレイピングは無料ではありません、給料の項目です。問題は、それにかかる手間が、マネージドAPIより価値があるかどうかです。
自前Amazonスクレイパーの隠れたコスト
スクレイパーの表面価格は「無料、自分で書いたから」です。本当の請求書は繰り返しやってきます。
- プロキシ。 AmazonはデータセンターのIPを素早くブロックするので、住宅用プロキシを買うことになり、しばしば最大の項目になり、それでもフラグされます。
- キャプチャ解決。 ソルバーサービスを追加し、その失敗率のお守りをします。
- セレクタのずれ。 AmazonがDOMを変え、パーサーが黙ってnullを返し、下流のレポートがおかしく見えて初めて気づきます。
- ヘッドレスブラウザの維持。 PlaywrightやPuppeteerはボット検出と戦い、RAMを食い、レイアウト変更で壊れます。
あるコメントはこのモグラ叩きをこう要約しました。絶え間ない更新とプロキシの問題、終わりのないゲームだ、と。別の人は、プロキシのBANとPlaywrightの頭痛に対処するのをやめるために、わざわざマネージドスクレイパーに移行しました。
損益分岐の計算
実際の数字を当てましょう。保守が週にエンジニア1日分を食うとします。総コストの時給で見れば、1枚のプロキシ請求書すら来る前に、軽く月数千ドルになります。さて、マネージドAPI側、2026年6月に検証済みです。
- ScrapingBee: 月49ドルで250,000 APIクレジット、パースは自分で書きます。
- Bright Data: スクレイパーAPIで従量課金1,000リクエスト1.50ドル、成功ベースの課金。
- Scavio: 構造化されたAmazon商品JSONを1リクエスト0.005ドル(1クレジット)、登録時50無料クレジット、管理すべきプロキシもキャプチャもなし。
たとえば月に50,000件の商品レコードを引くなら、1件0.005ドルの構造化APIは250ドルで、保守ゼロです。週にエンジニア1日分の維持にプロキシ費用を足したものと比べれば、取り戻せる信頼性を数える前から、APIはコストだけで勝ちます。
セルフホストがなお勝つとき
例外には正直になりましょう。次の場合は自前のスクレイパーを維持します。
- ログインの裏や、どのAPIも公開していないフローにあるデータが必要。
- 商品APIが返さないニッチなフィールドのロングテールをスクレイプする。
- 量が非常に多く、リクエスト単価がインフラコストを上回る(まれで、そのときは分かります)。
よくあるケース、つまり公開された商品データ、価格、タイトル、セラー、評価については、構造化APIがボット検出の軍拡競争なしにJSONとして返します。
構造化APIコール、プロキシスタックなし
import os, requests
H = {"Authorization": f"Bearer {os.environ['SCAVIO_API_KEY']}", "Content-Type": "application/json"}
r = requests.post("https://api.scavio.dev/api/v1/amazon",
headers=H, json={"query": "B08N5WRWNW"}).json() # ASIN as query
print(r["data"]) # structured product fields, no parsing同じキーでGoogle、Walmart、Reddit、YouTube、TikTokも引けるので、クロスプラットフォームの価格モニタリングはサイトごとのスクレイパーではなく1つの統合で済みます。
判断ルール
1ヶ月、1つの数字を追いましょう。スクレイパーの保守に費やした時間 vs そのデータを使うのに費やした時間。保守がこの比率で勝った最初のとき、答えは出ています。スクレイピングはデータへの手段であって趣味ではありません。手段が目的より高くつくなら、乗り換えましょう。