2026년, 다들 스크래핑에 무엇을 쓰나

요즘 대부분의 팀은 스택을 둘로 나눠 운영한다. 로그인 뒤에 있거나 자바스크립트가 많은 대상에는 레지덴셜 프록시와 스텔스 헤드리스 브라우저를 묶은 자체 스크래퍼를, 공개되어 이미 색인된 대상에는 호스팅형 검색/SERP API를 쓴다. 2026년에 모든 걸 잘 해내는 단일 도구는 없으며, 최근 r/dataengineering 스레드("몇 년 스크래핑에서 떠나 있었는데, 다들 지금 뭐 쓰나?", 60표)도 이를 확인해 준다. 한 댓글. "구글 검색 스크래핑은 정말 어렵다... SERP를 쓰거나, 구글 엔지니어를 이기거나다." 다른 댓글. "혼자 돌리기엔 너무 깨지기 쉬워서, 회사에선 SERP 서비스를 쓴다." 세 번째가 진짜 이유를 짚었다. "AI 때문에 Cloudflare 안티봇이 크게 늘었다. 아무도 자기 데이터를 공짜로 가져가게 두고 싶어 하지 않는다."

마지막 문장이 전부다. 자체 스크래핑 비용이 올라갔다. AI 학습 데이터 골드러시로 모두가 방어로 돌아서면서 Cloudflare, DataDome, PerimeterX는 핑거프린팅으로 헤드리스 브라우저를 더 잘 잡아낸다. 그래서 질문은 "어떤 스크래핑 라이브러리냐"가 아니라 "이 대상이 스택의 어느 층에 속하느냐"로 바뀌었다.

1층: 자체 스크래퍼 + 레지덴셜 프록시

로그인 뒤에 있거나 전적으로 클라이언트에서 렌더링되는 대상에는 여전히 이게 필요하다. 로그인된 대시보드, 사내 SaaS 리포트, 빈 <div id="root">만 던지는 React 앱을 떠올려 보라. 여기선 Playwright나 스텔스 포크를 돌리고, 레지덴셜 프록시를 로테이션하며, 계속 돌봐야 한다는 사실을 받아들인다. 가장 유연하면서 가장 깨지기 쉬운 층이다. Cloudflare 챌린지가 한 번 갱신될 때마다 오후가 날아간다. SearXNG도 이 근처에 있다. 무료에 자가 호스팅이지만 상위 엔진이 HTML을 바꾸면 깨지고, 규모가 커지면 자체 프록시가 필요하다.

2층: 호스팅형 스크래핑/크롤 API

임의의 사이트 페이지 내용이 필요하지만 브라우저를 직접 돌리기 싫다면, 크롤 API는 값을 한다. 흔한 선택은 Firecrawl이다. 월 무료 1,000 크레딧, Hobby 요금제는 월 16달러에 약 3,000 크레딧, AI 추출은 호출당 5 크레딧이며 크레딧은 이월되지 않는다. Jina AI의 r.jina.ai 리더는 깨끗한 텍스트를 돌려주고, 비상업용이면 키당 무료 1,000만 토큰을 준다. 이들은 지저분한 HTML을 LLM에 바로 쓸 텍스트로 바꾼다. 다만 AI 추출 패스에 과금하지 않는 한 "가격"이나 "평점" 같은 타입 필드는 주지 않는다.

3층: 구조화된 검색/SERP API

대부분이 가장 적게 쓰는 층이다. 대상이 공개되어 색인돼 있다면 — 구글 결과, 아마존 상품 페이지, 레딧 스레드, 유튜브 — 검색 API는 구조화된 JSON을 건네고 Cloudflare와 절대 싸우지 않는다. 사이트를 크롤링하는 게 아니라 이미 크롤링해 둔 API에 질의하기 때문이다. Serper는 1,000 크레딧당 1.00달러부터 시작해 규모가 커지면 0.30달러/천까지 내려가고, 6개월 유효한 무료 2,500 크레딧이 붙는다. SerpApi는 월 무료 250회 검색, 이후 월 25달러에 1,000회. Scavio는 크레딧당 0.005달러의 크레딧제이며, 전 기능 구글 SERP는 2 크레딧, 라이트 요청은 1 크레딧, 키 하나로 구글, 레딧, 유튜브, 아마존, Walmart, TikTok을 모두 덮는다.

판단 규칙

대상이 공개되어 색인돼 있는가? 그러면 검색 API를 써서 안티봇과 싸우지 않고 타입 있는 JSON을 얻어라. 로그인 뒤거나 JS 렌더링인가? 그럼 다시 1층이고, 거기선 어떤 API도 구해 주지 않는다. 분명히 하자. SERP API는 인증된 페이지나 클라이언트 렌더링 페이지의 스크래핑을 대체하지 않는다. 그것이 대체하는 건 공개 SERP와 마켓플레이스 상품 페이지를 스크래핑하는 구체적이고 고통스러운 작업 — 바로 레딧 스레드가 "정말 어렵다"고 부른 그것이다.

다음은 Scavio에 대한 전 기능 구글 질의로, 구조화된 JSON을 반환한다.

Python

import requests

resp = requests.post(
    "https://api.scavio.dev/api/v1/google",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()

for result in data["organic"]:
    print(result["position"], result["title"], result["link"])

# full_request는 people_also_ask, knowledge_graph, related_searches도 반환한다
for q in data.get("people_also_ask", []):
    print("PAA:", q["question"])

헤드리스 브라우저 없이, 프록시 풀 없이, Cloudflare 없이. 구글, 레딧, 아마존, 유튜브에 관해선 이게 대부분의 팀이 도달한 2026년의 답이다. 잠긴 데다 JS가 무거운 건, Playwright 장비를 데워 둬라.

각자의 약점

모든 곳에서 이기는 도구는 없다. 구글을 월 수백 번만 친다면 SerpApi의 무료 250회나 Serper의 무료 2,500 크레딧으로 비용이 0이 되고 어떤 유료 요금제보다 유리할 수 있다. 무작위 블로그에서 깨끗한 본문이 필요하다면, SERP API가 애초에 가져오도록 설계되지 않은 페이지를 Firecrawl이나 Jina가 읽는다. 그리고 대상이 전부 로그인 뒤라면 2층도 3층도 도움이 안 된다. 자가 호스팅하고 프록시를 올려라. 층을 과대광고가 아니라 대상에 맞춰라.

1층: 자체 스크래퍼 + 레지덴셜 프록시

2층: 호스팅형 스크래핑/크롤 API

3층: 구조화된 검색/SERP API

판단 규칙

다음은 Scavio에 대한 전 기능 구글 질의로, 구조화된 JSON을 반환한다.

Python

import requests

resp = requests.post(
    "https://api.scavio.dev/api/v1/google",
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    json={"query": "best web scraping stack 2026", "light_request": False},
)
data = resp.json()

for result in data["organic"]:
    print(result["position"], result["title"], result["link"])

# full_request는 people_also_ask, knowledge_graph, related_searches도 반환한다
for q in data.get("people_also_ask", []):
    print("PAA:", q["question"])

각자의 약점

2026년, 다들 스크래핑에 무엇을 쓰나

1층: 자체 스크래퍼 + 레지덴셜 프록시

2층: 호스팅형 스크래핑/크롤 API

3층: 구조화된 검색/SERP API

판단 규칙

각자의 약점

계속 읽기

당신의 에이전트는 도구를 건너뛰고 있고, 지연 시간 대시보드는 그걸 좋아한다

LLM 가시성 트래커는 당신이 넣은 프롬프트만 지켜본다

2026년, 다들 스크래핑에 무엇을 쓰나

1층: 자체 스크래퍼 + 레지덴셜 프록시

2층: 호스팅형 스크래핑/크롤 API

3층: 구조화된 검색/SERP API

판단 규칙

각자의 약점

계속 읽기

당신의 에이전트는 도구를 건너뛰고 있고, 지연 시간 대시보드는 그걸 좋아한다

LLM 가시성 트래커는 당신이 넣은 프롬프트만 지켜본다