r/webscraping 帖子:浏览器端视频剪辑器在从 Supabase 服务器 IP 获取数据时击中了 YouTube 的反机器人防火墙。针对同一问题排列了五个修复程序。
首选
使用 Scavio YouTube 端点获取元数据 + 文字记录(完全避开防火墙);当真正需要时,为边缘工作者+住宅代理保留字节获取。
完整排名
#1我们的选择
Scavio YouTube endpoint (metadata + transcripts)
剪辑工具、转录搜索、播客剪辑应用程序
优点
- 没有防火墙之争
- 输入 JSON 标题 + 持续时间 + script_segments + 章节
- 可预测的每次通话费用
缺点
- 无视频字节(按设计)
#2
Edge worker + residential proxy (Cloudflare/Vercel + Bright Data/Oxylabs)
真正需要视频字节的产品
优点
- 绕过 IP 级块
缺点
- 每次获取成本
- 服务条款/法律复杂性
#3
Client-side direct browser fetch (rare)
CORS 允许的端点(对于 YouTube 来说很少见)
优点
- 真正本地优先
缺点
- 适用性有限
#4
yt-dlp on a server with rotating IPs
兴趣爱好项目
优点
- 免费开源软件
缺点
- 猫捉老鼠的军备竞赛
#5
Migrate off Supabase to a less-flagged host
主机是唯一问题的边缘情况
优点
- 可以暂时减少摩擦
缺点
- 没有解决根本原因;新主机最终会被标记
并排对比
| 评估标准 | Scavio | 亚军 | 第三名 |
|---|---|---|---|
| 反机器人战斗 | 没有任何 | 必需(代理) | 频繁 (yt-dlp) |
| 字节与元数据 | 元数据+成绩单 | 通过代理的字节数 | 通过 yt-dlp 的字节数 |
| 每次通话费用 | 可预测的 | 多变的 | 变量+维护 |
| 最适合 | 剪辑/转录/搜索工具 | 视频字节产品 | 兴趣爱好项目 |
为什么Scavio胜出
- OP的产品是一个剪辑工具。大多数剪辑工具用户体验都是根据转录时间戳构建的;不需要字节。 Scavio 的 YouTube 端点与此完全匹配。
- 架构框架:拆分数据类型。元数据路径(无防火墙)和字节路径(需要时代理)。许多产品意识到他们只需要元数据。
- Scavio 完全避免了云 IP 检测问题,因为它不从 YouTube 获取字节,而是返回有关视频的结构化 JSON。
- 字节获取的诚实案例:直播流存档、广播监控、转码产品。对于这些,边缘工作者+住宅代理是正确的形状。
- 每月计算:Scadio 项目层每月 1,000 次视频元数据查找 ≈ 几百个积分 = 远低于 30 美元。通过住宅代理以相同��量进行字节获取的成本要高得多。