第一天玩爬虫就遇到 418 恼火 -______——-

1次阅读

共计 1138 个字符，预计需要花费 3 分钟才能阅读完成。

目标地址：https://search.shopping.naver.com/search/category?adQuery&brand=188869&catId=50000629

step1: 国内电信，不用任何代理或 vpn 直接用浏览访问就出现 418，初步确定是这个站点封禁国内的。（不知道移动和联通是否也这样）

step2: 启动 vpn 访问用浏览器访问，打开页面正常。

接下来 curl 的奇怪问题
操作系统是: macos-14.5

确定了 curl 终端请求都是会经过代理的

curl ‘https://search.shopping.naver.com/search/category?catId=50000630′

尝试 1：在终端：macos-curl 8.6.0 请求返回的是 418

尝试 2: 用 docker-debian-curl 7.52.1 请求返回 200 却是可以成功的

尝试 3: 用 docker-debian-curl 7.88.1 请求返回的是 418

python 和 scrapy 的奇怪问题

确定了请求都是会经过代理的

Python 3.9.6 Scrapy 2.8.0

cookies = {
    'NACT': '1',
    'NAC': 'bupOBQQrA6vz',
    'NNB': 'HTF6RRY7SDCGM',
    'BUC': 'fHVI0Qf4gDQah4m9TkLBxmg7BIZvwdowShJv6ZPLiG8=',
    'OEP_BUCKET_ID': '1',
    'SHP_BUCKET_ID': '9'
}

headers = {
    # 'cookie': 'NACT=1; NAC=bupOBQQrA6vz; NNB=HTF6RRY7SDCGM; BUC=fHVI0Qf4gDQah4m9TkLBxmg7BIZvwdowShJv6ZPLiG8=; OEP_BUCKET_ID=1; SHP_BUCKET_ID=9',
    'sec-ch-ua': '"Not)A;Brand";v="99", "Microsoft Edge";v="127", "Chromium";v="127"',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'
}

url = 'https://search.shopping.naver.com/search/category?catId=50000629'

requests.get(url, headers=headers, cookies=cookies)

尝试 python 请求：返回是 200 正常

尝试 scrapy 请求：返回是 418 失败

正文完

发表至： V2EX

近一天内

0

关于 iPhone 省电模式的一些感受

boringavatars

为什么 make 输出 make: Entering directory 时，后面跟的路径的两边的字符不一样，是反引号和单引号？

iPhone 和 mac 使用 shadowrocket 使用同样的服务器，使用同样的规则，有些网站 mac 就可以访问， iPhone 不行，并且 mac 链接的 iPhone 热点，大佬们还有没有排查思路。

第一天玩爬虫就遇到 418 恼火 -______——-

分析过程

PLEX 是被墙了吗？

Chrome 插件 SessionBox 收费了，有其他平替吗？

避雷木韩云

我现在所有设备使用的是美区 ID 长时间会有影响吗

有大佬知道安装安卓 apk 时提示病毒:a.gray.crackgame 能安装吗

第一天玩爬虫就遇到 418 恼火 -______——-

分析过程

PLEX 是被墙了吗？

Chrome 插件 SessionBox 收费了，有其他平替吗？

避雷木韩云

我现在所有设备使用的是美区 ID 长时间 会有影响吗

有大佬知道安装安卓 apk 时提示病毒:a.gray.crackgame 能安装吗

我现在所有设备使用的是美区 ID 长时间会有影响吗