高铁侠采集问题,有大佬指点下么

70次阅读

共计 1248 个字符,预计需要花费 4 分钟才能阅读完成。

需要采集网址访问返回的 URL 比如在网站里面采集到下载链接是 www.loc.com/down?112233 但是真实的地址其实是百度云链接 真实地址需要访问 www.loc.com/down?112233 后自动跳转到百度云,这种应该如何采集这个跳转后的百度云 URl 地址

网友回复:

注册 写个 php 获取 302 后的地址~~~

晴空 关键就是不会写 而且没必要为了一个采集规则专门去写。目前想到的方法是把该链接添加到分页哪里 然后采集的时候会直接请求这个 url 但是在提取数据使用火车头通用的提取当前 url 获取的还是最开始的未跳转的 url 这个就很尴尬了。这个方法在大多数时候是管用的 在这一个站上突然不好使了 我是没想到的

trips 302 的地址是在返回的 header 数据里面的。火车我是不知道怎么取这个地方的。我都是 php 写起来~

晴空 火车头能返回请求头 格式是这样的 也是显示是访问到了百度云 但是未包含真实的百度云链接  我本地浏览器 F12 访问了该跳转链接,在网络请求里面看到的是如果访问他的地址返回的响应头也会包含百度云的 URL 应该就是你说的那个,但是实际火车头实际情况是返回的是最终跳转到百度云后的响应头,所以并没有 URL 的真实信息,但是理论上这时候获取的当前页面的 URL 应该是最终百度云 URL,但实际上火车头获取的是最开始未跳转的 URL,真的奇葩 HTTP/1.1 200 OK Connection:keep-alive Content-Encoding:gzip Content-Type:text/html; charset=utf-8 Date:Fri, 10 Mar 2023 10:44:00 GMT Flow-Level:3 Logid:442293871258770606 Server:nginx Set-CookieANPSC=; expires=Fri, 01-Apr-1900 00:00:00 GMT; path=/; domain=pan.baidu.com; HttpOnly; Vary:Accept-Encoding,Accept-Encoding X-Conteneur-Nom:wrRQWx8KwoUWWlzCu8OWwpnDoxcyw5cZTGvDqMO1w7/Dlg1rw6PCscK/wq3Cu3zDmm3Dn0RgDcO4PULCpFUjP8KXZ8Klwrs= X-Content-Type-Options:nosniff X-Download-Options:noopen X-Flow-Level:3 X-Powered-By:BaiduCloud X-Readtime:455 X-Request-Id:442293871258770606 X-Xss-Protection:1; mode=block Yld:442293871258770606 Yme:ZIGW+Sw8QEUTdTEFUmr/tG5AtOUYTxz0rQNFwSCAng== Transfer-Encoding:chunked Content-Length:14721

正文完
 0