有的时候,我们无法爬取一些网页,得到源码不是正确的,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。
那么如果我们向爬取这些网页的信息,应该怎么办呢?
可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了。
那我们该添加什么头部信息呢?
我们需要让爬虫模拟成浏览器,模拟成浏览器可以设置User-Agent信息。
我们通过案例说明一下:
有的时候,我们无法爬取一些网页,得到源码不是正确的,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。
那么如果我们向爬取这些网页的信息,应该怎么办呢?
可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了。
那我们该添加什么头部信息呢?
我们需要让爬虫模拟成浏览器,模拟成浏览器可以设置User-Agent信息。
我们通过案例说明一下: