在网络爬虫时有时会由于所爬网页对User Agent的限制而导致网络连接失败,此时可以在get方法里增加UA参数来修改。常用的浏览器的UA如下:
遨游:
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"
火狐:
"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
谷歌:
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.9“
在requests_html库里的session.get方法中加上参数
session.get(mainUrl, headers={'user-agent': UAProfile})