- 博客(3)
- 资源 (5)
- 收藏
- 关注
原创 Python爬虫(三)Urllib库的高级用法
1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。可以打开Chrome浏览器,调试浏览器F12,打开网络监听,尝试登陆知乎,会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,整个网页的
2017-10-31 16:51:58 522
原创 Python爬虫(二)使用urllib来爬点东西
1、先爬一个网页下来看看吧 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是优美有序的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加JS、CSS,下面我们就来扒一个网页下来看看。# python 3import urllib.requestresponse = urllib.request.urlopen("https://baidu.com
2017-10-31 11:11:44 567
原创 Python 爬虫(一)综述
1.首先,什么是爬虫呢?爬虫(spider),可以理解为在网络上爬行的一只蜘蛛,爬虫在互联网这张网上爬来爬去地找资源,如果它遇到想要的资源,就会把它抓取下来。至于什么资源是想要的抓取的?这个由你来控制它咯。 概括来说,爬虫就是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。2.浏览网页的过程在我们浏览网页的时候,看到的东西是怎么来的呢,这个过程其实是这样的:我们输入网址之后,经过DNS服务
2017-10-30 15:38:48 597
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人