爬虫_wyyfighting123的博客-CSDN博客

爬虫

关注

文章平均质量分 79

关注数：文章数：3 文章阅读量：4601 文章收藏量：27

作者: wyyfighting123

这个作者很懒，什么都没留下…

展开

什么是爬虫

1. 什么是爬虫？网络爬虫也叫网络蜘蛛，如果把互联网比喻成一个蜘蛛网，那么蜘蛛就是在网上爬来爬去的蜘蛛，爬虫程序通过请求url地址，根据响应的内容进行解析采集数据，比如：如果响应内容是html，分析dom结构，进行dom解析、或者正则匹配，如果响应内容是xml/json数据，就可以转数据对象，然后对数据进行解析。2. 有什么作用？通过有效的爬虫手段批量采集数据，可以降低人工成本，提高...

原创 2018-07-23 21:15:29 · 4027 阅读 · 0 评论
爬取数据-urllib库

1. 小试牛刀怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来from urllib.request...

原创 2018-07-25 19:10:22 · 357 阅读 · 0 评论
urllib库的高级用法

1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作1.1 设置请求头其中User-Agent代表用的哪个请求的浏览器代码如下：from urllib.request import urlopenfrom urllib.request import Requesturl = 'http://www...

原创 2018-07-25 20:40:56 · 217 阅读 · 0 评论

爬虫

作者: wyyfighting123

什么是爬虫

爬取数据-urllib库

urllib库的高级用法