爬虫
文章平均质量分 71
逆夏11111
这个作者很懒,什么都没留下…
展开
-
爬取百度风云热搜榜
每次打开百度都有一个百度热搜榜,想爬取每天的百度热搜怎么弄呢1.引包from lxml import etreeimport requests2.伪装服务器,获取网页信息# 先爬取源码数据 url = 'https://www.baidu.com/' headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch.原创 2021-04-26 10:24:23 · 1425 阅读 · 1 评论 -
爬虫Day3 数据解析bs4,xpath
数据解析1 聚焦爬虫爬取页面中指定内容数据2 数据解析1.正则表达式2.bs43.xpath(重点)3 数据解析的原理解析的数据内容都会在标签之间或者标签对应的属性之间进行存储,那如果定位到指定的标签,再对标签或者标签的属性进行提取(解析)4 流程1.指定url2.UA伪装3.获得响应数据4.数据解析5.持久化存储5 实战:爬取图片数据在糗事百科上照一张图,获取地址urlimport requestsimport osif __name__ == "__main__"原创 2021-03-01 15:38:13 · 295 阅读 · 1 评论 -
爬虫Day2 获得AJAX包响应
1 requests模块python中原生的一款基于网络请求的模块,功能强大,简单便捷,效率极高作用:模拟浏览器发送请求使用:(requests模块的使用流程)指定url 网址发起请求获取响应数据持久化存储响应数据首先要pip install requests2 实战:爬取搜狗首页的页面数据import requestsif __name__ == "__main__": # step1: 指定url url = "https://www.sogou.com/"原创 2021-02-24 11:57:33 · 750 阅读 · 0 评论 -
爬虫Day1
1 爬虫的分类1.通用爬虫抓取系统重要的组成部分,抓取一整张页面的数据2.聚焦爬虫独立在通用爬虫基础上。抓取的是页面中特定的局部内容3.增量式爬虫检测网站中数据更新的情况。指挥抓取网站最新更新出来的数据2 robots.txt 协议君子协议,列举哪些不能爬取的协议如访问百度的robots协议:https://www.baidu.com/robots.txt3 http协议和https协议常用请求头信息1.User-Agent:请求载体的身份标识可以从Networks里面的标头查原创 2021-02-22 14:45:38 · 142 阅读 · 0 评论 -
爬虫 学习笔记1
3.正则表达式什么是正则表达式即进行数据筛选的表达式原子正则表达式中的基本组成单位,正则表达式至少包括一个原子import repat = "yue"string = "http://yum.iqianyue.com"rst1 = re.search(pat,string)print(rst1)string原创 2019-03-09 19:56:28 · 395 阅读 · 0 评论