爬虫
文章平均质量分 71
逆夏11111
这个作者很懒,什么都没留下…
展开
-
爬取百度风云热搜榜
每次打开百度都有一个百度热搜榜,想爬取每天的百度热搜怎么弄呢 1.引包 from lxml import etree import requests 2.伪装服务器,获取网页信息 # 先爬取源码数据 url = 'https://www.baidu.com/' headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Ch.原创 2021-04-26 10:24:23 · 1312 阅读 · 1 评论 -
爬虫Day3 数据解析bs4,xpath
数据解析 1 聚焦爬虫 爬取页面中指定内容数据 2 数据解析 1.正则表达式 2.bs4 3.xpath(重点) 3 数据解析的原理 解析的数据内容都会在标签之间或者标签对应的属性之间进行存储,那如果定位到指定的标签,再对标签或者标签的属性进行提取(解析) 4 流程 1.指定url 2.UA伪装 3.获得响应数据 4.数据解析 5.持久化存储 5 实战:爬取图片数据 在糗事百科上照一张图,获取地址url import requests import os if __name__ == "__main__"原创 2021-03-01 15:38:13 · 262 阅读 · 1 评论 -
爬虫Day2 获得AJAX包响应
1 requests模块 python中原生的一款基于网络请求的模块,功能强大,简单便捷,效率极高 作用:模拟浏览器发送请求 使用:(requests模块的使用流程) 指定url 网址 发起请求 获取响应数据 持久化存储响应数据 首先要pip install requests 2 实战:爬取搜狗首页的页面数据 import requests if __name__ == "__main__": # step1: 指定url url = "https://www.sogou.com/"原创 2021-02-24 11:57:33 · 666 阅读 · 0 评论 -
爬虫Day1
1 爬虫的分类 1.通用爬虫 抓取系统重要的组成部分,抓取一整张页面的数据 2.聚焦爬虫 独立在通用爬虫基础上。抓取的是页面中特定的局部内容 3.增量式爬虫 检测网站中数据更新的情况。指挥抓取网站最新更新出来的数据 2 robots.txt 协议 君子协议,列举哪些不能爬取的协议 如访问百度的robots协议: https://www.baidu.com/robots.txt 3 http协议和https协议 常用请求头信息 1.User-Agent:请求载体的身份标识 可以从Networks里面的标头查原创 2021-02-22 14:45:38 · 91 阅读 · 0 评论 -
爬虫 学习笔记1
3.正则表达式 什么是正则表达式 即进行数据筛选的表达式 原子 正则表达式中的基本组成单位,正则表达式至少包括一个原子 import re pat = "yue" string = "http://yum.iqianyue.com" rst1 = re.search(pat,string) print(rst1) string原创 2019-03-09 19:56:28 · 367 阅读 · 0 评论