Python爬虫
Python爬虫相关知识点
程序猿杂记
不是在改bug,就是在去改bug的路上。
展开
-
Python爬虫 - 获取网页编码
前言:在我们做爬虫的时候会发现不同的网页会有不同的编码方式,但我们需要根据编码方式来获取数据,所以我们要先获取编码方式,为此我使用requests库解析当前页的编码方式。requests库是常用的网页解析库,也是我做爬虫时一直使用的库。其中的apparent_encoding方法可以正确获取当前网页的编码方式。原创 2020-01-11 20:52:49 · 8601 阅读 · 9 评论 -
Python爬虫 - Requests模块
详细介绍安装Requests、多种请求方式(post和get最常见)、给URl添加参数、获取响应的内容、定制请求头和cookie信息、设置超时时间、会话对象,能够跨请求保持某些参数、IP代理等常用功能的使用原创 2020-01-11 20:51:29 · 6981 阅读 · 0 评论 -
Python爬虫 - rss解析器feedparser
本篇博客介绍一个利器,叫做feedparser,这个库使我们轻松实现从任何RSS或者Atom订阅源得到一些我们想要的内容。想对比原网页,rss返回的数据更简洁。原创 2019-11-04 23:10:29 · 9249 阅读 · 0 评论 -
Python爬虫 - xpath的用法
先上一段代码,然后下边有详细介绍注:先安装依赖包lxml :pip install lxmlimport requestsfrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chr...原创 2019-10-24 22:11:36 · 7144 阅读 · 4 评论 -
Python 3.x批量下载图片工具
前一段时间有个下载图片的需求,图片有点多,挨个的点太费事了,所以写了这个小工具。原创 2019-10-24 20:11:25 · 7981 阅读 · 0 评论