爬虫
<编程路上>
这个作者很懒,什么都没留下…
展开
-
python使用邮箱
开启smtp服务,同时会给你一个密码,记着保存。使用后可以成功发送邮件。原创 2022-10-19 21:06:29 · 892 阅读 · 0 评论 -
爬虫小问题:链接中文转码和解码
在爬取数据是时候很多搜索的词语中在浏览器上显示的是中文,但是我们复制url到本地,中文就会出现我们看不懂的文字。如果我们需要爬虫的时候也是一样,我们需要给浏览器传过去的也是对url中的中文进行转码之后的url地址,否则在url中的关键字直接出现中文会有问题。在python3的环境中的urllib库中 quote模块提供了这一功能。原创 2022-10-10 16:25:33 · 710 阅读 · 0 评论 -
Scrapy下载视频示例1
添加浏览器伪装以及ip代理。原创 2022-08-19 11:40:11 · 635 阅读 · 0 评论 -
scrapy简单实现一个项目
extract()可以从Selector对象的data参数提取出来。就可以了,也不会输出大量日志,只会显示错误信息。返回的是Selector对象。输出一下response。我想获取小说名字和作者名。管道是存到item对象中。原创 2022-08-03 17:55:15 · 6388 阅读 · 0 评论 -
selenium初使用
它是一款网页浏览器的模拟器,通常用来做网页测试,也可以用来做爬虫同时安装谷歌浏览器和其驱动器,该步可以网上查攻略,不细讲了。基本设置打开某个网址并且输出源代码寻找节点是xpath方法输入和清空输入框以百度为例,先在浏览器打开百度,然后检查:可以获取的xpath路径,然后写代码:还是在上个基础上写,同样检查获取百度一下按钮的xpath例如:获取h3中的属性class:......原创 2022-07-31 11:51:58 · 605 阅读 · 0 评论 -
爬虫爬取的网页源代码是\uxxxx格式的,如何进行解码?
进行反编码后得到其对应的汉字。原创 2022-07-27 20:18:20 · 651 阅读 · 0 评论 -
协程代码模板(基于爬虫)
}{}{}该代码是访问六个网页并且将源代码保存到本地文件协程的基本使用格式就是上面的。原创 2022-07-27 16:38:19 · 133 阅读 · 0 评论 -
爬虫之数据保存到txt文本中
代码】爬虫之数据保存到txt文本中。原创 2022-07-23 12:02:51 · 4236 阅读 · 1 评论 -
爬虫之数据保存到csv,xlsx等Excel文件中
最后一部分继续保存,使用的是pandas中的。原创 2022-07-23 11:45:23 · 4883 阅读 · 2 评论 -
BeautifulSoup基本使用
本博客主要是基于崔庆才大佬编写的python3网络爬虫开发实战和BeautifulSoup的官方文档进行学习总结的。这是爱丽丝梦游仙境的的一段内容原创 2022-07-22 14:25:27 · 352 阅读 · 0 评论 -
xpath的基本使用
首先我们先找一个html作为实验,可以随便在网上找个网址即可:前期获取html如下:1.选取所有节点// 开头的 XPath 规则来选取所有符合要求的节点, * 代表匹配所有节点,也就是整个 HTML 文本中的所有节点都会被获取,可以看到返回形式是一个列表,每个元素是 Element 类型,其后跟了节点的名称,如 html、body、div、ul、li、a 等等,所有的节点都包含在列表中了。输出一下result:可以看到输出的是一个列表。/ 或 // 即可查找元素的子节点或子孙节点我想查找d原创 2022-07-21 23:07:58 · 1702 阅读 · 0 评论 -
python爬虫练习18:爬虫抓取视频思路2
所以需要我们进行一下处理,变成真正的视频下载地址。找到一个视频网址打开,查看源码和F12。获取该链接,但是发现不是真正的m3u8。从中获取合成真正的m3u8下载地址。使用获得的地址下载m3u8文件。真正的m3u8在这个链接里面。..................原创 2022-07-17 13:37:45 · 1101 阅读 · 0 评论 -
python爬虫练习17:爬虫抓取视频思路1
给的下载视频是一截网址。原创 2022-07-16 20:54:23 · 890 阅读 · 0 评论 -
python爬虫练习16:基于协程的爬虫
爬虫可以获取数据,但是如果要获取成千上万条,没有线程,协程等方法,就无法快速获取数据。请求方式为post类型,使用get没有效果。不同页的区别就是current的属性不一样。批量获取需要调整参数,就比如网页有好多页,...原创 2022-07-16 15:11:00 · 323 阅读 · 0 评论 -
python爬虫练习15:协程模板
协程,又称微线程,纤程,英文名Coroutine。协程的作用是在执行函数A时可以随时中断去执行函数B,然后中断函数B继续执行函数A(可以自由切换)。但这一过程并不是函数调用,这一整个过程看似像多线程,然而协程只有一个线程执行。执行效率极高,因为子程序切换(函数)不是线程切换,由程序自身控制,没有切换线程的开销。所以与多线程相比,线程的数量越多,协程性能的优势越明显。不需要多线程的锁机制,因为只有一个线程,也不存在同时写变量冲突,在控制共享资源时也不需要加锁,因此执行效率高很多。......原创 2022-07-16 11:08:09 · 151 阅读 · 0 评论 -
python爬虫练习14:ip代理
一个完整的代理IP流程:1将网络客户端与代理服务器连接;2从代理服务器获取必要的网络协议,然后与目标网络建立连接。如果你长时间频繁登录某个网址,你的ip可能会被封,所以这种情况下我们可以使用ip代理来解决。我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。其中ip可以网上搜索免费ip,可以找到。直接代码演示如何使用:你使用ip代理的话,会发现明显慢很多,这莫得办法。...原创 2022-07-05 19:34:07 · 306 阅读 · 0 评论 -
python爬虫练习13:防盗链处理
防盗链的工作原理通过Refer或者签名,网站可以检测目标网页访问的来源网页,如果是资源文件,则可以追踪到显示他的网页地址 一旦检测到来源不是本站,即进行阻止或者返回制定页面。本次将伪造refer签名进行学习。首先找一个视频网站,在一个视频页面看一下网址:在F12,选择Network,点击视频播放,在XHR会出现一个资源:点击这个资源:其中就可以看到Referer,以及cookie,Requst URL。点击respose可以看到视频播放网址,而获取视频播放需要上面那个Request UR原创 2022-07-05 10:16:02 · 644 阅读 · 0 评论 -
python爬虫训练12:cookie登录
模拟登录,先进行登录页面,F12,点击登录,会看到Network中产生一个请求点击headers,查找FromData,可以看到:根据这个可以编写代码输出为cookies,说明登录成功。原创 2022-07-04 22:04:25 · 338 阅读 · 0 评论 -
python爬虫训练11:正则表达式,bs4,xpath抓取网站数据对比
无论哪种,先看源代码:本次对比是分别抓取排行榜书名,作者和简介。正则表达式:正则表达式其实是最简单的,熟练的话可以快速爬去信息。bs4:Beautiful Soup 将 HTML 文档转换成一个树形结构,该结构有利于快速地遍历和搜索 HTML 文档。find_all() 与 find() 是解析 HTML 文档的常用方法,它们可以在 HTML 文档中按照一定的条件(相当于过滤器)查找所需内容。在 BS4 中,通过标签名和标签属性可以提取出想要的内容。xpath:XPath 的选择功能十分强大原创 2022-07-04 19:29:16 · 530 阅读 · 0 评论 -
python爬虫学习10:使用bs4批量下载图片
首先申明使用的图片下载网址是一个免费的网站,可以免费下载图片:使用bs4抓取网页图片,流程为:1、拿到主页面的前端源码,然后提取子页面的链接地址2、从子页面中找到图片的下载地址3、下载图片最后下载到一个文件夹:.........原创 2022-07-04 15:16:34 · 623 阅读 · 0 评论 -
python爬虫学习9:使用bs4
bs4库中最主要的便是bs类了,每个实例化的对象都相当于一个html页面。需要采用from-import导入bs类,同时通过BeautifulSoup()创建一个bs对象。我们可以写一个示例,先看代码:第一步找到需要数据位置:看到都在tbody中,调用代码爬取tbody,然后在这一部分找具体数据:输出效果如下:...原创 2022-07-04 12:31:37 · 953 阅读 · 0 评论 -
python爬虫学习7:读取起点排行榜数据
第一步打开起点月票排行榜:代码实现了读取并且保存到csv文件的功能,其中需要注意的是。保存的csv数据如下:原创 2022-07-03 22:47:27 · 898 阅读 · 1 评论 -
python爬虫学习6:re模块
re模块其实要用到正则表达式,推荐看一下直接上代码讲解函数:可以输出看一下:原创 2022-07-03 11:39:54 · 120 阅读 · 0 评论 -
python爬虫学习5:requests初使用
需要用到库文件:requests安装requests:pip install requests写一个简单爬虫代码:200说明访问成功resp.text会输出html代码原创 2022-07-02 22:20:23 · 342 阅读 · 0 评论 -
python爬虫学习4:简单抓取页面
综合前面知识来尝试抓取页面第一步添加百度搜索内容:输入CSDN会输出html代码:添加html页面保存功能:可以看到以及保存到本地:原创 2022-07-02 14:47:21 · 206 阅读 · 0 评论 -
python爬虫学习3:urllib.parse中urlencode(),quote()
urllib.parse 模块提供了很多解析和组建 URL 的函数,它定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。其中用来编码是 urlencode() 与 quote()方法。urlencode 对字典或由两元素元组组成的列表进行码编码,将其转换为符合url规范的查询字符串。quote() 只能对字符串编码,而 urlencode() 可以直接对查询字符串字典进行编码。urlencode()使用如下:quote() 使用如下:......原创 2022-07-02 14:16:36 · 1630 阅读 · 0 评论 -
python爬虫学习2:fake-useragent的用法
UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。原创 2022-07-02 13:40:29 · 397 阅读 · 0 评论 -
python爬虫学习1:urlopen(),decode(),“utf-8 codec can‘t decode byte 0x”报错
urllib.request.urlopen()函数用于实现对目标url的访问。函数原为:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)url是需要打开的网址;data是Post提交的数据;timeout:设置网站的访问超时时间。urlopen()获取页面,得到page的数据格式为bytes类型,需要decode()解码,转换成s原创 2022-07-02 09:53:39 · 1695 阅读 · 1 评论