![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 93
但丁GG
一名热爱Python的小学生
展开
-
scrapy进阶学习笔记
1.scrapy工作流程其流程可以描述如下:1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器2.调度器把request–>引擎–>下载中间件—>下载器3.下载器发送请求,获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫4.爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器,重复步骤25.爬虫提取数据—>引擎—>管道原创 2021-06-15 10:40:51 · 572 阅读 · 0 评论 -
selenium爬取爱采购网商品数据
自动化爬取爱采购网商品数据技术:selenium+bs4+re使用浏览器:Chrome爬取网站:https://b2b.baidu.com/时间:2020年12月1日22:32:23代码如下:# -*- coding: utf-8 -*-# Author : YRH# Data : 2020年12月1日# Project : 爱采购商品价格# Tool : PyCharmfrom selenium import webdriverfrom time import sleepfrom原创 2020-12-01 22:39:18 · 1764 阅读 · 3 评论 -
数据爬取乱码解决
数据爬取乱码解决在爬取数据后,提取到的数据是乱码的,显示是unicode编码,此时解决方法就是将爬取完的数据进行转码例如:# -*- coding: utf-8 -*-a = r"\xc2\xa52.00\xe4\xb8\x87"a = a.encode("utf-8")a = eval(str(a).replace(r"\\", "\\"))print(str(a.decode("utf-8")).replace("\xa5", ""))...原创 2020-12-01 21:34:19 · 721 阅读 · 0 评论 -
python爬取代理IP并进行有效的IP测试
爬取代理IP及测试是否可用很多人在爬虫时为了防止被封IP,所以就会去各大网站上查找免费的代理IP,由于不是每个IP地址都是有效的,如果要进去一个一个比对的话效率太低了,我也遇到了这种情况,所以就直接尝试了一下去网站爬取免费的代理IP,并且逐一的测试,最后将有效的IP进行返回。在这里我选择的是89免费代理IP网站进行爬取,并且每一个IP都进行比对测试,最后会将可用的IP进行另存放为一个列表https://www.89ip.cn/一、准备工作导入包并且设置头标签import requests原创 2020-10-07 16:38:02 · 2793 阅读 · 7 评论 -
python数据爬虫项目
python数据爬虫项目作者:YRH时间:2020/9/26新手上路,如果有写的不好的请多多指教,多多包涵前些天在一个学习群中有位老哥发布了一个项目,当时抱着满满的信心先去尝试一下,可惜手慢了,抢不到,最后只拿到了项目的任务之间去练习,感觉该项目还不错,所以就发布到博客上来,让大家一起学习学习一、任务清单项目名称:国家自然科学基金大数据知识管理服务门户爬取项目爬取内容:爬取内容:资助项目(561914项)爬取链接:HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORT原创 2020-09-26 15:55:47 · 3329 阅读 · 5 评论 -
51job爬取招聘信息(python)
51job爬取招聘信息2020.09.04爬虫技术路线:requests库+bs4+xlwt程序中分为三个函数:spider(url)函数提取网页,返回整个网页源码jiexi(html.info)函数解析网页,并且提取信息,参数html是网页源码,info是存放信息的列表save(data)函数是保存数据的,将提取出来的数据进行逐一的保存至excel文件中去# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool原创 2020-09-04 15:44:30 · 1427 阅读 · 2 评论 -
(python爬虫)拉勾网招聘信息爬取
拉勾网招聘岗位爬虫项目本次爬取数据为python岗位信息,并非用于商业渠道的,只是新手上路练练手,代码如有问题,请多多指教,谢谢。项目介绍:爬取网站:拉勾网URL:https://www.lagou.com/爬取关键词:python技术路线:selenium+bs4+time+re+xlwt爬取时间:2020.08.11作者:YRH1.导入库from selenium import webdriverfrom bs4 import BeautifulSoupimport timei原创 2020-08-11 16:24:02 · 4324 阅读 · 1 评论 -
python正则表达式学习笔记(个人总结)
python正则表达式学习笔记个人学习笔记和总结作者:YRH时间:2020.08.091.正则表达式匹配符匹配符功能\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符,等价于[\t\n\r\f].\d匹配任意数字,等价于[0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符原创 2020-08-09 16:35:44 · 335 阅读 · 0 评论 -
urllib库学习笔记(个人总结)
python爬虫学习笔记学习时间:大二第二学期(2020年上半年)上课总结笔记作者:YRH写的有些粗糙如需转载,亲备注出处一. Urllib库学习Urllib库是一个python内置的http请求库,不需要安装,只需要导入和url或者其他参数的传入即可。Urllib也是学爬虫的第一个基础库。主要模块有:urllib.request:用来打开和读取URL,是一个请求模块urllib.error:包含了urllib.request产生的异常,是一个异常处理模块urllib.parse:用原创 2020-08-08 20:20:08 · 471 阅读 · 0 评论 -
豆瓣电影Top250爬取
豆瓣电影Top250爬取爬取时间:2020年8月6日编译器:PyCharm技术路线:requests-bs4-re-xlwtUrl:https://movie.douban.com/top250作者:YRH如需转载,请标明出处# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool : PyCharmimport requestsfrom bs4 import BeautifulSoupimport re原创 2020-08-06 20:45:19 · 697 阅读 · 0 评论