自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy进阶学习笔记

1.scrapy工作流程其流程可以描述如下:1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器2.调度器把request–>引擎–>下载中间件—>下载器3.下载器发送请求,获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫4.爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器,重复步骤25.爬虫提取数据—>引擎—>管道

2021-06-15 10:40:51 570

原创 selenium爬取爱采购网商品数据

自动化爬取爱采购网商品数据技术:selenium+bs4+re使用浏览器:Chrome爬取网站:https://b2b.baidu.com/时间:2020年12月1日22:32:23代码如下:# -*- coding: utf-8 -*-# Author : YRH# Data : 2020年12月1日# Project : 爱采购商品价格# Tool : PyCharmfrom selenium import webdriverfrom time import sleepfrom

2020-12-01 22:39:18 1745 3

原创 数据爬取乱码解决

数据爬取乱码解决在爬取数据后,提取到的数据是乱码的,显示是unicode编码,此时解决方法就是将爬取完的数据进行转码例如:# -*- coding: utf-8 -*-a = r"\xc2\xa52.00\xe4\xb8\x87"a = a.encode("utf-8")a = eval(str(a).replace(r"\\", "\\"))print(str(a.decode("utf-8")).replace("\xa5", ""))...

2020-12-01 21:34:19 712

原创 数据分析与展示笔记(个人总结)

这是个人的一个学习后的笔记总结,可能有不好的地方,希望大家多提提意见一、Numpy库ndarray对象NumPy 最重要的一个对象是其 N 维数组对象 ndarray,它是一系列同类型数据的集合,可以使用基于 0 的索引访问集合中的项目。创建ndarray数组格式:numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)object数组或者嵌套的数列dtype数组类型,可选

2020-11-24 16:03:07 1052 2

原创 python爬取代理IP并进行有效的IP测试

爬取代理IP及测试是否可用很多人在爬虫时为了防止被封IP,所以就会去各大网站上查找免费的代理IP,由于不是每个IP地址都是有效的,如果要进去一个一个比对的话效率太低了,我也遇到了这种情况,所以就直接尝试了一下去网站爬取免费的代理IP,并且逐一的测试,最后将有效的IP进行返回。在这里我选择的是89免费代理IP网站进行爬取,并且每一个IP都进行比对测试,最后会将可用的IP进行另存放为一个列表https://www.89ip.cn/一、准备工作导入包并且设置头标签import requests

2020-10-07 16:38:02 2777 7

原创 python数据爬虫项目

python数据爬虫项目作者:YRH时间:2020/9/26新手上路,如果有写的不好的请多多指教,多多包涵前些天在一个学习群中有位老哥发布了一个项目,当时抱着满满的信心先去尝试一下,可惜手慢了,抢不到,最后只拿到了项目的任务之间去练习,感觉该项目还不错,所以就发布到博客上来,让大家一起学习学习一、任务清单项目名称:国家自然科学基金大数据知识管理服务门户爬取项目爬取内容:爬取内容:资助项目(561914项)爬取链接:HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORT

2020-09-26 15:55:47 3324 5

原创 51job爬取招聘信息(python)

51job爬取招聘信息2020.09.04爬虫技术路线:requests库+bs4+xlwt程序中分为三个函数:spider(url)函数提取网页,返回整个网页源码jiexi(html.info)函数解析网页,并且提取信息,参数html是网页源码,info是存放信息的列表save(data)函数是保存数据的,将提取出来的数据进行逐一的保存至excel文件中去# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool

2020-09-04 15:44:30 1416 2

原创 (python爬虫)拉勾网招聘信息爬取

拉勾网招聘岗位爬虫项目本次爬取数据为python岗位信息,并非用于商业渠道的,只是新手上路练练手,代码如有问题,请多多指教,谢谢。项目介绍:爬取网站:拉勾网URL:https://www.lagou.com/爬取关键词:python技术路线:selenium+bs4+time+re+xlwt爬取时间:2020.08.11作者:YRH1.导入库from selenium import webdriverfrom bs4 import BeautifulSoupimport timei

2020-08-11 16:24:02 4288 1

原创 Hadoop生态圈部署

Hadoop生态圈部署文档包括:Hadoop HA部署Zookeeper安装Hive组件部署Hbase组件部署Sqoop组件部署Flume组件部署spark组件部署storm组件部署kafka组件部署MongoDB部署可能会出现差错下载地址

2020-08-09 16:40:59 271

原创 python正则表达式学习笔记(个人总结)

python正则表达式学习笔记个人学习笔记和总结作者:YRH时间:2020.08.091.正则表达式匹配符匹配符功能\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符,等价于[\t\n\r\f].\d匹配任意数字,等价于[0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符

2020-08-09 16:35:44 330

原创 urllib库学习笔记(个人总结)

python爬虫学习笔记学习时间:大二第二学期(2020年上半年)上课总结笔记作者:YRH写的有些粗糙如需转载,亲备注出处一. Urllib库学习Urllib库是一个python内置的http请求库,不需要安装,只需要导入和url或者其他参数的传入即可。Urllib也是学爬虫的第一个基础库。主要模块有:urllib.request:用来打开和读取URL,是一个请求模块urllib.error:包含了urllib.request产生的异常,是一个异常处理模块urllib.parse:用

2020-08-08 20:20:08 466

原创 豆瓣电影Top250爬取

豆瓣电影Top250爬取爬取时间:2020年8月6日编译器:PyCharm技术路线:requests-bs4-re-xlwtUrl:https://movie.douban.com/top250作者:YRH如需转载,请标明出处# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool : PyCharmimport requestsfrom bs4 import BeautifulSoupimport re

2020-08-06 20:45:19 697

原创 MapReduce自定义序列化对象

任务1原始数据中一行内容为一个学生的考试成绩信息,主要包括学号和成绩(第一个字段为学号,其余的都是这个同学的分数,可能有多个分数,用空格隔开)。1001 85 87 91 93 85 771002 88 85 871003 78 73 83 881004 76 651005 73 91 86 88根据上面的数据发现,每个学生的考试次数不一样,譬如学号1001的同学有6次成绩,而学号1...

2020-03-08 21:47:34 375

原创 MapReduce编程练习题目

MapReduce练习源数据:Zhangsan 90 83 88Lisi 83 76 73Wangwu 84 81 77Zhaoliu 77 67Chentian 78 91 82Liutao 83任务:本次数据是学生数据,分别是姓名 语文成绩 数学成绩 英语成绩在数据中,可以看出有些学生的数据只有两门,而且在数据里也出现了空行,所以本次任务是清理不符合规则的内容和空行,并...

2020-03-08 21:39:37 2836

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除