但丁GG-CSDN博客

原创 scrapy进阶学习笔记

1.scrapy工作流程其流程可以描述如下:1.爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器2.调度器把request–>引擎–>下载中间件—>下载器3.下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫4.爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤25.爬虫提取数据—>引擎—>管道

2021-06-15 10:40:51 594

原创 selenium爬取爱采购网商品数据

自动化爬取爱采购网商品数据技术：selenium+bs4+re使用浏览器：Chrome爬取网站：https://b2b.baidu.com/时间：2020年12月1日22:32:23代码如下：# -*- coding: utf-8 -*-# Author : YRH# Data : 2020年12月1日# Project : 爱采购商品价格# Tool : PyCharmfrom selenium import webdriverfrom time import sleepfrom

2020-12-01 22:39:18 1844 3

原创数据爬取乱码解决

数据爬取乱码解决在爬取数据后，提取到的数据是乱码的，显示是unicode编码，此时解决方法就是将爬取完的数据进行转码例如：# -*- coding: utf-8 -*-a = r"\xc2\xa52.00\xe4\xb8\x87"a = a.encode("utf-8")a = eval(str(a).replace(r"\\", "\\"))print(str(a.decode("utf-8")).replace("\xa5", ""))...

2020-12-01 21:34:19 726

原创数据分析与展示笔记(个人总结)

这是个人的一个学习后的笔记总结，可能有不好的地方，希望大家多提提意见一、Numpy库ndarray对象NumPy 最重要的一个对象是其 N 维数组对象 ndarray，它是一系列同类型数据的集合，可以使用基于 0 的索引访问集合中的项目。创建ndarray数组格式：numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)object数组或者嵌套的数列dtype数组类型，可选

2020-11-24 16:03:07 1077 2

原创 python爬取代理IP并进行有效的IP测试

爬取代理IP及测试是否可用很多人在爬虫时为了防止被封IP，所以就会去各大网站上查找免费的代理IP，由于不是每个IP地址都是有效的，如果要进去一个一个比对的话效率太低了，我也遇到了这种情况，所以就直接尝试了一下去网站爬取免费的代理IP，并且逐一的测试，最后将有效的IP进行返回。在这里我选择的是89免费代理IP网站进行爬取，并且每一个IP都进行比对测试，最后会将可用的IP进行另存放为一个列表https://www.89ip.cn/一、准备工作导入包并且设置头标签import requests

2020-10-07 16:38:02 2863 7

原创 python数据爬虫项目

python数据爬虫项目作者：YRH时间：2020/9/26新手上路，如果有写的不好的请多多指教，多多包涵前些天在一个学习群中有位老哥发布了一个项目，当时抱着满满的信心先去尝试一下，可惜手慢了，抢不到，最后只拿到了项目的任务之间去练习，感觉该项目还不错，所以就发布到博客上来，让大家一起学习学习一、任务清单项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目（561914项）爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORT

2020-09-26 15:55:47 3377 5

原创 51job爬取招聘信息(python)

51job爬取招聘信息2020.09.04爬虫技术路线：requests库+bs4+xlwt程序中分为三个函数：spider(url)函数提取网页，返回整个网页源码jiexi(html.info)函数解析网页，并且提取信息，参数html是网页源码，info是存放信息的列表save(data)函数是保存数据的，将提取出来的数据进行逐一的保存至excel文件中去# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool

2020-09-04 15:44:30 1436 2

原创 (python爬虫)拉勾网招聘信息爬取

拉勾网招聘岗位爬虫项目本次爬取数据为python岗位信息，并非用于商业渠道的，只是新手上路练练手，代码如有问题，请多多指教，谢谢。项目介绍：爬取网站:拉勾网URL:https://www.lagou.com/爬取关键词:python技术路线:selenium+bs4+time+re+xlwt爬取时间：2020.08.11作者：YRH1.导入库from selenium import webdriverfrom bs4 import BeautifulSoupimport timei

2020-08-11 16:24:02 4391 1

原创 Hadoop生态圈部署

Hadoop生态圈部署文档包括：Hadoop HA部署Zookeeper安装Hive组件部署Hbase组件部署Sqoop组件部署Flume组件部署spark组件部署storm组件部署kafka组件部署MongoDB部署可能会出现差错下载地址

2020-08-09 16:40:59 291

原创 python正则表达式学习笔记(个人总结)

python正则表达式学习笔记个人学习笔记和总结作者：YRH时间：2020.08.091.正则表达式匹配符匹配符功能\w匹配字母数字及下划线\W匹配非字母数字及下划线\s匹配任意空白字符，等价于[\t\n\r\f].\d匹配任意数字，等价于[0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符

2020-08-09 16:35:44 340

原创 urllib库学习笔记(个人总结)

python爬虫学习笔记学习时间：大二第二学期(2020年上半年)上课总结笔记作者：YRH写的有些粗糙如需转载，亲备注出处一. Urllib库学习Urllib库是一个python内置的http请求库，不需要安装，只需要导入和url或者其他参数的传入即可。Urllib也是学爬虫的第一个基础库。主要模块有：urllib.request:用来打开和读取URL，是一个请求模块urllib.error:包含了urllib.request产生的异常，是一个异常处理模块urllib.parse:用

2020-08-08 20:20:08 499

原创豆瓣电影Top250爬取

豆瓣电影Top250爬取爬取时间：2020年8月6日编译器：PyCharm技术路线：requests-bs4-re-xlwtUrl：https://movie.douban.com/top250作者：YRH如需转载，请标明出处# -*- coding: utf-8 -*-# Author : YRH# Data : # Project : # Tool : PyCharmimport requestsfrom bs4 import BeautifulSoupimport re

2020-08-06 20:45:19 708

原创 MapReduce自定义序列化对象

任务1原始数据中一行内容为一个学生的考试成绩信息，主要包括学号和成绩（第一个字段为学号，其余的都是这个同学的分数，可能有多个分数，用空格隔开）。1001 85 87 91 93 85 771002 88 85 871003 78 73 83 881004 76 651005 73 91 86 88根据上面的数据发现，每个学生的考试次数不一样，譬如学号1001的同学有6次成绩，而学号1...

2020-03-08 21:47:34 401

原创 MapReduce编程练习题目

MapReduce练习源数据：Zhangsan 90 83 88Lisi 83 76 73Wangwu 84 81 77Zhaoliu 77 67Chentian 78 91 82Liutao 83任务：本次数据是学生数据，分别是姓名语文成绩数学成绩英语成绩在数据中，可以看出有些学生的数据只有两门，而且在数据里也出现了空行，所以本次任务是清理不符合规则的内容和空行，并...

2020-03-08 21:39:37 2870

weixin_45066966的博客