自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cc的博客

python

  • 博客(58)
  • 收藏
  • 关注

原创 Java 详细剖析了解代码块(局部代码块,构造代码块,静态代码块)及类的执行顺序

Java中的代码块,充分理解类的执行顺序1.局部代码块2.构造代码块3.静态代码块

2020-08-03 22:26:22 1313

原创 Java 详细剖析关键字 static ,深入全面了解

1.staic关键字的特点2.static修饰成员变量的底层原理图3.static修饰成员方法4.static修饰代码块,静态代码块

2020-08-02 17:30:37 1384 2

原创 Scrapy爬取天眼查首页热门公司信息,可视化分析这些热门公司

Scrapy爬取天眼查1. 分析目标网页2. 爬取思路3. 爬取信息3.1 创建scrapy工程3.2 创建CrawlSpider3.3 数据模型item.py3.4 编写spider3.5 数据库pipelines.py3.6 对于反爬的分析3.7 爬取的结果图与数据库中的结果图4. 数据的可视化4.1 提取公司地址,可视化城市分布数量4.2 公司注册资金对比1. 分析目标网页url = 'http://www.tianyancha.com/'1.可以看到主页有显示的热门公司,直观的看有22个,

2020-07-20 21:54:17 2555 3

原创 小生不才,真实记录爬取链家网2584条租房信息,聊一聊框架爬取大量数据防止被ban的事

CrawlSpider爬取链家租房网1. 简单说一说自己爬取后的想法2. crawlspider爬虫思路和简单网页分析2.1 目标网页2.2 网页分析和爬取的思路3. 主要的爬虫代码4. 当请求过多防止ip被ban的方法4.1 设置 ROBOTSTXT_OBEY4.2 设置更换请求头user-agent4.3 设置自己的ip池4.4 设置scrapy框架本身的爬取速度5. 爬取数据库结果6. 总结1. 简单说一说自己爬取后的想法爬取链家网的代码,方法,可视化,成果展示在csdn上有很多,有很多都是一次性

2020-07-06 17:03:59 11339 1

原创 (python)1:1爬取并保存大学学院官网教师信息,简单可视化直观分析

相信每个大学的学院在自己的官网上都有介绍自己学院教师的信息,可是自己的大学生涯却又接触不到自己学院的所有老师,再次对学院的官网下手啦,这次想分析一下学院教师的男女比例啦,等等一系列的东西…当然,其实我感觉这是一个有意思的事情,大家也可以爬取自己学院的官网信息,可视化分析试一试????爬取学院官网教师信息1. 分析目标网页2. 暴力爬取表格存储的教师信息2.1 创建工程2.2 创建Spider2.3 暴力爬取表格信息2.3.1 分析如何爬取2.3.2 编写spider中的parse()方法3. 将数据存入数

2020-07-05 16:56:49 3511

原创 2020年最新微博相关数据API+一站式获取个人微博信息+套娃、批量式获取微博用户信息

本此爬虫采取scrapy框架进行编写。一站式获取个人微博信息1. 梳理爬虫目的和思路1.1 爬虫的目的1.2 爬虫的思路2. 分析网页源码2.1 分析博主信息网页2.2 分析关注列表界面2.3 粉丝列表页面分析2.4 微博博文页面分析3. 得出2020年最新微博相关数据API4. 编写代码4.1 创建Scrapy爬虫项目4.2 创建Spider4.3 根据网页源码下user下的信息,创建自己想提取的信息所对应的Item4.4 进行数据的提取4.4.1 创建程序的起始请求4.4.2 提取博主个人信息4.4.

2020-06-26 21:06:13 4074 2

原创 使用CrawlSpider半通用化、框架式、批量请求“链家网”西安100页租房网页(两种方法实现rules的跟进和几个xpath分享)

csdn上已经有很多的关于CrawlSpider框架的讲解,以及其主要的使用方法,其整体的数据流向和Spider框架的数据流向是大体一样的,因为CrawlSpider是继承自Spider的类,Spider框架的介绍我在之前的博文中写过,CrawlSpider框架的介绍我之后也想写一篇博文来加深自己的理解,这里通过实战来对其整体流程进行理解(半通用化)。CrawlSpider半通用化抓站1.二级目录1.二级目录...

2020-06-23 11:20:06 396 1

原创 纯粹的资源管理调度框架YARN整体剖析(课本知识复习)

YARN1. MapReduce1.0框架的设计缺陷2. YARN的设计思路3. YARN体系结构3.1 结构组件总览3.2 三大组件的功能3.2.1 组件功能详解1. ResourceManager功能2. ApplicationMaster功能3. NodeManager功能3.3 集群部署3.4 YARN的工作流程1. MapReduce1.0框架的设计缺陷MapReduce1.0采用 Master/Slave(一主多从) 框架设计,包括一个JobTracker和多个TaskTracker,前者负

2020-06-19 15:31:37 648

原创 Hadoop的优化与发展+HDFS(2.0)新特性

Hadoop的优化与发展1. Hadoop(1.0)的局限与不足2. 针对其1.0版本的不足改进和提升2.1 Hadoop框架自身的改进和提升2.2 Hadoop生态系统的完善3. HDFS2.03.1 HDFS HA3.2 HDFS 联邦1. Hadoop(1.0)的局限与不足抽象层次低。需要手工编写代码来完成,有时只是为了实现一个简单的功能,也要手工编写大量的代码。表达能力有限。Hadoop把复杂的分布式编程高度抽象到两个函数Map和Reduce上,在降低使用难度的同时,但也带来了表达能有限的问

2020-06-18 14:57:34 1709

原创 kafka原理解析(适合跟我一样从来为了解过的小白进行了解)

官网:http://kafka.apache.orgkafka原理解析1. 定义(简单了解kafka)2. 于Flume进行比较3. kafka架构4. 消息存储和生产消费模型5. kafka的消息构成1. 定义(简单了解kafka)最初是由Linkedin公司开发是个分布式,分区的,多副本的,多订阅者,基于Zookeeper协调的分布式日志系统,常用于web/nginx日志,访问日志,消息服务等等发布和订阅;存储;处理实时的流式数据流的记录是一个可持久化分布式的消息队列2. 于Flume

2020-06-17 16:39:29 418

原创 带你了解你想知道的分布式数据库—HBase

HBase1. HBase简介2. 与传统数据库的比较3. HBase的相关概念4. 数据坐标5. 列式数据库的DSM模型6. HBase的实现原理6.1三级目录1. HBase简介首先来说HBase是针对谷歌三宝之一的BigTable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化数据。其目标是处理非常庞大的表,通过水平的扩展方式,利用廉价的计算机集群来处理数据。其利用Hadoop中的MapReduce来处理海量的数据;利用Zookeeper作为协同服务

2020-06-12 20:08:36 449

原创 分布式文件系统HDFS整体剖析

我要开始为大四找工作做准备啦,开始复习关于大数据的知识。HDFS原理剖析1. 简说分布式文件系统2. 计算机集群结构3. 分布式文件系统的结构3.1 主节点(NameNode)3.2 从节点(DataNode)1. 简说分布式文件系统1. 简说分布式文件系统1. 简说分布式文件系统1. 简说分布式文件系统1. 简说分布式文件系统二级目录1. 简说分布式文件系统大数据时代必须要解决的就是海量数据的高效存储问题,谷歌就针对这个问题开发出了GFS分布式文件系统,近乎完美地解决了这个问题,而HDFS分布式文件

2020-06-12 20:07:38 580

原创 Scrapy对接Selenium(说明在哪里进行对接为什么在这里):小猪短租网实战分析

对接 Selenium (说明在哪里进行对接为什么在这里)

2020-06-07 22:33:40 642

原创 Scrapy项目运行数据流总览 AND 几个重要的组件、中间件分析

以下的内容均为自己看书自学的分享,加深自己对于Scrapy的整体框架的理解。Scrapy分析1. 数据流总览图1.1 Scrapy整体框架图和数据流总览2. 重要的组件和中间件分析2.1 Spider2.1.1 Spider运行流程2.1.2 Spider类的基础属性2.2 Downloader Middleware2.2.1 架构分析2.2.2 三个核心方法2.2.3 启动自定义的 Downloader Middleware2.3 Item Pipeline2.3.1 主要功能2.3.2 核心方法1.

2020-06-07 15:51:39 438

原创 Scrapy抓站:大批量下载360指定专题下的照片并保存到sql和本地文件夹下

目标网站:http://images.so.com/ (摄影专栏)Scrapy抓站:360照片1. 新建项目2. 新建Spider3. 分析目标网站的种种4. 构造请求5. 定义提取信息的字段6. 编写 Spider 方法7. 存储信息7.1 Mysql保存7.2 本地文件保存8. 执行程序9. 最终的效果图1. 新建项目scrapy startproject images360(名目名)2. 新建Spider直接用Pycharm打开上一步所创建的项目,在最下面的Terminal处执行该

2020-06-05 21:39:43 322

原创 Scrapy报错之:Request object has no attribute dont_filter

记录每一个遇到的问题的解决方法。最近在自学框架 Scrapy ,在重写 start_requests() 方法的时候,可能会遇到以下的问题:在导入 Request 包的时候,很多小伙伴可能和我一样看都不看直接选第一个自动导入包,实际导入的包为:这里直接执行程序的话就会报错:解决方法,再导入包的时候选择第二个解决方法,自动导入如下的包:问题即可解决。...

2020-06-05 15:23:43 1447

原创 Scrapy入门:简单爬虫项目梳理整个框架操作流程

Scrapy入门1. 准备工作2. 准备工作2.1 创建项目2.2 简单解释所创文件的结构3. 创建 Spider4. 分析目标网页和你所要爬取的内容5. 创建 Item6. 使用Item,重写Spider中parse()方法7. 构造请求,使用回调函数实现连续抓取8. 最终的 Spider9. 运行整体架构10. 保存到文件11. 使用 Item Pipeline 进行数据的清洗1. 准备工作只需要安装 Scrapy 库即可,我实用的是 Pycharm 软件,安装的话只需要在菜单setting/pr

2020-06-04 21:16:30 734

原创 大数据计算框架——MapReduce(内含详细的shuffle过程)

MapReduce1. MapReduce模型简介2. Map 和 Reduce 函数2.1 Map函数2.2 Reduce函数2.3 两个函数的关系图3. MapReduce工作流程3.1 工作流程概述(注意两点)3.2 工作流程图片说明4. MapReduce执行的各个阶段4.1 共6个阶段二级目录二级目录1. MapReduce模型简介MapReduce同样是谷歌公司的MapReduce的开源实现,其要比谷歌的MapReduce的使用门槛低很多。MapReduce将复杂的、运行于大规模集群上的并行

2020-06-01 10:36:20 2480

原创 Elasticsearch剖析

本文是自己搜索整理的 Elasticsearch 相关的东西分享。Elasticsearch剖析1、什么是Elasticsearch2、Elasticsearch的特性3、Elasticsearch的主要概念4、Lucene与ES的关系5、ES主要解决的问题6、ES的工作原理7、Elasticsearch的优点8、Elasticsearch的缺点9、Elasticsearch和RDBMS之间的比较10、为什么要用WS11、我们也需要1、什么是ElasticsearchElasticsearch(简写E

2020-05-21 14:12:05 1100

原创 富贵和你一起复习Python(第11篇)— 文件操作(一)

继续复习Python,今日复习 —— 文件操作,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。文件操作文件操作1. 文件分类1.1 文本文件1.2 二进制文件2. 文件对象文件操作1. 文件分类1.1 文本文件文本文件存储的是常规的字符串,有若干文本行组成,通常每行以换行符 ‘ \n ’ 结尾。常规的文本文件是指记事本或其它的文本编辑器能正常显示、编辑并且人类能够直...

2020-05-08 14:44:58 288

原创 PySimpleGUI 让 Python 的 GUI 界面开发变得如此简单(第02篇) —— 掌握界面控件使用,你的界面你做主

import PySimpleGUI as sgPySimpleGUI封装了tkinter,Qt,WxPython和Remi,以便您获得所有相同的小部件,但可以通过端口之间通用的更友好方式与它们进行交互.PySimpleGUI一、界面控件1. 文本框(Text)2. 输入框(Input)3. 按钮(Button)4. 下拉框(Comobo)5. 弹窗(Popup)6. 选择文件路径(File...

2020-05-07 14:26:45 10038 1

原创 PySimpleGUI 让 Python 的 GUI 界面开发变得如此简单(第01篇) —— 天气预报小功能实例分析

之前在学习 Python 的时候就很是苦恼如何用 python 来做界面开发,感觉好像 Python 在这方面是个短板,当时书上的使用的界面开发模块是 wxPython ,我当时看着书上密密麻麻的代码,就感觉头疼的厉害,瞬间感觉很是无力,直到有一天无意在一个公众号上看到了 PySimpleGUI 这个专门用来开发 GUI 界面的模块,而且完全基于 Python 语言,代码理解起来也很简单,但现在目...

2020-05-06 10:57:11 5766 8

原创 富贵和你一起复习Python(第10篇)— 面向对象程序设计

继续复习Python,今日复习 —— 面向对象程序设计,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。面向对象程序设计面向对象程序设计1. 类的定义与使用1.1 类定义语法1.2 self 参数1.3 类成员与实例成员1.4 私有成员与公有成员2. 方法3. 特殊方法与运算符重载4. 继承机制面向对象程序设计面向对象程序设计的思想主要针对大型软件设计提出,能够很好的支持...

2020-05-05 11:03:31 588

原创 富贵和你一起复习Python(第09篇)— 函数设计与使用(你了解这几种传参类型吗)

继续复习Python,今日复习 —— 函数设计与使用,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。函数设计与使用函数1. 函数的定义与调用2. 形参与实参3. 参数类型3.1 默认值参数(两点注意)3.2 关键参数3.3 可变长度参数3.4 参数传递时的序列解包4. return 语句5. 变量作用域6. lambda 表达式函数其用来解决某些处理的数据不同,但执行代...

2020-05-04 14:15:57 440

原创 富贵和你一起复习Python(第08篇)— 选择与循环

继续复习Python,今日复习 —— 选择与循环,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。选择与循环选择与循环1. 条件表达式2. 选择结构(一定要遵守严格的代码缩进!)2.1 单分支选择结构2.2 双分支选择结构2.3 多分支选择结构2.4 选择结构嵌套3. 循环结构3.1 for 循环与 while 循环3.2 break 和 continue 语句选择与循环...

2020-05-03 20:31:03 489

原创 富贵和你一起复习Python(第07篇)— 正则表达式(正则必看篇)

继续复习Python,今日复习 —— 正则表达式,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。正则表达式正则表达式1. 正则表达式语法(10种代表性举例)2. re模块的主要方法3. 直接使用 re 模块方法4. 使用正则表达式对象5. 子模式与 match 对象6. 最初自己学习正则表达式的笔记正则表达式正则表达式是字符串处理的有力工具和技术,正则表达式使用预定义的...

2020-05-03 17:20:23 498

原创 富贵和你一起复习Python(第06篇)— 字符串(让你更加懂字符串)

继续复习Python,今日复习 —— 字符串,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。字符串1. 字符串1. 1 字符串格式化(format 方法讲解)2. 字符串的常用方法2. 1 find()、rfind()、index()、rindex()、count()2. 2 split()、rsplit()、partition()、rpartition()2. 3 joi...

2020-05-02 21:38:40 322

原创 富贵和你一起复习Python(第05篇)— 集合

继续复习Python,今日复习 —— 集合,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。集合集合(set)1. 集合的创建与删除2. 集合操作3. 集合运用案例集合(set)集合是无序可变序列,与字典一样用一对大括号作为界定符,同一个集合的元素之间不允许重复,集合中的每个元素都是唯一的。根据集合的特性我们可以用来对数据直接进行去重,并和列表的num()方法相结合,可...

2020-05-01 20:37:07 303

原创 富贵和你一起复习Python(第04篇)— 字典(python字典也可有序)

继续复习Python,今日复习 —— 字典,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。字典字典(dict)字典的创建与删除字典元素的读取字典元素的添加与修改有序字典字典(dict)字典是“键-值对”的无序可变序列,字典的每个元素包含两个部分:“键”和“值”。在自学了爬虫之后,深刻体会到了字典的重要性,很多网站返回的数据都是JSON格式的数据,其实就是对字典类型的数...

2020-05-01 17:03:15 493

原创 富贵和你一起复习Python(第03篇)— 元组

继续复习Python,今日复习——元组,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。元组1. 简说元组2. 元组与列表的区别3. 序列解包4. 生成器推导式1. 简说元组与列表相似,元组也是Python的一个重要的序列结构,但元组不属于可变序列。元组一旦创建,不可以改变其中的值,也无法为元组增加或删除元素。元组(tuple)不可变序列,不可变序列,不可变序列元组的...

2020-05-01 16:06:06 207

原创 富贵和你一起复习Python(第02篇) — 列表(看过不后悔系列)

继续复习Python,今日复习——列表,中间会有自己的心得体会,要是有什么错误或者补充可直接评论或者私信哟。列表1.简说列表2.列表对象的常用方法2.1列表的创建与删除(含range函数的使用方法)2.2列表元素的增加1.简说列表列表是Python序列当中自我感觉是最常用的一种,序列是一快用来存放多个值的连续内存空间,python中的列表就好像java中的数组一样,其索引也是从 0 开始,但...

2020-04-30 14:36:51 316

原创 富贵和你一起复习Python(第01篇)— python基础知识

现在的我已经可以熟练的掌握简单基本的Python爬虫,包括静态页面,动态加载数据,多线程编写爬虫等,感兴趣的兄弟可以翻阅我以前的博文,希望我的分享可以帮到你。但我总感觉自己的基础还是很不扎实,这个博文开始我将以我大二下python学习的课本中的章节为顺序分享自己对python的知识复习,中间会有自己的心得体会。要是有什么错误或者补充可直接评论或者私信哟。python基础知识Python对象模型P...

2020-04-29 20:46:13 243 1

原创 Python帮你玩转Excel文档之xlwt模块创建Excel文档(基本操作)

小说明:此次分享的时是简单的基本操作,个人感觉利用xlwt模块添加进数据后,可对表格内容进行详细的格式设置,没必要再用代码进行设置????xlwt模块的基本操作1.导入模块2.创建工作簿 workbook 等价于创建一个Excel表3.创建工作表 worksheet4.为指定工作表内容设置格式5.按照单元格的坐标系向其中添加数据6.按行或者按列进行数据的添加7.保存1.导入模块直接 pip ins...

2020-04-19 16:30:57 2873

原创 Python帮你玩转Excel文档之xlrd模块的基本详细操作

阅读前小读:(1)本博文针对的Excel文档是以 .xls 结尾的文档(2)此次操作的文档来源为国家统计局官网中的季度数据,大家也可以登陆国家统计局官网自行下载(3)一个Excel文档等价于一个“工作簿”,一个“工作簿”中又可包含多个“工作表”(4)给出所用表的相关信息:xlrd模块的基本详细操作1.导入模块2.获取工作薄(workbook)3.获得工作表(worksheet)相关信息...

2020-04-18 19:09:39 1572

原创 (2020年)解决报错:SyntaxError: Non-UTF-8 code starting with '\xe6' in file

首先这个报错出现的原因可能是因为你的Python代码中出现了中文字符,注释中的字符也算。官方解决链接:https://www.python.org/dev/peps/pep-0263/#proposed-solution官方解决方法解释:简单解决方法:根据编码的不同在python代码文件的第一行,一定是第一行添加如下代码:#coding=utf-8一定得是第一行!...

2020-04-18 17:26:23 17927 4

原创 Python多线程爬虫—批量爬取豆瓣电影动态加载的电影信息(小白详细说明自己对于多线程了解)

单线程与多线程爬取时间比较最近听取了老师的建议,开始对多线程爬虫进行自学,在进行多线程爬虫实战之前我做了三点准备,并将准备时所学的东西已写成博文与大家分享,兄你们要是感兴趣的话可以看一看喔????要是有什么错误的地方可以直接评论私信我Python—多线程编程(一)线程的创建,管理,停止Python—多线程编程(二)线程安全(临界资源问题和多线程同步)Python—Queue模块基本使用方法详解...

2020-04-17 16:49:39 3600 1

原创 Python—Queue模块基本使用方法详解

python多线程编程准备(三)已经有好长一段时间没有更新过博客了,完成了网课的一个段落的学习,终于有时间写博客啦????之前学习了Python爬虫的一系列东西,自己现在可以应对基本的抓站,了解了不同的基本反爬形式和解决办法,感兴趣的小伙伴可以看看我之前博客哟????之前所写的爬虫可以理解为都是单线程爬虫,当抓取大量的数据的时候速度会慢,通过一下的代码可以知道我们的代码都是在MainThread下运行的,...

2020-04-14 21:54:14 15516 3

原创 Pyecharts V1全新版本 x轴不能完全显示的问题解决(三种方法)

今天搞可视化的折线图,发现和之前的柱状图出现同样的问题,就是 x 轴数据如果过多或者 str 内容过长,就不能完全显示,看了文档好长时间,很是烦躁,博文最后总结了三种方法。官方文档解决这个问题的地方(在设置全局设置中的 AxisOpts 中):直接上代码解释吧:最初的代码:#折线图( #init_opts=opts.InitOpts(width="1500px"),设置可视化...

2020-03-25 15:19:21 19050 15

原创 Pyecharts V1全新版本超详细使用教程——Pie(饼图的使用)

Pyecharts V1全新版本超详细使用教程——Pie(饼图的使用)之前鼓捣了柱状图,现在我来鼓捣饼图啦!以下内容均来自Pyecharts官方使用文档和自己的理解琢磨。(在柱状图的博文中已经给出官方文档的地址)首先来看官方对饼图的源码的解释:这就是官方给出的饼图内置的所有参数方法使用。我第一次看这个的时候,就感觉很乱很不知所措,但有了之前柱状图的学习过程后,静下心一点点去看这些的...

2020-03-24 20:40:12 16811 3

原创 Pyecharts V1全新版本使用教程——Bar(柱状图的使用)

Pyecharts V1全新版本使用教程——Bar(柱状图的使用)以下内容均来自Pyecharts官方使用文档(可自行阅读)和自己的理解:官方链接:https://pyecharts.org/#/zh-cn/introgithub链接:https://github.com/pyecharts/pyecharts-gallery概况:Echarts 是一个由百度开源的数据可视化,凭借着良好...

2020-03-24 16:44:45 16413 11

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除