自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(120)
  • 资源 (2)
  • 收藏
  • 关注

原创 呕心沥血整理大型项目开发中使用工具

常用项目工具集合日志模块数据库连接模块sqlalchemy ORM创建模块scrapy itemsscrapy ProxyMiddleWare 代理中间件scrapy 请求头中间件scrapy pipeline滑块登录验证装饰器python将数据存入csvpython将数据存入excel (.xlsx)python使用字符串调用类方法通过字符串调用同级文件类方法格式化公司名redis 分布式锁无界面浏览器 driver转化日期下划线转驼峰13位时间戳转日期格式化日期电话匹配flask_app = Flas

2021-04-09 17:20:54 2705 1

原创 字节跳动上班有多累?

字节跳动上班有多累?前言面试邀约面试过程一面的出乎意料二面的游刃有余三面的压力测试立FLAG入职字节一年 人员三年临近崩溃第一次崩溃第二次崩溃第三次崩溃最新状态前言     大部分的人都渴望能进入字节跳动上班,对于字节跳动充满着期望和向往,毕竟它已经成为中国互联网数一数二的大厂了。但是大部分人是不知道字节跳动的工作强度到底是怎么样的。面试邀约     我和女朋友是4月8才返回的成都,经过两次核酸检测之后才去找的工作,几经转折,我已经参加工作,她也收到了好几家公司的office,但是她最后都选择放弃,

2020-06-07 12:09:06 114043 132

原创 最全的实际开发git使用讲解——版本控制——代码管理

前言在实际开发项目中,对于代码的控制用得最多的就是git。git用的好,对于项目而言,是一件非常让人愉悦的事儿。不仅仅是在代码的保存上,更是在开发上使业务逻辑和开发流程更加清晰和便于管理的不二选择。对人团队合作开发,不可避免需要将大家的代码进行合并,那么中间就会出现很多让人头疼的问题。如:修改,删除了别人的代码,功能不复用,高耦合,代码有问题查不到谁写的,各种甩锅等等。。。GITLABGitLab是由GitLabInc.开发,使用MIT许可证的基于网络的Git仓库管理工具,且具有wi

2020-05-14 22:57:55 4897

原创 python多线程下载小姐姐图片

今日闲来无事,翻看博客,看到一篇关于python自动下载美女图片的文章,就萌生了也写一个下载图片的爬虫程序。目标网站:https://www.23jj.com/对于绅士来说,就很棒!!!我们的目标就是把这个网站的全部美女图片都下载下来,根据文件夹保存。就像这样:每个文件夹里面自然就是各个主题下的全部图片了。下来咱们就来实现一下代码思路:通过观察网页,知道网站一共有218...

2020-03-30 17:47:51 5818 6

原创 无限创建gmail邮箱账号

国外很多网站都需要gmail邮箱注册,如果能有很多gmail账号,那么就能做很多事(自己体会哈)注册地址:http://mail.google.com

2019-08-19 15:43:31 37151 4

原创 PermissionError: [WinError 5] 拒绝访问。解决办法

当在使用pip install 安装包时,如:pip install scrapy scrapyd scrapyd-client spiderkeeper出现报错:PermissionError: [WinError 5] 拒绝访问。: ‘c:\programdata\anaconda3\lib\site-packages\dateutil\easter.py’可通过更改ananconda的...

2019-05-09 09:59:30 128644 42

原创 高效部署Redis Sentinel模式(哨兵模式),手把手教学

这里就不过多的解释高可用的好处了,Redis在开发中使用也比较常见。如果自己又三台或三台以上的服务器,那么就可以自己部署来玩玩。

2023-04-14 15:59:49 4447

原创 docker-compose极速部署kafka3.2.0集群(含zookeeper集群)

使用docker-compose极速部署kafka3.2.0,并开启JMX_PORT端口

2023-02-16 16:01:12 5008 1

原创 PyFlink使用说明:建表及连接Mysql数据库

PyFlink版本是1.16.0,所以需要下载 :flink-connector-jdbc-1.16.0.jar。环境根据最新的版本安装即可,需要注意最新的PyFlink支持的最大Python版本。注意点:使用 批处理环境的时候,无法执行成功 ,必须使用 流处理环境。注意点:使用 批处理环境的时候,无法执行成功 ,必须使用 流处理环境。需要有一定的经验积累,再进行不断调试,才能摸索到一定的门道。1、需要创建一张数据源表,数据源表需要连接到数据库中的表。在创建表环境时,将 JAR 依赖添加到表环境。

2023-01-03 17:14:07 29984 2

原创 阿里云使用docker急速部署kafka

准备工作阿里云服务器安装docker,docker-compose。执行后会自动部署zookeeper、kafka服务。下载docker-compose.yml。docker-compose部署命令。

2022-07-21 10:39:46 912

原创 Docker Dokerfile搭建Centos环境下的Python程序

需求分析:简单来说就是Dockerfile文件创建的docker镜像需要同时满足Liunx环境和Python环境需要解决的问题:使用docker镜像打包python程序,但是需要用到liunx的yum安装一些依赖包现状分析:如果Docker镜像中只依赖Centos,则无法使用python的pip进行requirement.txt依赖包的安装如果Doker镜像中只依赖Python,则无法使用yum进行安装运行环境错误尝试:使用From多阶段构建,结果是镜像正常生成,但是产生了一个

2022-04-25 21:24:44 2904

原创 (亲测有效)Failed to start Docker Application Container Engine

FAILED TO START DOCKER APPLICATION CONTAINER ENGINE

2022-04-17 09:54:34 25127 4

原创 Hive玩得好,头发就变少

Hive玩得好,头发就变少Hive窗口函数Rank日期函数数据取整函数常用字符串常用集合函数grouping_set压缩和存储TextFileOrc格式Parquet格式Hive窗口函数窗口分析函数:窗口函数也称为OLAP函数,是对一组值进行操作,不需要使用Group by子句对数据进行分组,还能再同一行返回原来行的列和使用聚合函数得到的聚合列over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能回随着行的变而变化current row 当前行n preceding 往前n行

2022-03-20 16:57:23 2271

原创 想玩明白Hive哪有那么容易,十分钟你都看不完

从入门到放弃全过程HIVE什么是数据仓库什么是HiveHive架构Hive的优缺点Hive和数据库比较Hive基本数据类型Hive集合数据类型类型转化DDL数据操作创建数据库查询数据库/表删除数据库修改数据库数据库表操作建表语法内部表外部表分区表分桶表根据查询结果创建表根据已经存在的表结构创建表创建内部表创建外部表创建分区表创建动态分区表创建二级分区表创建分桶表修改表名内部表和外部表互相转换增加分区删除分区HDFS数据与分区表产生联系增加/修改/替换列信息删除表DML数据操作向表中装载数据(Load)通过查

2022-03-19 16:44:23 4147

原创 一首歌的时间,给你讲明白MapReduce

MapReduceMapReduce详细知识汇总MapReduceMapReduce定义MapReduce核心编程思想MapReduce进程MapReduce程序运行流程分析数据切片及MapTask并行度决定机制MapTask工作机制Shuffle机制ReduceTask工作机制设置ReduceTask并行度(个数)排序概述排序的分类压缩策略和原则压缩方式MapReduce跑的慢的原因MapReduce优化方法常用的参数调优小文件弊端小文件解决方案MapReduce定义MapReduce是一个分布式

2022-03-18 20:36:49 377

原创 五分钟带你了解Hadoop的全部

HadoopHadoop、HDFS、Yarn工作机制及流程HadoopHadoop的优势Hadoop的组成Hadoop重点组件HDFS 架构概述Yarn架构Yarn工作机制资源调度器 FIFO资源调度器 容量调度器资源调度器 公平调度器BlockHDFS的写数据流程HDFS的读数据流程NameNode工作机制DataNode工作机制数据完整性Hadoop的优势1、高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或者存储出现故障,也不会导致数据的丢失2、高扩展性:在集群间

2022-03-18 15:09:16 1593

原创 elasticsearch ES 踩坑指南(附带项目整理过程)

elasticsearch ES 踩坑指南项目需求美团店铺智能获客准备阶段数据清洗踩坑实例一、数据体积二、字段类型三、查询条件项目需求简单来说就是接口改造;其实接受这个项目的时候,还是认为比较简单的,因为该项目是已经有大佬通过golang写好了,项目也正在生产环境运行。我只需要将golang的代码看一遍,使用python将接口功能完成再实现一边即可;那么就有人会问了,既然已经实现了,为啥还要多此一举再用python写一遍呢?问得好,我带着你的这个问题,问道了俺们的leader,答案是:因为之前实现的

2021-11-05 11:29:29 775

原创 Python连接 Mysql、MongoDB、Redis、Doris、kafka方法汇总

Python连接 Mysql、MongoDB、Redis、Doris方法汇总yamlsqlalchemyyamlwith open('./config.yaml') as f: load = yaml.safe_load(f) redis_host = load['redis']['host'] redis_port = load['redis']['port'] redis_pw = load['redis']['password'] env = load['

2021-09-14 11:29:40 1605

原创 python项目运行,导致内存越来越大的原因分析

内存越来越大的原因分析 问题描述:程序运行现象分析:尝试解决:原因分析:解决方法:问题描述:目前遇到的问题是这样的,爬虫程序部署到K8S服务器上运行,但是会过几个小时之后,程序就会被主动杀掉重启,原因是因为内存过载,超过K8S设置的4G。程序运行现象分析:在线下进行程序测试时,未让程序长时间运行(及4-5个小时),程序无异常则直接上测试环境测试,然后部署上线了运行了。通过线下观察,确实程序使用内存会因为时间而不断增加增长的速度虽然不是很快,但却是在稳定增加,说明程序中存在内存使用未被释放。

2021-07-22 11:20:00 9213 5

原创 如何理解关系型数据库的常见设计范式?看这一篇就够了

常见设计范式了解范式之前,必须准备的知识点思考几个关于数据库使用的问题部分名词解释函数依赖完全函数依赖部分函数依赖传递函数依赖码(主键)非主属性第一范式1NF的解释实例讲解第二范式2NF的解释实例讲解第三范式3NF的解释实例讲解总结一下了解范式之前,必须准备的知识点百科百科提供了“范式”的名词解释:范式是符合某一种级别的关系模式的集合。关系数据库中的关系必须满足一定的要求,满足不同程度要求的为不同范式。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-C

2021-04-21 10:54:36 571

原创 requests.exceptions.SSLError: HTTPSConnectionPool

requests.exceptions.SSLError: HTTPSConnectionPool(host=‘auction.gorringes.co.uk’, port=443): Max retries exceeded with url: (Caused by SSLError(SSLError(“bad handshake: Error([(‘SSL routines’, ‘tls_process_server_certificate’, ‘certificate verify failed’)

2021-03-04 17:27:40 3877 3

原创 Waiting for table metadata lock究极解决办法(绝对管用)

简单描述一下遇到的问题:根据项目数据入库要求,在之前没有设置唯一约束的表上添加唯一约束,这就涉及到需要修改表结构。在对其他表进行修改的时候,无论是修改字段长度还是删除索引添加唯一约束都没有问题,但是唯独有一张表,无论进行什么表操作全部都会出现Waiting for table metadata lock。刚开始的解决思路:找到没完成DDL的操作进程将其杀死即可。但是使用select * from information_schema.innodb_trx;得到的进程太多了,根本无法及时将具体是哪个

2021-01-21 15:53:26 29317 4

原创 mysql部署主从复制中遇到的问题汇总

前提简介事情是这样的,公司的数据目前的量已经算是比较大的了,对于安全问题和mysql的性能问题逐步开始重视起来,因为之前的mysql出问题基本都是我在处理,所以自然就接手了后面的mysql运维工作。资源分析之前我们的数据库和业务组的数据库放在一个服务器上,目前需要将两个组(数据组,业务组)的数据分开,于是又购买了一台阿里云的内网服务器,公司内服还有两台本地的物理机,其中一台业务组在使用,所以目前手上能使用的服务器有两台:阿里云内网服务器,本地内网物理机服务器需求分析根据数据安全321原则,我们

2020-12-04 15:08:48 2359

原创 千万级数据清洗ETL设计方案

千万级数据清洗项目分析总结项目简介一、需求分析1. 前期需求2. 中期需求3. 后期需求二、技术支持1. MySQL2. Redis三、框架设计1. 流线型代码2. 工厂模式四、调式工作1. 线上测试五、问题回顾1. Mysql使用问题2. Reids使用问题3. 设计思路问题关注收藏不迷路,持续更新距离上次写博客已经过去好几个月了,中间其实还是有大量的时间去写博客的,但还是应为比较懒,就没写,毕竟咱也不是要成为吸粉的博主,每日更新比较基础的知识嘛,要整就整点有难度的,这才过瘾嘛。现在看看之前自己的一

2020-11-21 16:07:17 7132 5

原创 国企上班和私企上班哪个更好?

国企上班跟私企上班那些事儿吹水闲聊国企上班的好处国企上班的弊端私企的利弊建言关注不迷路哦吹水闲聊     国企和私企哪个更好,似乎是大家一直津津乐道的一个话题啊,小弟不才,国企工作过三年,目前正在私企,对于这个话题,应该还是有一定的发言权。虽然各有各的利弊,我还是直观的说说的经历和想法吧,各位大佬也可以在评论区留言,说说你们的想法。国企上班的好处     我所在的国企单位是东风汽车集团的子公司,完全的国产自主品牌,可以说是东风的亲儿子。这样的一家集团公司上班,国企该有的福利待遇一点都不会少。生活

2020-08-08 15:14:56 4306

原创 当面试官问你:“Redis能做哪些事儿?” 看完这篇面试官直呼内行

最全的实际开发git使用讲解前言Redis的读写这么快呢?Redis除了缓存还能干嘛一、Redis分布式锁二、Redis任务队列三、计数器控制四、好友推荐五、会话存储关注收藏不迷路,持续更新前言     最近公司项目一期准备上线,忙得焦头烂额,感觉每周都少过了一天似的,同事一问今天周几,又周五了?就像时间被偷走一样,哎,可能程序员的一周就是这么朴实无华且快!!!     已经忘记上次写博客的时间是啥时候了,但一定过了很久,这篇是关于redis项目中使用的文章,在很早之前就想写了,一直没抽出时间(实际

2020-07-18 17:01:57 2137 3

原创 ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs for full comm

Downloading https://pypi.tuna.tsinghua.edu.cn/packages/e7/1e/3dcca007f974fe4eb369bf1b8629d5e342bb3055e2001b2e5340aaefae7a/uwsgi-2.0.18.tar.gz (801 kB)|████████████████████████████████| 801 kB 234 kB/sERROR: Command errored out with exit status 1:command

2020-05-09 15:52:47 1583

原创 Please make sure you have the correct access rights and the repository exists.

问题 : 在使用git clone 项目的时候,出现报错,导致项目clone失败。原因 : 出现改问题的原因是git服务器没有存储本地ssh密钥。解决办法:首先我得重新在git设置一下身份的名字和邮箱进入到需要提交的文件夹底下git config --global user.name “yourname”git config --global user.email“your@emai...

2020-05-08 09:26:39 1175

原创 最新抖音下载无水印视频

短视频搬运在这个自媒体的时代,通过短视频赚钱已经成为一种常态,抖音也是当下最火热的短视频分享平台,在大家都致力于原创视频的时候,也有一部分人找到了另一种赚钱的套路——短视频搬运!短视频赚钱只要有播放量就能实现稳定收益。操作流程:第一步:定位你想要搬运的视频类型,确定账号名字第二步:去抖音里将对应的视频下载下来、第三步:将拼接好的视频上传到YouTuBe上,并开通广告分成我们今天就来...

2020-05-04 10:42:28 4906 2

原创 pymysql.err.InternalError: (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xB5\\xE9\\x9F...'

错误事件:在使用mysql数据库插入数据时,再遇到表情符号的时候,会报错。原因是因为我在navicat建立数据库的时候使用的utf8字符集所以表结构在创建的时候也会默认为utf8字符集。所以需要特殊的表情符号时,无法存入数据库。解决办法注意:直接在navicat中修改表结构的字符集和数据库的字符集都不能生效 (至少我的不行)通过cmd进入mysql,找到表结构,修改表结构字符集为...

2020-04-28 14:38:04 3577 1

原创 wind系统使用GO MOD 管理GO项目额第三方库使用详解(导入Colly)

最近开始学习go语言,万事开头难,第四步下载使用第三方库。接下来将讲解在使用go中遇到的各色各样的问题通过查阅资料,得知go语言从1.11版本开始,开始有了GO111MODULE变量。也出现了go mod的使用,至此go get获取第三方库的方式被淘汰。依靠go语言最新的mod模块,可以将依赖包的不同版本都缓存至$GOPATH/pkg/mod目录下,各个项目通过go.mod文件各取合适...

2020-04-26 15:49:47 1282 1

原创 GOLAND创建go项目完成流程

最近开始学习go语言,万事开头难,第三步创建项目,安装第三方库。接下来将讲解在使用go中遇到的各色各样的问题创建项目1、以此点击File>New>Project2、设置项目路径点击Create3、进入项目后以此点击NewProject>New>Go File4、创建项目main5、启动项目当项目创建完成时,我们需要编写代码,测试运行代码Err...

2020-04-26 15:11:57 2384

原创 Wind系统安装GOLAND并设置使用GO环境

安装GOLAND我的Go资源包 链接: https://pan.baidu.com/s/126Pfu8LtQmdwLWC1YyfnYQ 提取码: 6crj下载完成是这个样子的:1、双击安装2、安装比较简单就不详细介绍,安装路径可自己更改配置GOLAND1、配置GOLAND的GOROOT2、配置GOLAND的GOPATH顾名思义Global GOPATH就是全局项目路径Pro...

2020-04-26 14:55:24 1171

原创 wind系统下GO环境配置GOROOT、GOPATH、GOPROXY设置

最近开始学习go语言,万事开头难,第一步就是安装环境。接下来将讲解在使用go中遇到的各色各样的问题安装环境1、在https://studygolang.com/dlGO语言中文网下载对于系统资源2、下载下来后是这个样子3、双击安装4、安装比较简单,就不详细介绍,一路next即可,可以更改安装路径我的Go安装在D:\配置环境变量1、配置GOROOT通过图片一次点击...

2020-04-26 14:39:17 5051

原创 今天接到一个诈骗电话!!!原来有这么多的受害者

今天下午的时候,接到了一个陌生的电话,地址是河南驻马店。在我接通了之后,电话那头直接就报出了我的大学学校名,同时想和我核对身份信息,当时我就觉得不对劲。电话内头说话吐词不清,再重复沟通了一会儿后,我才得知,他是要给我注销在学校期间办理的信用贷款账号,需要下载360借条APP。但是我以电话接通无法下载为由拒绝了下载,他就说你先加我们的QQ客服吧,一分钟后在QQ客服的指示下完成操作,我说好的...

2020-04-21 21:15:22 1968 1

原创 python爬虫数据分别存入MySQL、MongoDB、Redis数据的操作

数据存入MySQL数据库MySQL数据库不同于mongodb和redis,属于关系型数据库,在存入数据之前必须要建表和字段,在海量数据处理的时候效率会显著变慢,也正是因为这点,爬虫的数据一般会选择存入mongodb,但是MySQL数据库支持事务,所以更适合用于建站时使用。建立数据库链接 cursor= pymysql.connect("localhost","root","1234...

2020-04-13 21:22:48 1524 1

原创 隐藏链接反爬虫

隐藏链接反爬虫定义隐藏连接反爬虫指的是在网页中隐藏用于检测爬虫程序得链接手段。被隐藏得链接不会显示在页面中,正常用户无法访问,但是爬虫程序有可能将该链接放入待爬队列,并向该链接发起请求。开发者可以利用这个特点区分正常用户和爬虫程序。举例刚我们访问某个网站得列表页时,为了拿到详情页得内容,我们需要将列表页得所有url加入到待爬取得队列中,在网页的列表div中加入对应的CSS样式,混入页面不显示...

2020-04-12 15:28:40 1614

原创 访问频率限制反爬虫

访问频率限制爬虫定义访问频率指的是单位时间内客户端发出网络请求得次数,它是描述网络请求频率成都得量。征程用户浏览网页得频率不会像爬虫程序那么高,开发者可以将访问频率过高得客户端视为爬虫程序。解决办法一、time.sleep()如果我们请求间隔时间变长,就能够保证每次请求得响应状态码都是200。我们可以使用Python代码中得time.sleep()实现请求间隔。事实上,爬虫总是希望请求频...

2020-04-11 16:51:47 4945 2

原创 WebDriver被识别反爬虫解决办法(Chrome正受到自动化测试软件的控制)

我们将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝爬虫程序的请求。动态渲染和文本混淆则出现在文本获取及数据提取阶段,这个夹断的反爬虫理念以保护数据为主要目的,尽可能避免爬虫获取到重要数据。特征识别反爬虫是指通过客户端的特征、属性或用户行为特点来区分正常用户和爬虫程序的手段。WebDriver识别...

2020-04-09 20:34:15 11698 6

原创 不止是CSS偏移反爬虫

CSS偏移反爬虫CSS偏移反爬虫指的是利用CSS样式将乱序的文字排本为人类正常阅读顺序的行为。这个概念不是很好理解,我们可以通过对比两端文字来加深对这个概念的理解。HTML文本中的文字:我的学号是 1308205,我在北京大学读书。浏览器显示的文字:我的学号是 1380205,我在北京大学读书。爬虫取到的学号是1308205,但用户在浏览器中看到的却是1380205.如果不细心观察,爬...

2020-04-07 16:20:28 651

鬼鬼js调试工具7.5.exe

js调试工具,爬虫逆向

2021-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除