自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 问答 (2)
  • 收藏
  • 关注

原创 Python生产者消费者多线程爬虫

Pipeline技术架构常用语法1.导入类库import queue2.创建Queue对象q = queue.Queue()3.添加元素q.put(item)4.获取元素item = q.get()5.查询状态#查看元素的状态q.qsize()#判断是否为空q.empty()# 判断是否已满q.full()#生产者消费者爬虫架构#多线程数据通信queue.Queue#代码实现生产者消费者爬虫...

2022-02-10 14:48:04 816 1

原创 Python之MySQL_第01步

安装MySQL模块要实现Python与MYSQL进行交互,需要安装mysql模块,使用pip3 install mysql下载该模块即可。在IDLE中输入import MySQLdb,如果没有错误提示符表示安装成功。连接MySQL连接mysql需要调用MySQLdb模块的connect()方法配置mysql信息。connect(connect(host='127.0.0.1',user='root',passwd='123',db='test')hsot 连接的主机的ip,127.0.0.1为

2022-01-11 15:10:49 220

原创 Python之多线程01_简介

Python速度比C/C++/Java慢据统计Python比C++慢200倍,导致现在大部分大型企业依旧使用C/C++或Java速度慢原因原因1:Python是动态类型语言,边执行边解释原因2:存在GIL,无法使用多核CPU并发并行执行GILGIL(Global Interpreter Lock,全局解释器锁)是计算机程序语言解释器用于同步线程的一种机制,它使得任何时刻仅有一个线程在执行(无法使用多核并发)。为什么需要GILGIL是为了解决多线程之前数据完整性和状态同步问题。

2022-01-03 18:00:17 592

原创 Python爬虫之SQL数据库写入

这次以爬取小说《斗破苍穹》的章节名和章节url依次写入数据库,借用某狗平台爬取相关信息。爬取思路主要先使用xpath分别爬取chapters_xpath章节名称和url_xpath章节url,由于爬取的url是超链接需要进行url拼接才能成为完整网址。数据库:在数据库内创建fiction表其下有name和url属性。通过循环依次将爬取的结果导入数据库fiction表内。import reimport requestsfrom lxml import etreeimport MySQLdb#

2021-12-17 17:41:34 2097

原创 Python的CSV读取与写入

CSV文件是纯文本形式存储表格数据。读取CSV文件需要在当前目录下编写一个csv_read.csv文件:name,account,password小明,账号1,123慢慢,账号2,123丽丽,账号3,123调用csv的reader()方法对csv文件读取:import csvwith open('csv_read.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) #剪切reader第一行的值返回

2021-12-04 17:29:40 1911

原创 kafka一键启动停止脚本

编写kafka启动脚本vim kaka.sh#!/bin/bash#配置使用参数启停kafkacase $1 in"start"){ for i in Leader follower1 follower2 do echo *****$i****** ssh $i "/opt/app/kafka_2.11-0.11.0.0/bin/kafka-server-start.sh -daemon /opt/app/kafka_2.11-0.11.0.0/config/server.prope

2021-11-22 15:02:37 1483

原创 Kafka集群配置及运行操作

前面安装配置了ZK集群后,要再分别安装配置Kafka集群。下载kafka官网:http://kafka.apache.org/downloads.html最好找到与ZK相兼容的kafka版本,我的zk是3.4.10,所以我选择kafka2.11左右版本就行。安装将kafka安装包上传到节点上,使用tar -zxvf 安装包 -C 存放目录,将压缩包解压。修改kafka/config目录下的server.properties文件内容,不是复制粘贴到文件末尾!!#vim server.p

2021-11-22 14:57:18 288

原创 kafka学习之异常处理_关闭kafka报Socket server failed to bind to 0.0.0.0:9092异常

使用指令kafka-server-stop.sh关闭kafka,出现异常:网络上解决方法(1) 将kafka进程杀死:

2021-11-22 14:55:48 2021

原创 Termux安装Python

在我的上一篇文章中讲解安装Termux及更换下载源和远程连接。安装Python在Termux中输入pkg install python ,安装Python。安装完毕后,在命令行中输入python即可进入python编译环境:

2021-11-18 19:12:41 3875

原创 电脑休眠和睡眠

休眠休眠模式一般需要点按开机键才能唤醒,有时候也可以通过键盘或者鼠标,就像上面提到的支持鼠标或键盘唤醒的主板,休眠唤醒的时间比较长,所以经常让人觉得电脑进入休眠后就无法唤醒,其实大家需要耐心等待一会。之所以休眠唤醒时间长,主要是因为在休眠的时候,电脑内存中的所有数据全部放到了硬盘中的,当你按开机键唤醒电脑的时候,电脑又会把这些数据全部恢复到内存里面,然后恢复到你休眠前的工作状态,这个时间是比较长的。休眠类似关机,休眠的情况下,内存、CPU、硬盘都不会再工作了,因为数据提前存入到硬盘,所以不会丢失。睡

2021-11-18 13:12:35 2174

原创 yum换源及问题解决

在使用yum 安装git时:yum install git 报错404 Not Found"通过百度查找需要换源,因为默认是国外的源,连接国外的服务器不太顶,所以换成清华的源。换源我使用的是Centos6.6的版本。进入镜像仓库地址https://mirrors.cnnic.cn/help/centos/选择当前服务器版本,可以使用命令 cat /etc/redhat-release备份CnetOS-Base.repo mv /etc/yum.repos.d/CentOS-Base.repo

2021-11-15 20:21:39 1029

原创 Termux的安装、换源并实现远程

前言在生活中总能出现一些零散的空闲时间。熟练性地拿起手机打开博客,看几篇相关Python的文章,也许在某一瞬间灵感上升,身边却没有可以测试的环境。在路上、在公交上、在等待时,这些零零散散的时间不能好好利用。在博客中发现有Termux可以运行在Android 上,并编写测试代码。简介Termux 是 Android 平台上的一个终端模拟器,它将众多 Linux 上运行的软件和工具近乎完美的移植到了手机端。无需任何复杂的安装和配置过程,软件装好以后即会自动配置一个基本的运行环境,用以执行一些常见的 L

2021-11-15 13:54:39 20203

原创 编写Zookeeper代码连接ZK客户端及IDEA环境搭配

zookeeper代码编写环境配置,网络好的朋友可以让IDEA自动加载,不行的话我们也可以手动加载。再编写代码监听zk服务器,idea配置就成功了配置环境1.创建一个 Maven 工程2.添加 pom 文件<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</ve

2021-10-30 15:53:04 887

原创 Zookeeper客户端的使用

客户端命令操作启动客户端在zookeeper的目录下,执行:bin/zkCli.sh显示所有操作指令help在zk中,每次创建节点,必须向其中写入数据。create /sanguo/weiguo "caocao"节点监听在 hadoop104 主机上注册监听/sanguo 节点数据变化 get /sanguo watch...

2021-10-28 19:57:49 92

原创 Zookeeper学习异常处理01-启动ZK后jsp没有显示QuorumPeerMain

我使用的Centos6.5与zookeeper2.4.1版本,进行完全分布式部署。部署完毕后,启动三台ZK集群,使用status查看情况发现异常。现象在使用 ./bin/zkServer.sh start启动zookeeper后,jsp没有显示QuorumPeerMain进程。zookeeper单机运行,突然连接不上,启动后总是成功的,但是启动后查看状态又显示没有在运行查看zookeeper.out日志,报出错误:ERROR [main:QuorumPeerMain@89] - Unexpec

2021-10-25 21:04:30 3431

原创 电脑的组成

计算机发展史第一代电子管计算机(1945-1956)这一阶段计算机的主要特征是采用电子管元件作基本器件,用光屏管或汞延时电路作存储器输入域输出主要采用穿孔卡片或纸带,体积大、耗电量大、速度慢、存储容量小、可靠性差、维护困难且价格昂贵。在软件上,通常使用机器语言或者汇编语言;来编写应用程序,因此这一时代的计算机主要用于科学计算。第二代晶体管计算机(1956-1963)晶体管计算机(1958-1964)20世纪50年代中期,晶体管的出现使计算机生产技术得到了根本性的发展,由晶体管代替电子管作为计算机的基

2021-10-20 20:46:03 171

原创 Xpath分段查询异常

一条完整的XPath语句是://div[@class=“section”]/li[1]//input[4]但由于一些原因(有些链接需要更新网址才能显示),必须要分段进行XPath查询。正常思路: div = html.xpath('//div[@class="section"]') li = div.xpath('./li')[i] #li标签有很多个,想要靠i(1,10)进行li标签的遍历 val_id = li.xpath('//input[4]/@value')

2021-09-09 20:30:48 125

转载 spark 调用saveAsTextFile输出文件 报错NullPointerException

写了一个简单的分区并输出本地文件,结果输出的文件都是空白文件:查询之后 发现是本地缺少hadoop需要的一个文件所致如果本地已经安装了hadoop 一般不会有此问题 如果不愿安装 可按照下述方法解决1)下载需要的文件 winutils.exe将此文件放置在某个目录下,比如C:\winutils\bin\中。3)在程序的一开始声明:System.setProperty(“hadoop.home.dir”, “c:\winutils\”)winutils.exe文件下载链接:https://

2021-02-01 15:30:02 566

原创 Spark去掉文本首行属性,计算下文数据

在源数据中有首行属性字段,会对计算有干扰。如:在统计年龄时,首行字段 年龄为字符串,不能作为年龄来统计,所以需要跳过首先进行计算。这里使用:val header = rdd.first()rdd2 = rdd.filter(_ != header)使用firs获取首行属性字段,然后再用filter将数据中的首行去掉:现实统计年龄小于20的代码:import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkCo

2021-01-29 16:41:14 1002

原创 (idea中生成变量后,自动勾选(specify type)

IntelliJ IDEA 2018.2.1IDEA声明变量后,默认不显示推断类型:点击Settings设置自动勾选点击红框中的settings,进入设置,点击Tpye annotations下次声明变量时,推断的类型自动生成~

2021-01-29 16:01:43 936

原创 数据处理之MapReduce 菜鸟初学(1)

目录基本概念基本框架TextInputfFormatMap阶段Shuffle阶段Reduce阶段TextInputFormat基本概念Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。基本框架前言:想要写java程序,需要导入hadoop的jar,否则没办法编写程序。以下框架是MapReduce的经典,日后需要深入学习,也只是在这个框架的基础上略作修改,所以了解基本框架很重要。整个MapReduce的计算模型主要

2020-12-05 17:04:35 286

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除