zsj.python之路-CSDN博客

原创 random的使用

import randomdef get_random_code(length = 6): data = [] for i in range(length): # v = random.randint(1, 100) # v = random.uniform(1, 10) # 4.2175498992823532.447379563679471...

2020-02-24 14:37:16 503

原创 linux去除空行的方法

1、grepgrep . data.txtgrep -v '^$' data.txtgrep '[^$]' data.txt2、sedsed -i '/^$/d' data.txtsed -i '/^\s*$/d' data.txt #这个命令还可将完全空格、tab等组成的空行删掉。3、awkawk NF data.txt # 这个也可以将空格、tab等组成的空行删掉。...

2020-01-19 10:01:44 444

原创使用python将数据导出到表格中

def get_sec_exc(time): # 建立连接 conn=pymysql.connect( host="0.0.0.0", port=3308, user="root", passwd="password", db="mysql", charset="utf8" )...

2020-01-14 15:42:50 4703

原创定时删除文件且添加进日志

#!/usr/bin/env python3# coding: utf-8import osimport timeimport datetimeimport loggingclass DeleteFile(object): def __init__(self,path): self.path = path def logger(self): ...

2020-01-08 18:31:27 176

原创 python-logging的用法

1、日志的打印级别日志级别大小关系为：CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET，当然也可以自己定义日志级别。默认情况下，logging将日志打印到屏幕，日志级别为WARNING 及以上；import logginglogging.warning("This is a warning log")lo...

2020-01-07 00:15:16 272

原创 Dstream有状态转化操作（updateStateByKey）

#!/usr/bin/evn python3from __future__ import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextimport pymysqlif __name__ == "__main__": i...

2019-12-22 19:16:02 663

原创 Kafka作为源数据进行数据流计算

#!/user/bin/env python3from __future__ import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextfrom pyspark.streaming.kafka import KafkaUtils...

2019-12-22 14:55:21 378

原创使用spark sql 读写数据库（python实现）

#!/usr/bin/evn python3from pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessionspark = SparkSession.builder.conf...

2019-12-17 21:57:06 2138 2

原创 spark进行二次排序

from operator import gtfrom pyspark import SparkContext, SparkConf'''实现思路：1、按照Ordered和Serializable接口实现自定义排序的key2、要将进行排序的文件加载进来生成<key,value>的RDD3、使用sortByKey基于自定义的Key进行二次排序4、去除掉排序的Key只保留...

2019-12-14 23:05:00 942 1

原创 Spark排序求Top值

from pyspark import SparkContext, SparkConfconf = SparkConf().setMaster('local').setAppName('ReadHBase')sc = SparkContext(conf=conf)lines = sc.textFile("D://tydic_study\spark//num.txt") # 存放文件的路径...

2019-12-14 18:05:41 1167 1

原创用python实现Hbase的读写操作

读取Habse中的数据from pyspark import SparkContext, SparkConf# spark集群的地址conf = SparkConf().setMaster('local').setAppName('ReadHbase')sc = SparkContext(conf=conf)# 配置连接参数host = 'localhost'table = '...

2019-12-13 17:54:56 1847

原创 HBase简介

一、HBase在hadoop生态圈中的位置二、HBase简介1、组成HBase表由行键、列族、列限定符、时间戳组成2、特点（1）每个值都是未经解释的字符串，没有数据类型（2）用户在表中存储数据，每一行都有一个可排序的行键和任意多的列（3）表在水平方向上由一个或者多个列族组成，一个列族可以包含多个列，同一个列族里面的数据存储在一起（4）列族支持动态扩展，可以很轻...

2019-12-12 16:51:10 485 1

原创 hadoop单机分布式和伪分布式搭建教程

hadoop安装教程参考：厦大教授－林子雨http://dblab.xmu.edu.cn/blog/install-hadoop/

2019-12-05 21:32:35 199

原创 RDD的运行原理

RDD的执行过程（1）RDD读入外部数据源进行创建（2）RDD经过一系列的转化（Transformation）操作，每一次会产生不同的RDD，供给下一个转化操作使用（3）最后一个RDD经过”动作“操作进行转化，并输出到外部数据源这一系列的操作称为一个Lineage（血缘关系），即DAG拓扑排序的结果优点：惰性调用，管道化，避免同步等待，不需要保存中间的结果，每次操作简单...

2019-11-30 18:23:45 511

原创 RDD的宽依赖和窄依赖

1、RDD的宽依赖和窄依赖的区别是否有shuffle操作，也叫洗牌操作窄依赖：一对一或者多对一宽依赖：一对多窄依赖可以进行流水线优化，宽依赖不可以优化：fork/join 机制一个作业可以划分成多个阶段每个阶段都是一次fork/join，多次fork/join就是宽依赖一个作业也可以直接一个阶段完成，这就是窄依赖宽依赖：有shuffle操作的时候需要落到...

2019-11-30 15:09:47 1167

原创 Spark-SQL

一、Spqrk-sql 架构二、文件的转化1、DataFrameeg:2、RDD 转换DataFrame思路一：反射机制需要申明 case class文本 ——加载到内存——RDD——DataFrame注意：import spark.implicits._ 这个包支持将一个RDD隐式的转换为一个DataFrame2、使用编程的方式定义RDDs制作临时表：...

2019-11-27 18:00:09 172

原创 kafka之Partition/Repliac的重新分配过程(详解)

Partition/Repliac的重新分配过程1、将Zookeeper中的AR（Current Assigend Replicas）更新为OAR （Original list of replicas for partition ）+ RAR （Reassigned replicas）2、强制更新Zookeeper中的leader epoch，向AR中的每个replica发送LeaderAnd...

2019-11-26 11:52:14 499

原创 python中base64的encode()与decode()

1、encode() 用来将字符串转化为二级制格式的数据，decode() 将二进制的数据转化为字符串import base64host_id = [{'password': 'aUhDSCZXUiN4ITVn', 'host_ip': '0.0.0.0', 'username': 'zbc'}]print(host_id[0]["password"]) # a...

2019-11-22 17:13:33 2739

原创常见os.path，os.join，os.environ 的解释及实例

1、os.path.abspath 与 os.path.diename的解释：import osimport sys#获取文件的的绝对路径print(os.path.abspath(__file__)) # /home/hadoop/python/os_test.py#获取脚本的目录print(os.path.dirname(os.path.abspath(__file__)))...

2019-11-21 16:09:40 1320

原创使用awk 匹配文件中指定行的特定数据之和并判断

获取file_name.txt 文件中X行的第22 和第23个字段的和，并且判断是否大于1000，如果大于1000就输出awk -F "," 'NR==X{if($22+$23>1000) print($22+$23)}' ./file_name.txt

2019-11-14 17:58:07 141

原创 sed进行行首行末字段的追加

一行行首追加字符串sed 's/^/string&/g' test.txt一行行末追加字符串：sed 's/$/string/g'test.txt

2019-10-31 18:03:59 492

原创 mysql修改数据库编码

2019-10-21 15:24:04 135

原创用awk来打印99乘法表

seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'

2019-10-17 16:30:08 629

原创 Shell中EOF的用法

1、指定的环境 >> EOF 查询语句 EOFeg:统计表条数#!/bin/shcount='mysql -uroot -p123456 <<EOFselect count(1) from ANAN;EOF'echo ${count}2、EOF配合cat 来进行追加 eg:#!/bin/bash cd /home/mcmon/UserCutting c...

2019-10-16 17:56:14 1779

原创 RDD-combineByKEY()详解

combineByKey()(createCombiner,mergeValue,margeCombiners,partitioner)最常用的基于key的聚合函数，返回的类型可以和输入的类型不一样许多基于key的聚合函数有用到了它，像groupByKey()combineByKey():遍历partition中的元素，元素中的key，要么之前见过，要么不是如果是新元素，则会使用cr...

2019-10-13 19:26:23 717

原创 Spark(2)-RDD

一、RDD介绍 RDD(Resilient Distributed Datasets) ，弹性分布式数据集，是分布式内存的一个抽象概念，RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和group by）而创建。二、RDD弹性的特点 1. 基于Lineage的高效容错（第n个节点出错，会从第n-...

2019-10-12 15:57:37 226

原创 spark简述

一、SPARK介绍：1、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎2、Apache Spark 所开源的类Hadoop MapReduce的通用并行框架3、简而言之为一个快速且通用的集群计算平台二、SPARK的特点1、spark是快速的 spark扩充了流行的Mapreduce计算模型 spark是基于内存的计算（在计算中将中间产生的计算结果放在...

2019-10-06 19:00:32 365

原创装饰器（未完，差远了）

1、定义：本质是函数，(装饰其他函数)就是为其他函数添加附件的功能，而不改变原函数的结构2、原则：（1）不能修改被装饰的函数的源代码（2）不能修改被装饰的函数的调用方式实现装饰器的知识储备：1、函数即“变量”2、高阶函数把一个函数名当做实参传递给另外一个函数返回值中包含函数名3、嵌套函数...

2019-09-02 18:14:23 88

原创在多台主机中实现免密（大白版）

1.在dos 窗口中书融入命令”ssh-keygen -t rsa“，生成之后会在用户的根目录生成一个 “.ssh”的文件夹（生成过程中一路回车就行）2. cd ~/.ssh3. ssh-copy-id -i id_rsa.pub 用户名@ip免密必须是在同一种用户中进行，ip即为你想免密登录的另一台主机4. 然后就可以免密跳珠另一台主机了注意：如果免密没有成功的话，需要将.ssh文件...

2019-07-04 22:43:33 273

原创在dos中一次性创建多个文件的命令

一次制作10个文件的命令：1.seq -f ‘dir%03g’ 1 10 | xargs mkdir或者是： mkdir $(seq -f ‘dir%03g’ 1 10)#dir001 dir002 … dir0102.printf ‘dir%03d\n’ {1…10} | xargs mkdir或者是：mkdir printf 'dir%03d ’ {1…10}#dir001 ...

2019-07-04 22:26:52 1568

原创 Redis学习（一）

一、Redis 介绍：Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值（value）可以是字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和有序集合(sorted sets)等类型。特点： 1.Redis支...

2019-04-08 23:03:14 178

原创数据分析--numpy的常用函数

Numpy的常用函数1.读取矩阵文件xxx,xxx,xxx,xxxxxx,xxx,xxx,xxxxxx,xxx,xxx,xxx由若干行若干列的数据项组成，每行数据的项数必须相等，每列数据项的类型必须相同，而且数据项之间有明确的分隔符。np.loadtxt(文件路径,delimiter=分隔符字符串, usecols=选择列集, unpac...

2018-12-18 17:42:52 657

原创进程和线程的区别和联系

线程和进程的区别和联系:联系：1.两者都是多任务编程方式,都能使用计算机的多核资源2.一个进程可以创建多个线程分支,两者之间存在包含关系3.进程线程在系统中都有自己特有的属性,ID,代码段,栈区等资源区别：1.进程的创建删除消耗的计算机资源比线程要多2.进程空间独立,数据相互不干扰,有专门的IPC,线程使用全局变量进行通信3.进程是资源分配的基本单位，线程是处理机调度的基本单位，...

2018-12-17 19:31:27 1857

原创 sql联合查询

概述：联合查询效率较高，举例子来说明联合查询：内联inner join 、左联left outer join 、右联right outer join 、全联full outer join 的好处及用法。联合查询效率较高，以下例子来说明联合查询(内联、左联、右联、全联)的好处。表一：userid username password表二：userid username password...

2018-12-17 09:52:09 1509

原创正则匹配ip地址和邮箱

正则表达式匹配ip地址：r'(^([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]\d{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])正则匹配邮箱地址邮箱名称部分为： [a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+){0,4}域名部分： [a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+连起来...

2018-12-14 11:23:02 434

原创 shell编程

1、什么是shell编程 1、解释执行器 1、sh 2、bash ## /etc/passwd查看用户默认bash, sh解释执行器没有高亮显示,也没有自动补全2、shell编程 1、所有的shell程序都是以 .sh 结尾 2、执行方式 1、bash test.sh 2、chmod +x test.sh ...

2018-12-13 19:56:49 231

原创数据分析--数据可视化（Matplotlib）-示例图

1.条形图bar(水平坐标, 绝对高度, 相对宽度, color=颜色, label=图例标签, alpha=透明度)代码： # -*- coding: utf-8 -*- from __future__ import unicode_literals import numpy as np import matplotlib.pyplot as mp # 生成数据 app...

2018-12-11 14:51:02 1523 2

原创数据分析--数据可视化(Matplotlib)

数据可视化(Matplotlib)1.基本绘图plot(水平坐标, 垂直坐标)numpy.linspace（start，stop，num = 50，endpoint = True，retstep = False，dtype = None ）在指定的间隔内返回均匀间隔的数字。返回num均匀间隔的样本，在[ start，stop ] 区间内计算。可以选择排除间隔的终点。参数： sta...

2018-12-11 11:56:02 517

原创 SAS入门基础（常用函数）

⒈算术函数（Arithmetic Functions） ABS(x) ：求x的绝对值。例如ABS(-56.3)=56.3 。 MAX(x1,x2,…,xn) ：求所有自变量中的最大一个。例如MAX(52,15,67,89)=89 。 MIN(x1,x2,…,xn) ：求所有自变量中的最小一个。例如MIN(52,15,67,89)=15 。 MOD(x,y) ：求x除以y的余数。例如M...

2018-12-10 10:07:38 6107

空空如也

空空如也