大数据
zsj.python之路
总结是学习 最好的回顾方式
展开
-
Dstream有状态转化操作(updateStateByKey)
#!/usr/bin/evn python3from __future__ import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextimport pymysqlif __name__ == "__main__": i...原创 2019-12-22 19:16:02 · 665 阅读 · 0 评论 -
Kafka作为源数据进行数据流计算
#!/user/bin/env python3from __future__ import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextfrom pyspark.streaming.kafka import KafkaUtils...原创 2019-12-22 14:55:21 · 380 阅读 · 0 评论 -
使用spark sql 读写数据库(python实现)
#!/usr/bin/evn python3from pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessionspark = SparkSession.builder.conf...原创 2019-12-17 21:57:06 · 2143 阅读 · 2 评论 -
Spark排序求Top值
from pyspark import SparkContext, SparkConfconf = SparkConf().setMaster('local').setAppName('ReadHBase')sc = SparkContext(conf=conf)lines = sc.textFile("D://tydic_study\spark//num.txt") # 存放文件的路径...原创 2019-12-14 18:05:41 · 1174 阅读 · 1 评论 -
用python实现Hbase的读写操作
读取Habse中的数据from pyspark import SparkContext, SparkConf# spark集群的地址conf = SparkConf().setMaster('local').setAppName('ReadHbase')sc = SparkContext(conf=conf)# 配置 连接参数host = 'localhost'table = '...原创 2019-12-13 17:54:56 · 1850 阅读 · 0 评论 -
HBase简介
一、HBase在hadoop生态圈中的位置二、HBase简介1、组成HBase表由行键、列族、列限定符、时间戳组成2、特点(1)每个值都是未经解释的字符串,没有数据类型(2)用户在表中存储数据,每一行都有一个可排序的行键和任意多的列(3)表在水平方向上由一个或者多个列族组成,一个列族可以包含多个列,同一 个列族里面的数据存储在一起(4)列族支持动态扩展,可以很轻...原创 2019-12-12 16:51:10 · 498 阅读 · 1 评论 -
hadoop单机分布式和伪分布式搭建教程
hadoop安装教程参考:厦大教授-林子雨http://dblab.xmu.edu.cn/blog/install-hadoop/原创 2019-12-05 21:32:35 · 201 阅读 · 0 评论 -
经典RDD转化案例
经典RDD转化案例:原创 2019-12-05 16:00:20 · 205 阅读 · 0 评论 -
RDD的运行原理
RDD的执行过程(1)RDD读入外部数据源进行创建(2)RDD经过一系列的转化(Transformation)操作,每一次会产生不同的RDD,供给下一个转化操作使用(3)最后一个RDD经过”动作“操作进行转化,并输出到外部数据源这一系列的操作称为一个Lineage(血缘关系),即DAG拓扑排序的结果优点:惰性调用,管道化,避免同步等待,不需要保存中间的结果,每次操作简单...原创 2019-11-30 18:23:45 · 513 阅读 · 0 评论 -
RDD的宽依赖和窄依赖
1、RDD的宽依赖和窄依赖的区别是否有shuffle操作,也叫洗牌操作窄依赖:一对一 或者 多对一宽依赖:一对多窄依赖可以进行流水线优化,宽依赖不可以优化:fork/join 机制一个作业可以划分成多个阶段 每个阶段都是一次fork/join,多次fork/join就是宽依赖一个作业也可以直接一个阶段完成,这就是窄依赖宽依赖:有shuffle操作的时候 需要落到...原创 2019-11-30 15:09:47 · 1171 阅读 · 0 评论 -
Spark-SQL
一、Spqrk-sql 架构二、文件的转化1、DataFrameeg:2、RDD 转换DataFrame思路一:反射机制 需要申明 case class文本 ——加载到内存——RDD——DataFrame注意:import spark.implicits._ 这个包支持将一个RDD隐式的转换为一个DataFrame2、使用编程的方式定义RDDs制作临时表:...原创 2019-11-27 18:00:09 · 174 阅读 · 0 评论 -
kafka之Partition/Repliac的重新分配过程(详解)
Partition/Repliac的重新分配过程1、将Zookeeper中的AR(Current Assigend Replicas)更新为OAR (Original list of replicas for partition )+ RAR (Reassigned replicas)2、强制更新Zookeeper中的leader epoch,向AR中的每个replica发送LeaderAnd...原创 2019-11-26 11:52:14 · 503 阅读 · 0 评论 -
RDD-combineByKEY()详解
combineByKey()(createCombiner,mergeValue,margeCombiners,partitioner)最常用的基于key的聚合函数,返回的类型可以和输入的类型不一样许多基于key的聚合函数有用到了它,像groupByKey()combineByKey():遍历partition中的元素,元素中的key,要么之前见过,要么不是如果是新元素,则会使用cr...原创 2019-10-13 19:26:23 · 719 阅读 · 0 评论 -
Spark(2)-RDD
一、RDD介绍 RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建。二、RDD弹性的特点 1. 基于Lineage的高效容错(第n个节点出错,会从第n-...原创 2019-10-12 15:57:37 · 228 阅读 · 0 评论 -
spark简述
一、SPARK介绍:1、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎2、Apache Spark 所开源的类Hadoop MapReduce的通用并行框架3、简而言之为一个快速且通用的集群计算平台二、SPARK的特点1、spark是快速的 spark扩充了流行的Mapreduce计算模型 spark是基于内存的计算(在计算中将中间产生的计算结果放在...原创 2019-10-06 19:00:32 · 368 阅读 · 0 评论