![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
冰山丶
毕业于山西工商学院,已经有了一年多的工作经验。会javaweb,mysql,ssm框架,redis缓存,rabbitmq等。
展开
-
hive知识点二
hive的查询SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list|[DISTRIBUTE BY col_list] [SORT BY...原创 2019-06-20 17:34:46 · 147 阅读 · 0 评论 -
kafka的相关知识和flume的整合
关于kafka的相关知识kafka是属于点对点模式的(一对一,消费者主动拉取数据,数据消息被消费后清除)消息对列的好处解耦冗余扩展性灵活性峰值处理能力可恢复性顺序保证性缓冲异步通信kafka是一个分布式的消息对列。kafka对消息保存是根据topic进行归类,发送消息者称为producer,消费笑着者称为consumer,此外kafka集群有多个kafka实例组成,每...原创 2019-07-20 16:09:16 · 79 阅读 · 0 评论 -
flume的数据采集的相关知识和配置
Flume的相关知识产生背景:因为各种数据的格式不能统一,所以flume采集工具就产生了。比如csv,tsv,json,压缩数据等等flume的组件:agent 用户代理 source获取数据包装成的数据就是events channel处理数据 sink存储数据event是flume数据传输的基本单元完成数据收集需要在使用端有一个agentflume的安装下...原创 2019-07-19 09:45:10 · 296 阅读 · 0 评论 -
storm的相关知识
Storm的流式计算storm和sparkstreaming的对比storm非常严格的一条数据一次计算,流式处理sparkstreaming 一批数据算一次(每批次的时间非常短,用户可以根据自己的想法指定)把数据流按照时间端切分成许多离散的RDD然后SparkCore执行计算 现阶段用的比较多都属于流式处理在flink的世界里,所有的计算都是流式处理,把离线处理看成是流式处理的一...原创 2019-07-16 14:26:43 · 67 阅读 · 0 评论 -
spark的相关调优方案
spark的调优开发的调优避免创建重复的RDD:如果需要对同一个文件进行多次计算最好是只读一次尽可能复用同一个RDD对多次使用的RDD进行持久化cache 和persist尽量避免使用shuffle类的算子shuffle操作有一个特点就是上一个阶段的操作执行完下一个阶段才能执行reduceBykey,sortBy,distinct,groupBy使用map-side(co...原创 2019-07-11 16:46:08 · 161 阅读 · 0 评论 -
sparkstreaming的相关知识和案例
sparkstreaming的相关知识storm,sparkstreaming,flink对比名字容错性吞吐率延迟消费语义strom低低延迟非常低至少一次(借用tridentAPI也可以实现有且仅有一次)sparkstreaming很高很高延迟高有且仅有一次flink很高很高延迟一般有且仅有一次特点容易使用支持多...原创 2019-07-18 09:31:09 · 120 阅读 · 0 评论 -
spark-sql的相关知识
关于sparksql的知识sparksql的前生是shar。2014年9月发布1.1hive和sparksql是同样类型的组件。关于sparksql的编程入口 //idea中 val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some....原创 2019-07-15 11:19:16 · 153 阅读 · 0 评论 -
spark的部分算子的使用(二)
saprk的部分算子(二)map,foreach,filte的使用 val sparkConf: SparkConf = new SparkConf() sparkConf.setMaster("local") sparkConf.setAppName("RDD_Test04") val sparkContext: SparkContext = new SparkContex...原创 2019-07-08 14:30:52 · 90 阅读 · 0 评论 -
关于spark的部分算子(一)
spark的RDD算子cartesian笛卡尔积 val conf: SparkConf = new SparkConf() conf.setAppName("MyPartition") conf.setMaster("local") val context:SparkContext = new SparkContext(conf) va...原创 2019-07-07 18:58:30 · 141 阅读 · 0 评论 -
Hbase的相关知识
hbase的相关知识点1. 版本的兼容性问题参考官网点击进入2. hbase的安装 版本下载镜像点击进入解压文件: tar -xzvf 你的压缩包配置环境变量:vim /etc/profileexport HBASE_HOME=你的hbase的解压的路径export PATH=PATH:PATH:PATH:HBASE_HOME/bin修改完成之后source /etc/pr...原创 2019-06-22 18:30:46 · 147 阅读 · 0 评论 -
关于hive的一些学习知识
hive的架构用户接口层:命令行客户端最常用的方式元数据库:保存元数据一般情况下会选择关系型数据库thift:用来提供一个跨语言的服务,hive数据仓库。驱动层: 1.驱动器:驱动器驱动整个sql的运行,sql语句解析为mr程序,最终将mr程序提交给hadoop 2.编译器:将sql语句通过hive自带map reduce模板编译成mr程序,首先生成一个逻辑执行计划...原创 2019-06-16 17:29:32 · 168 阅读 · 0 评论 -
sparkstreaming整合kafka
sparkstreaming整合kafka完成大致的流式计算的架构离线 flume--->hdfs--->mapreduce/hive--->sqoop--->hbase/mysql/redis/hdfs流式 flume--->kafka--->storm/sparkstreaming--->mysql/redis/hbase...原创 2019-07-21 11:19:09 · 220 阅读 · 0 评论