大数据系列
基本的大数据思路和工具使用
武念
从事互联网工作,对数据采集、人工智能、大数据、金融资本等信息感兴趣,欢迎沟通交流!致力于提高生产力,与君共勉!
展开
-
flink批量读取es
Flink实时消费kafka数据,数据经过处理,富化、清洗等操作,写入ES。在流式计算中,此场景十分常见。本文采用ES的批量操作BulkProcessor方式,此方式使用的是TransportClient,基于Tcp协议;而rest方式采用的是restClient,基于http协议,并不能保证结果的准确性。......转载 2022-07-20 00:15:39 · 1430 阅读 · 0 评论 -
java flink 读取ES
/也可以选择setScrollIds()将多个scrollId一起使用。"*********************查询es结果""*********************查询es结果"*分页查询应设备应用安装列表-使用游标。2运行环境flinkstandalone模式。//查询数据searchResponse。*阿里云服务器搭建的ES服务。2、游标方式读取es。......转载 2022-07-20 00:22:10 · 702 阅读 · 0 评论 -
使用Spark SQL的临时表解决一个小问题
上面代码里的ids,就是我们需要转化成内存表的数据,然后需要转成Seq,并生成RDD,再通过RDD转成DataFrame,注意如果要使用DF,需要导入importspark.implicits._包下面的函数,这样就能隐式的直接转成DF,在转成DF的同时,我们给数据指定了列名叫id,这里如果有多列,后面可以继续逗号分隔,添加多个列名,最终我们给它注册成了内存临时表,然后在下面的语句中就可以直接使用hive里面存在的表与内存表进行join,最终我们打印一下成功join后数量,可以验证下程序是否正常运行。...转载 2022-07-20 00:22:26 · 1200 阅读 · 0 评论 -
SparkSQL overwrite插入Hive表数据重复问题
4)当最后一个执行完成的Spark插入任务结束后,此时Hive路径下已经移动过来多个任务的数据文件,由于已经没有正在执行的Spark写任务,因此删除_temporary目录成功,创建元数据成功,结果就是这个元数据对应了该Hive路径下所有版本的数据文件。Hive在写入数据的时候也会创建临时目录,但是在非动态分区的写入模式下,Hive创建的临时目录是在具体的分区路径下,比如/user/warehouse/dt=20201022,因此各个分区的写入任务是可以同时并行的。有两组文件,每组大小是一样的。......转载 2022-07-20 00:22:43 · 1990 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
本文中的代码基于Spark-1.6.2的文档实现。转载 2022-07-20 00:22:56 · 3911 阅读 · 0 评论 -
解决Spark 读取 Elasticsearch的array类型报错的问题
除此之外,如果在es插入数据时,如果存在字段有空对象{}或空集合[]的时,需要注意,可能会导致报错。存储的半结构化的数据是,会遇到需要获取array类型的数据。指定array类型,防止报错。转载 2022-07-21 00:39:08 · 412 阅读 · 0 评论 -
python使用kafka生产和消费案例
// confluent_kafka 使用案例import jsonfrom confluent-kafka import Producertopic_name = ""conf = {// 集群,或者服务器名"bootstrap.servers":"",// 安全隧道"security.protocol":"sasl_plaintext",//加密方式"sasl.mechanism":"SCRAM-SHA-256"// 账号密码"sasl.username":"","sasl.原创 2022-05-01 22:56:01 · 2590 阅读 · 0 评论 -
win10 安装elasticsearch 需要注意的问题
本地使用es,安装存在的问题原创 2022-04-04 17:08:20 · 1420 阅读 · 0 评论 -
spark使用_关于文件读取和保存
读取文件# 读取文件 csv|txt|其他文本文件sc.textFile(文件名)sc.wholeTextFile(文件名)# 存文件sc.savaAsText(文件名)json文件读取读取json的方法,集成FlatMapFunction接口# ParseJson.java# 读取json文件import com.fasterxml.jackson.databind.ObjectMapper;import org.apache.spark.api.java.function.Fla原创 2022-01-18 00:10:05 · 2022 阅读 · 0 评论 -
maven中jar加载慢解决办法以及安装包不匹配问题
设置maven代理添加下列xml到idea安装目录下的 D:\softwore\IntelliJ IDEA 2021.2.3\plugins\maven\lib\maven3\conf\settings.xml <mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven</name> <url>http原创 2021-11-16 23:13:26 · 161 阅读 · 0 评论 -
spark相关的算子(未完待续)
spark算子与案例转化算子执行算子转化算子map(func)# java版本RDD.map(new function<String,Tuple2<String,Integer>>(){ @overrid public Tuple2<String,Integer> call(String v1) throws Exception{ return new Tuple2<>(v1,1) }})# scala版本RDD.map(x=&g原创 2021-11-05 23:36:02 · 1105 阅读 · 0 评论 -
大数据学习笔记(scala和java)
wordcount两个版本scalajavascalaimport org.apache.spark.{SparkConf, SparkContext}object current_01{ def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("My App") val sc = new SparkContext(conf) val原创 2021-11-04 23:14:18 · 668 阅读 · 0 评论 -
hive脚本执行(python,shell)
python执行hive脚本#!/usr/bin/python#-*-coding:utf-8 -*-import subprocessimport tracebacksql = """select * from dim_table.tests_table where day="2021-10-12" limit 500"""cmd = 'hive -e """'+sql.replace('"', "\'")+'"""'print(cmd)try: p = subprocess原创 2021-11-01 23:31:31 · 1768 阅读 · 0 评论 -
CAP理论及一致性原则(ZooKeepe版)(未完待续)
CAP理论浅见简介zookeepr 在cap中类型简介CAP理论告诉我们,一个分布式系统不可能同时满足以下三种一致性(C:Consistency)可用性(A:Available)分区容错性(P:Partition Tolerance)三个基本需求中最多只能同时满足其中的两项,P是必须的(必然存在谬误),因此往往选择就在CP或者AP中。zookeepr 在cap中类型zookeeper 是个cp类型的。因为不是完全可用,当zookeeper失去领导者的时候,此时是不可用的。...原创 2021-10-31 02:37:55 · 93 阅读 · 0 评论 -
phoenix创建hbase表格学习(每日小更)
phoenix案例案例1(创建电商用户浏览记录表格)未完待续案例1(创建电商用户浏览记录表格)# 创建电商用户浏览记录表格create view "event"(rowey varchar primary key,"log"."en" varchar,"log"."var" varchar,"log"."p1" varchar,"log"."sdk" varchar,"log"."b_rst" varchar,"log"."b_iev" varchar,"log"."u_ud" var原创 2021-10-28 22:22:22 · 298 阅读 · 0 评论 -
大数据平台启动hadoop脚本
启动hadoop HA未完待续#!/bin/bashecho ********zookeeper启动***********ssh "root@nodez001" "zkServer.sh start"ssh "root@nodez002" "zkServer.sh start"ssh "root@nodez003" "zkServer.sh start"echo ********zookeeper成功***********echo ********journalnode启动**********原创 2021-10-27 23:38:05 · 153 阅读 · 0 评论 -
flume安装教程(欢迎指教)
flume 安装1.下载并解压 apache-flume-1.6.0-bin.tar.gz2.进入conf3.修改环境变量4.重载环境变量5.检验flume 状态未完待续1.下载并解压 apache-flume-1.6.0-bin.tar.gztar -zxvf apache-flume-1.6.0-bin.tar.gz2.进入confcd apache-flume-1.6.0-bin/confcp flume-env.sh.template flume-env.sh## 修改flume-en原创 2021-10-27 23:34:49 · 179 阅读 · 0 评论 -
服务器上安装ES
ES安装使用前提1.修改es/bin2.修改 es/config/jvm.options3.修改 es/config/elasticsearch.yml4.修改环境变量5.增加线程6.增加最大虚拟机内存区域7.需要手动执行 (暂时先不执行等分发后在一起执行)8.分发后其他节点修改9.创建用户设置密码(三台都要)10.修改文件所属11.切换用户es并启动12.访问13.其他使用前提三台机子名字分别为nodez001,nodez002,nodez0031.修改es/bin## 添加一行JAVA_HOM原创 2021-10-26 21:24:37 · 520 阅读 · 0 评论 -
大数据hbase安装流程
hbase 安装使用前提1.hbase下载 并解压2.修改hbase配置2.1修改hbase环境变量2.2.修改hbase-site.xml2.3.修改regionservers2.4.添加备用节点2.5.拷贝hadoop配置 ./ 即 /opt/bdsp/hbase3.分发到其他节点4.修改环境变量4.1重载环境变量5.分发并重载环境变量使用前提- hbase 和 hadoop 的绝对路径为 /opt/bdsp/- zookeeper已经安装,若没有安装,请调整hbase环境变量HBASE_MANA原创 2021-10-25 22:20:50 · 201 阅读 · 0 评论 -
大数据hdfs安装基础步骤(centos系列)
yum 安装pingyum install iputils -y安装jdk启动zookeeperzkServer.sh start查看zookeeper状态zkServer.sh statushdfs name节点规则话hdfs namenode -format启动hdfsstart-dfs.sh验证时间同步ntpdate cn.ntp.org.cn缺失时间同步方法安装yum install -y ntp免密操作ssh-keyge.原创 2021-10-24 20:22:34 · 240 阅读 · 0 评论 -
大数据系列之一hadoop
hadoop 基本认识hadoop 基本框架基本组件介绍基础使用方法写入流程写入流程存在问题hadoop 基本框架#mermaid-svg-8DfZzBUClxMVeeeM .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-8DfZzBUClxMVeeeM .label text{fill:#333}#merm原创 2021-09-01 23:41:45 · 104 阅读 · 0 评论 -
wordcount代码(spark,flink_streaming,flink_batch)
package com.xxx.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WorkCount extends App{ private val conf = new SparkConf() conf.setMaster("local").setAppName("wc") private val sparkContext = new SparkCo原创 2021-09-01 07:52:38 · 97 阅读 · 0 评论 -
hive内部表和外部表的区别和理解
1.内部表create table test1 (name string, age string) location '/input/table_data';# hive 默认创建的内部表。# 会在hdfs位置/input/table_data 上创建一个test表且作为数据存储位置load data inpath '/input/data' into table test1;# 加载/input/data 的数据到 test1表上,即将数据从/input_data/data转移到/input/原创 2021-09-01 07:50:42 · 211 阅读 · 0 评论 -
hive SQL COALESCE 函数
COALESCE是一个函数, (expression_1, expression_2, …,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。比如我们要登记用户的电话,数据库中包含他的person_tel,home_tel,office_tel,我们只要取一个非空的就可以,则我们可以写查询语句select COALESCE(person_tel,home_tel,office_tel) as contact_number fr原创 2021-05-22 09:27:00 · 218 阅读 · 0 评论