陈大豆-CSDN博客

原创 Java中equal和==区别

Java 中==和equals的区别

2022-06-19 15:44:06 511

原创 spark连接hive

1.pom文件需要加<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.2.1</version>  </depende

2021-07-25 20:46:02 603

原创 Caused by: java.lang.NoSuchFieldError: METASTORE_CLIENT_SOCKET_LIFETIME

前言：今天用spark 连接hive不停的报错，甚是无语最后捣鼓了半天发现将pom.xml中的 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.1.0</version><!-- <scope>provide

2021-03-21 23:28:47 1394 1

文章目录前言一、spark是什么？1.定义2.历史二、spark的内置模块1.具体展示2.具体介绍三.spark特点前言最近感觉自己无所事事，有点烦，烦躁的时候，搞点事做做把~，然后呢，就来搞事了。一、spark是什么？1.定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2.历史2009年诞生于加州大学伯克利分校AMPLab，项目采用Scala编写。2010年开源;2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目。二、spark的内置模

2021-02-18 20:47:49 438

转载 spark应用中jackson版本冲突的解决

https://segmentfault.com/a/1190000016412887

2021-01-28 23:24:02 1008

原创 spark需要引用的包

pom.xml如下显示<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-

2021-01-28 23:04:03 544

转载 hive on spark

https://blog.51cto.com/14048416/2392853

2021-01-27 23:49:10 215 1

转载 gitlab搭建

https://www.cnblogs.com/zhangycun/p/10963094.html

2020-12-31 13:46:42 178

转载虚拟机扩容

https://www.cnblogs.com/youngchaolin/p/11478740.html

2020-12-27 21:54:19 178

转载 Hive 去除 CSV 字段中的双引号

https://feichashao.com/hive_csv/

2020-12-24 15:15:11 1849

转载 [亲身实践]pyspark读取hive中的表的两种方式

https://blog.csdn.net/m0_46651978/article/details/111618085

2020-12-24 12:12:25 738

原创 1.linux下安装hadoop伪分布式环境（新）

前言：hadoop分为单机，伪分布式，完全分布式1.单机(非分布式)模式　　这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统，一般仅用于本地MR程序的调试2.伪分布式运行模式　　这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)　　请注意分布式运行中的这几个结点的区别：从分布式存储的角度来说，集群中的结点由一个N

2020-12-12 13:53:53 262

原创 maven库

https://mvnrepository.com/

2020-12-09 21:58:44 231

原创 mysql中函数，hive中函数，scala中函数

1.mysql中所有函数mysql中函数2.hive中函数hive中函数3.scala中所有函数scala中所有函数

2020-11-30 19:34:55 169

转载泛型类和泛型方法

https://www.cnblogs.com/xy-ouyang/p/10539999.html

2020-11-21 00:32:21 229

原创 pycharm豆瓣源报错以及源设置

1.第一步：右击左上角file，并找到setting2.第二步：如图点击3.第三步：修改一下部分options:添加（一定要加，这步是关键）--trusted-host pypi.douban.com源地址为：豆瓣源 http://pypi.douban.com/simple/4.第四步：点击Install Package就可以了...

2020-10-29 15:44:02 2392

转载 spark中稀疏向量转密集向量

在通过VectorAssembler将多列特征值和并后，由于spark存储格式的原因，会将含有很多0值的一行转为稀疏向量sparseVector进行存储。然而在后续计算过程中，我们需要的是密集向量，所以需要将稀疏向量转为密集向量。1.先通过VectorAssembler将需要的列转成向量列2.转为RDD后map操作，将feature列中的元素转为DenseVector在这里插入图片描述...

2020-10-17 17:16:10 1143 1

原创 scala中oop的学习

文章目录一、面向对象的基本概念二、什么是类三.类成员访问修饰符四.类的定义4.1构造器4.2类的实例化五.类的继承六.抽象类七.单例对象（object）八.伴生8.1伴生类与伴生对象九.特质（trait）十.混入特质10.1动态混入特质十一.特质与抽象类的选择十二.内部类十三.样例类（case class）一、面向对象的基本概念类（class）抽象类（abstract class）单例对象（object）特质（trait）样例类（case class）示例：pandas 是基于NumPy 的

2020-09-26 14:01:24 232

原创 scala学习

文章目录总结前言1.概述2.下载和安装3.scala中常量与变量3.1常量3.2变量4.常用的数据类型5.字符串插值6.scala条件控制以及返回值6.1if语句6.2scala中任何表达式的形式都需要返回值7.scala循环控制7.1while循环总结提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。前言没有什么特别的前言1.概述scala是一门多范式的编程语言，也是一种类似jav

2020-09-26 13:17:05 1342

转载 shell中＞和＞＞和＜和＜＜的区别

https://www.jianshu.com/p/70136d731ca0

2020-09-20 22:14:21 4647 1

原创 Shell脚本中判断字符串是否被包含在内，判断文件或者文件夹是否存在

1、字段 grep：案例： str1="abcdefgh"str2="def"result=$(echo $str1 | grep "${str2}")if [[ "$result" != "" ]];then echo "包含"else echo "不包含"fi2. 字符串运算符 =~:案例：str1="abcdefgh"str2="def"if [[ $str1 =~ $str2 ]];then echo "包含"else echo "不包含"

2020-09-20 21:53:37 4208

原创关于Scala中正则表达式的几种用法

Scala中正则表达式的几种用法正则表达式是一种针对于字符串的操作，主要功能有匹配、切割、替换和提取的作用，在Scala中正则也是被频繁使用的方法（regex.r表示为正则表达式）1、匹配Scala支持多种正则表达式解析，主要包括下面三种：String.matches()方法正则表达式模式匹配scala.util.matching.Regex API//String.matches val s = "!123" println(s.matches("![a-zA-z0-9]{3

2020-09-19 00:45:22 915

原创 scala函数记忆思维导图

大概整理了一下函数，方便记忆

2020-09-12 19:16:02 199

原创同步代码块和同步方法

package cn.test.dxc.syc;public class huizong { //同步方法默认用this或者当前类class对象作为锁 public synchronized void methodA(){//默认当前对象 for (int i = 0; i < 5; i++) { System.out.println(Thread.currentThread().getName()+"方法A愉快的打印了"+i);

2020-09-08 19:33:54 192

原创多线程并发处理数据

多线程并发处理数据简单的demopackage cn.test.dxc;import java.util.concurrent.Callable;import java.util.concurrent.ExecutionException;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class test { static int[] arr = n

2020-09-07 17:10:03 282

原创 linux下一键起zookeeper和hadoop集群

最近经常频繁的启动和关闭hadoop集群，每次都要操作几台机器，太烦了，因为写了一个文件一键开启和关闭集群。首先创建了一个demo.sh 文件，修改文件的权限，能够让文件可以被执行。文件中的内容为：#!/bin/bashfor i in {"vbserver","vbserver01","vbserver02","vbserver03"};do echo "-----$1 $i zookeeper-------" ssh $i "source /etc/profil

2020-09-05 16:34:00 235

原创正则表达式规则

参考https://www.jb51.net/tools/zhengze.html这篇文章仔细读完，受益匪浅。

2020-09-05 16:22:59 157

原创 15.linux下hive和zeepline安装

前提：hive配置的时候需要在mysql已经启动，和Hadoop集群已经启动的情况下才可以配置，因为需要这两个的依赖#---------------------配置-----------------------#[root@vwmaster conf]# pwd/opt/bigdata/hadoop/hive110/conf# 新建hive-site.xml文件# ------------ thrift => rpc -----------------## ipc => 同

2020-08-29 23:09:37 707

原创 hiveql函数整理

以后继续完整这些函数。

2020-08-29 22:09:16 168

原创 14.linux下zooKeeper的搭建

2020-08-22 20:54:46 158

原创 13.hadoop集群的搭建

################ 修改目录权限 ####################[root@vwmaster hadoop]################# JDK ####################[root@vwmaster hadoop260]# vi etc/hadoop/hadoop-env.shexport JAVA_HOME=/opt/bigdata/java/jdk180################ hadoop fs 文件系统 ################

2020-08-22 20:52:58 185

空空如也

空空如也