自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xm_QUQ的博客

个人学习总结

  • 博客(56)
  • 收藏
  • 关注

原创 django.db.utils.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual tha

django.db.utils.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL s erver version for the rig'SET SESSION TRANSACTION ISOLATION LEVEL READ...

2019-09-30 17:00:06 5645

原创 ImportError: cannot import name 'NodeSelector' from 'py2neo'

这里可能是版本问题,可以先看下自己装的py2neo是哪个版本的,py2neo V3有 NodeSelector这个函数,py2neoV4没有该函数了!换成NodeMatcher这个了替换以后这个问题就解决了...

2019-09-30 16:48:58 3984

转载 hive导入表中文乱码

  平时我们在将外部文件导入到hive表的过程中,要是原文件包含有中文的,导入就经常会出现乱码,这个时候我们可以事先把文件编码格式修改为utf8后再导入.1. 查看文件的当前的编码[hadoop@master exter_data]$ file --mime-encoding provcode.TXTprovcode.TXT: iso-8859-12. 转换为utf8格式iconv -...

2019-08-28 19:07:27 1253

转载 Spark Streaming 检查点,何时启用检查点,如何配置检查点

Spark Streaming编程指南 手册检查点  流应用程序必须全天候运行,因此必须能够适应与应用程序逻辑无关的故障(例如,系统故障,JVM崩溃等)。为了实现这一点,Spark Streaming需要将足够的信息检查到容错存储系统,以便它可以从故障中恢复。检查点有两种类型的数据。元数据检查点 - 将定义流式计算的信息保存到容错存储(如HDFS)。这用于从运行流应用程序的驱动程序的节点...

2019-08-11 21:52:15 995

原创 kafla安装:伪分布式的方式安装kafka

伪分布式的方式安装kafka  启动3台kafka Brokers安装过程1. 上传解压2. 配置以下配置都在此目录下 config/server.properties配置唯一标识符  broker.id=9092配置Broker端口  port=9092配置Broker运行主机名称host.name=bigdata-hpsk01.huadian.com 配置日志文件...

2019-08-10 23:36:44 410 1

转载 scala中常用特殊符号

参考资料:scala中常用但其他语言不常见的符号含义Scala学习六:Scala中的特殊字符【Scala 一】Scala各种符号的含义=>(匿名函数)参考文档:scala => 用法 匿名函数=>  匿名函数,在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式:(形参列表) => {函数体}所以,=> 的作用就是创建一个...

2019-08-08 21:39:53 487

转载 DagScheduler 和 TaskScheduler

DagScheduler 和 TaskScheduler 的任务交接  spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler,  DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段),  对于划分出来的每个 stage 都抽象为一个 TaskSet任务集 交给TaskScheduler 来进行进一步的...

2019-08-05 22:25:21 455

转载 RDD的依赖关系,以及造成的stage的划分

数据结构RDD(类比于Scala中List)  数据存储在内存中,分区存储(partition)  对数据的处理:调用集合中高阶函数  shuffleRDD之间是有依赖的例如:stage1->stage2中那一个大的箭头就是一次shuffle其中stage1中又有小的及部分组成  宽依赖:产生shuffle,数据会存储在磁盘中    reduceByKey,groupBy...

2019-08-02 22:17:53 371

原创 spark简述,安装

spark框架是如何处理数据的Hadoop MapReduce框架  并行计算的思想、分而治之的思想scala集合高阶函数  处理数据的思想  将 要分析的数据放到集合中去,然后调用集合的高阶函数处理数据spark是什么  统一分析引擎为海量数据处理  统一:什么样的数据都能处理分析,什么类型的数据都可以处理,实时,离线,流式都可以MapReduce map,reduce函数...

2019-08-01 23:20:16 186

原创 JDK8新特性

JDK8新特性可变参数 //可变参数和其他类型参数的传参 public static void method2(String str,int ... num){ //[I@4554617c System.out.println(num); for (int i : num) { System.out.pri...

2019-07-26 22:55:21 189

转载 完整教程--idea使用git进行项目管理:安装,windows配置git SSH服务,IDEA配置

原文地址:https://www.cnblogs.com/java-maowei/p/5950930.html目录第一部分:安装第二部分: windows配置git SSH服务第三部分: 配置全局用户名和邮箱第四部分: IDEA 配置...

2019-07-25 20:00:51 265

转载 java操作redis的五种数据类型

https://redis.io/documentation一、项目必备Jar包 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</ver...

2019-07-23 22:07:42 460

原创 zookeeper的单机安装,伪分布式安装

一、zookeeper的安装(单机)1.上传,解压上传: rz zookeeper-3.4.5-cdh5.7.6.tar.gz解压:tar -zxvf zookeeper-3.4.5-cdh5.7.6.tar.gz -C /opt/modules/2.修改配置文件在/opt/modules/zookeeper-3.4.5-cdh5.7.6/conf目录下为了方便,将文件名改了一下:m...

2019-07-23 21:08:18 156

转载 分布式CAP定理,为什么不能同时满足三个特性?

  在弄清楚这个问题之前,首先了解一下什么是分布式的CAP定理。  根据百度百科的定义,CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得。一、CAP的定义Consistency (一致性):  “all nodes se...

2019-07-22 22:39:30 158

原创 Redis安装,配置,启动,客户端连接,基本测试

一、redis安装1.Linux平台下安装C语言编辑环境sudo yum install gcc-c++2.上传解压上传: rz redis-3.2.5.tar.gz解压: tar -zxvf redis-3.2.5.tar.gz -C /opt/cdh5.7.6/3.编译安装编译要进入:cd redis-3.2.5目录下指定路径:make PREFIX=/opt/cdh5....

2019-07-19 18:17:58 562

转载 什么是SPU、SKU、SKC、ARPU

  首先,搞清楚商品与单品的区别。例如,iphone是一个单品,但是在淘宝上当很多商家同时出售这个产品的时候,iphone就是一个商品了。  商品:淘宝叫item,京东叫product,商品特指与商家有关的商品,每个商品有一个商家编码,每个商品下面有多个颜色,款式,可以有多个SKU。SPU = Standard Product Unit (标准化产品单元)  SPU是商品信息聚合的最小单...

2019-07-18 20:41:49 3222

转载 Hive面试题:Hive分区表和分桶表的区别

分区在HDFS上的表现形式是一个目录, 分桶是一个单独的文件分区: 细化数据管理,直接读对应目录,缩小mapreduce程序要扫描的数据量分桶:  1、提高join查询的效率(用分桶字段做连接字段)      2、提高采样的效率作者:谦卑t来源:CSDN原文:https://blog.csdn.net/qq_42246689/article/details/84671926版...

2019-07-16 00:08:36 951

转载 Hive---分区表和分桶表

分区表和分桶表区别如下: 1、分区使用的是表外字段,需要指定字段类型;分桶使用的是表内字段,已经知道字段类型,不需要再指定。 2、分区通过关键字partitioned by(partition_name string)声明,分桶表通过关键字clustered by(column_name) into 3 buckets声明。 3、分区划分粒度较粗,分桶是更细粒度的划分、管理数据,可以对表进行...

2019-07-16 00:04:50 2243

原创 JDK脚本实现:执行脚本自动安装JDK

给脚本修改可执行权限

2019-07-14 19:47:15 1033

原创 Hive分区表加载数据的两种方式:本地加载数据,直接使用put上传,修复元数据,添加元数据(十一)

分区字段:月份,城市1. 分区表(load)1. 创建一个分区表CREATE TABLE tb_bj( name STRING, house_type STRING, house_area STRING, region STRING, floor_str STRING, direction STRING, total_price STRING, square_...

2019-07-09 20:51:18 4078 1

原创 Hive自定义函数---实例流程

需求:统计votetools字段中工具的数量效果:select ntools,count_tools_length(votetools) from tb_count;自定义实现函数编码要求(1)继承于UDF类(2)方法规定 ① Implement one or more methods named evaluate ② evaluate should never be a vo...

2019-07-08 20:45:43 588

原创 安装cdh平台:安装hadoop,安装hive(十)

一、安装前准备在opt目录下再建一个包cdh5.7.6:sudo mkdir -p cdh5.7.6修改权限sudo chown huadian:huadian cdh5.7.6/3.在cdh7.5.6目录下重新安装hadoop和hive(数据库名字要改)上传所需要的工具:二、安装hadoop1.使用rz命令上传按照所需版本上传:rz2.解压tar -zxvf hado...

2019-07-07 21:45:29 885

原创 大数据----------Hive:安装Mysql,准备工作,安装 Hive,和Mysql的对比,使用Mysql存储元数据(九)

一、安装Mysql(1)检查是否已经装了MySql rpm -qa|grep mysql 使用以下命令卸载,卸载完再用上面命令检查一下 rpm -e --nodeps xxxxxxxx(2)安装MySql 通过yum安装MySql yum install -y mysql-server(3)启动MySql服务 MySQL的服务名:       < 5.5 版本 使用 m...

2019-07-06 22:42:23 355 2

原创 大数据-----------shuffle过程的优化:combiner合并,compress压缩(五)

shuffle过程的优化combiner合并在map阶段提前进行了一次合并,一般来讲等同于提前执行了reduce操作好处:可以降低reduce的压力在map阶段的进行合并是并行的(分布式的)注意:并不是所有的程序都适合combiner:测试设置combiner之和和之后的结果要一致,不能因为性能优化导致结果不对,A + (B +C) = (A+B) + Ccompress压...

2019-07-05 22:46:50 1978 1

原创 大数据-----------分布式部署:NTP时钟同步(八)

NTP时钟同步Linux多台机器,需要保证每台机器时间是一致的一、通过Linux crontab实现根据时间规则去执行某个命令:crontab -e * * * * * * 分 时 日 月 周 command00-59 0-23 1-31 1-12 ...

2019-07-05 17:16:36 822

原创 大数据-----------分布式部署:Linux环境配置,SSH免秘钥登录(七)

Linux环境配置基本配置ip、DNS、主机名、本地映射、关闭防火墙、selinux在Linux中创建统一的用户和目录、权限SSH 免密钥登录远程登录:ssh bigdata-hpsk02.huadian.com下面这个需要输入密码SSH 免密钥登录步骤:为每台机器生成一对钥匙ssh-keygen -t rsa执行以上操作,一路回车到底会显示以下界面密钥目录:/home/...

2019-07-05 15:09:03 240

原创 大数据-----------分布式部署:机器的准备(六)

机器的准备:192.168.59.211 bigdata-hpsk01.huadian.com192.168.59.212 bigdata-hpsk02.huadian.com192.168.59.213 bigdata-hpsk03.huadian.com克隆前:关闭防火墙,selinux在Linux中创建同一用户、目录JDK克隆克隆后:(1)修改网卡删除eth0网...

2019-07-05 14:06:52 143

转载 JAVA数组去除重复数据

如果一个数组中有重复元素,用什么方法可以去重?一时间会想到用一种方法,但是后来查阅资料后发现,有好多方法可以实现,现在就总结一下,比较简单的几种。一.用List集合实现 int[] str = {5, 6, 6, 6, 8, 8, 7,4}; List<Integer> list = new ArrayList<Integer>(); for ...

2019-07-03 23:10:21 456

转载 大数据之重点概念及原理

一、大数据(一)概念:指的是传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集。(二)数据级别:MB:普通用户数据级别PB:企业级数据级别ZB:全球数据总量级别(三)特点:容量大,种类多,速度快,价值高(四)Hadoop1.概念:Apache旗下的一套开源软件平台 2.功能:利用服务式集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3.核心...

2019-07-02 23:14:57 777

原创 大数据----------(三)MapReduce运行Yarn上详解

MapReduce执行流程:(1)Client向Yarn主节点RM提交应用bin/yarn jar MainClass args(2)RM在某个NM节点上启动一个Container运行AppMaster,运行应用的管理者(3)AppMaster向RM请求资源,为了运行MapReduce中所有的Task,RM将分配NM是哪个资源,并且告知AppMaster(4)AppMaster联系NM...

2019-07-02 22:45:03 274

原创 大数据----------(二)hadoop的安装部署:HDFS模块,Yarn模块,历史服务配置

安装方式:伪分布式,让进程泡在一台机器上,端口不一样文档:http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html一、hadoop的安装部署1.使用rz命令上传按照所需版本上传:rz2.解压tar -zxvf hadoop-2.7.3.tar.gz -C ../mo...

2019-07-01 21:45:18 300

原创 大数据----------(一)环境搭建

一、配置虚拟机(1)配置网络段打开:编辑→虚拟网络编辑器确保虚拟机的网段59,修改vMnet8适配器网段地址196.168.59.0(据个人情况)点击更改设置,进行修改(2)虚拟机配置约束规定创建用户:useradd xxxxx修改密码passwd xxxxx修改主机名:查看:hostname临时修改:hostname bigdata.xxxxxx.com永久修改:...

2019-06-30 23:10:58 232

原创 将web项目部署在linux上的具体步骤:安装JDK、安装Mysql、安装Tomcat并运行

一、安装JDK(1)卸载系统自带的JDK使用下面命令,查找系统内自带的JDK,rpm -qa|grep java如若有的话,使用以下命令卸载,卸载完再用上面命令检查一下rpm -e --nodeps xxxxxxxx(2)上传将想要使用的JDK传到linux上,下面是我是用的版本jdk-8u91-linux-x64.tar.gz(3)解压将jdk解压到modules文件内ta...

2019-06-30 11:30:16 876

转载 远程连接MySQL报错ERROR 2003解决办法

转自:http://www.111cn.net/database/mysql/48040.htm问题代码代码:ERROR 2003 (HY000): Can’t connect to MySQL server on ‘192.168.0.19’ (111)ERROR 2003 (HY000): Can’t connect to MySQL server on ‘192.168.0.19’ (...

2019-06-28 16:06:47 11312 1

原创 linux基础总结

命令目录下常用命令:cd改变工作路径cd …返回上一级目录ls显示当前目录信息ls -l详细显示文件信息ls -a显示当前目录的所有文件,包括隐藏文件,隐藏文件是以“.”开头的,“…”:上一级目录 “.” :当前目录)ls -A显示当前目录的所有文件(包括隐藏文件,不显示 “…”, “.”)pwd打印当前的工作目录...

2019-06-27 21:28:28 435

转载 linux查看文件有多少行(WC)

使用wc命令 具体通过wc --help 可以查看。如:wc -l filename 就是查看文件里有多少行 wc -w filename 看文件里有多少个word wc -L filename 文件里最长的那一行是多少个字wc命令  wc命令的功能为统计指定文件中的字节数、字数、行数, 并将统计结果显示输出。语法:wc [选项] 文件…说明:该命令统计给定文件中的字节数...

2019-06-26 21:17:26 1723

转载 Linux:less

Linux命令:lessless 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。在 more 的时候,我们并没有办法向前面翻, 只能往后面看,但若使用了 less 时,就可以使用 [pageup] [pagedown] 等按键的功能来往前往后翻看文件,更容易用来查看一个文件的内容!除此之外,在 l...

2019-06-26 21:11:11 120

转载 Linux目录结构

/: 文件系统的入口,最高一级目录/bin: 基础系统所需要的命令位于此目录,如:ls、cp、mkdir等/boot: 包含Linux内核及系统引导程序所需要的文件/dev: 设备文件存储目录,比如声卡、磁盘…/etc: 存放系统程序或者一般工具的配置文件/home: 普通用户默认存放目录,他们以/home/usemame的方式存在/lib: 库文件存放目录,这里包含了系统程序所需要的...

2019-06-26 20:42:53 92

转载 VMware 虚拟机开机黑屏

前一段时间电脑上的虚拟机打不开了,点击开机就一直黑屏,挂起时能够看到显示,但是开机就黑屏。百度了之后找到了解决方案:(我是第一种方案就解决了)(据说可能是wegame的锅)方法1:命令行窗口cmd—输入netsh winsock reset然后重启计算机。方法2:VM->Settings->Hardware->Display在右面的内容栏中将Accelerate 3...

2019-06-26 19:48:59 483

转载 jsp String 转 int 方法

将字串 String 转换成整数 int?今天做项目的时候,碰到一个问题,需要把String类型的变量转化成int类型的。按照常规,我写了var i = Integer.parseInt(“112”);但控制台报错,说是“‘Integer’ 未定义”。后来,才知道,原来js中String转int和Java中不一样,不能直接把Java中的用到js中。改成var j = parseInt(“1...

2019-06-24 16:55:26 5923

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除