自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 1024

2019-10-24 10:11:59 247

原创 pycharm常用设置和快捷键

一些常用设置:pycharm默认是自动保存的,习惯自己按ctrl + s 的可以进行如下设置:file -> Setting -> General -> Synchronization -> Save files on frame deactivation 和 Save files automatically if application is idle for...

2019-08-29 14:47:19 215

原创 mysql 按照时间选取数据,按天 按月 按日 按年

mysql 的内置函数DATE_FORMAT(date,format)根据format字符串可以格式化date值。在format中可以使用的修饰符:%M 月名字(January……December)%W 星期名字(Sunday……Saturday)%D 有英语前缀的月份的日期(1st, 2nd, 3rd, 等等。)%Y 年, 数字, 4 位%y 年, 数字, 2 位%a 缩写的星...

2019-08-13 09:11:25 624

转载 数据仓库数据分层

为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易...

2019-05-08 17:30:31 374

转载 spark比hadoop快的原因

Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。Spark为什么快?1、消除了冗余的HDFS读写Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用。如...

2019-05-07 19:30:02 1137

转载 Apache Spark的三种分布式部署方式

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一...

2019-05-06 20:28:46 172

转载 Flume的简单介绍

Flume是Apache基金会组织提供的高可用的,高可靠的,分布式的,海量日志采集,聚合和传输的系统,flume支持在日志系统中定制各类数据发送方,用于收集数据,同时,flume提供对数据的简单处理,并写到各种接收方的能力。当前Flume有两个版本,Flume0.9X版本之前的统称为Flume-og,Flume1.X版本被称为Flume-ng。主要区别如下:Flume-og中采用mas...

2019-04-01 21:30:20 243

转载 ActiveMQ ,RabbitMQ ,KafKa对比

ActiveMQ和 RabbitMq 以及Kafka在之前的项目中都有陆续使用过,当然对于三者没有进行过具体的对比,以下摘抄了一些网上关于这三者的对比情况,我自己看过之后感觉还是可以的,比较清晰的反馈了这三个的具体情况已经使用场景,具体的对比如下:1)TPS比较:Kafka最高,RabbitMq 次之, ActiveMq 最差。2)吞吐量对比:kafka具有高的吞吐量,内部采用消息的批量...

2019-03-29 12:41:05 327

转载 log4j的8个日志级别(OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL)

log4j定义了8个级别的log(除去OFF和ALL,可以说分为6个级别),优先级从高到低依次为:OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL。ALL 最低等级的,用于打开所有日志记录。TRACE designates finer-grained informational events than the DEBUG.Since:1.2.12,很低的日志...

2019-03-22 16:12:45 319

转载 SQL能做什么?

SQL 是用于访问和处理数据库的标准的计算机语言什么是 SQL1. SQL 指结构化查询语言2. SQL 使我们有能力访问数据库3. SQL 是一种 ANSI 的标准计算机语言DDL 数据定义语言 create drop alterDML 数据操作语言 select insert update deleteDC...

2019-03-21 20:30:28 490

原创 sql语句的种类和区别

DDL(Data Definition Language) 数据定义语言最经常用到的 SELECT、UPDATE、INSERT、DELETE。 主要用来对数据库的数据进行一些操作。DML(Data Manipulation Language) 数据操作语言在创建表的时候用到的一些sql,比如说:CREATE、ALTER、DROP等。DDL主要是用在定义或改变表的结构,数据类型,表之间...

2019-03-21 20:24:48 379

转载 DataFrame的基本操作函数

Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList()返回值是一个java类型的数组,返回dataframe集合所有的行 3、 count()返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*)返回一个通过数学计算的类表值(count, mean...

2019-03-21 08:56:22 2642

原创 RDD的transformaction算子官网直译

map(func) -----> 映射(函数)使用方法:返回通过函数传递源的每个元素所形成的新的分布式数据集。函数.filter(func) -----> 过滤器(函数)使用方法:返回一个新的数据集,该数据集是通过选择其上的源元素而形成的。函数返回真。flatMap(func) -----> flatMap(函数)...

2019-03-14 12:08:30 160

原创 什么是RDD

全称是Resilient Distributed Datasets(弹性分布式数据集)RDD官方的定义:A Resilient Distributed Dataset:一个弹性分布式的数据集合;A list of partitions:它是一个partitions的集合(List)A function for computing each split:用于计算每个拆分的函数;RDD里面的数...

2019-03-14 11:34:28 244

原创 经典的sql语句

一、基础篇1、说明:创建数据库CREATE DATABASE database-name2、说明:删除数据库drop database dbname3、说明:备份sql server— 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice ‘disk’, ‘testBack’, ‘c:\mysql7backup\MyNwind_1.dat’—...

2019-02-27 20:50:29 93

转载 presto是什么?

是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是一种Massively parallel processing (MPP)架构,多个节点管道式执⾏⽀持任意数据源(通过扩展式Connector组件),数据规模GB~PB级使用的技术,如向量计算,动态编译执⾏计划,优化的ORC和Parquet Reader等presto不太支持存储过程,支持部分标准sqlpres...

2019-02-18 08:48:21 436

原创 JDK环境变量和配置环境变量(图文操作)

环境变量配置环境变量就是一组路径启动一个dos;在dos敲一个命令,系统会按照环境变量中配置的路径中一个一个的去找,命令.exe、命令.bat、命令.cmd,如果找到就执行,如果找不到就报以下此命令是外部命令无法执行.打开dos(命令提示符)按下windows键(在ctrl和alt中的键,一边有Windows的logo)+R键,会弹出一个界面:点击开始菜单dos增强版(黑窗口变成...

2019-02-07 23:31:31 349

原创 JDK的下载安装(图文操作)

下载去Oracle官网下载JDK(Java Development Kit)官网的资料是一手的所以建议大家从官网获取软件包,免费的开源软件包建议大家都从对应的官方网站进行下载,没有安全隐患。选择对应的系统进行下载,比如我是windows系统就选择Windows对应的那个JDK。还有,注意下载JDK版本的位数,如果文件名中有32这串数字的话,那代表这个JDK是32位的,现在大多数操作系...

2019-02-07 22:59:52 1574 2

原创 程序员日常开发所需要使用的软件

使用的软件目前有这些JDKEclipseNavicatPremiumSublimeMysqlTomcatMavenXshellXFtpUltraEdit在第一次安装软件的时候,一路保持默认,下一步.如果需要修改路径,在修改路径的界面修改路径.凡是在安装的时候弹出的框,点击确认.如果同样的软件安装第二遍以后的时候,再仔细的读下安装界面的...

2019-02-06 21:57:25 737 1

原创 关于SublimeText 编辑器(附下载地址)

SublimeText的优势准备一个SublimeText压缩包解压:(免安装)将压缩包(Sublime Text_3176.zip)解压到合适的目录下面,养成一个习惯:在解压压缩包之前,先打开看一眼,再看一眼.在解压之前:将压缩包打开看一眼,如果压缩包里面有一个顶级目录,直接解压当前文件夹;如果压缩包里面木有顶级目录,就选择解压到…(自己选一个位置)下边安装的这一步骤很关键,只...

2019-02-06 21:41:44 241

原创 关于网络,如何查看IP和修改IP

2019-02-06 21:21:04 270

原创 使用Eclipse创建一个简单的maven Java项目(傻瓜图文式操作)

在空白处右键然后new,选择other选择maven project ,下一步注意!第一个选项打钩自己选择项目路径,由上到下一次操作路径选择完毕,下一步填写公司Id 和 项目 id 以及选择 打包方式 : jar然后finish完成展示maven框架更改下pom文件,更新下jdk版本![pom源码4.0.0com.csdnmavenjava0.0.1-SNA...

2019-01-08 13:40:52 2273

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除