Scala语言基础

一、语言概述 编程范式 编程范式是指计算机编程的基本风格或典范模式。常见的编程范式主要包括命令式编程和函数式编程。面向对象编程就属于命令式编程,比如C++、Java等 命令式语言是植根于冯·诺依曼体系的,一个命令式程序就是一个冯·诺依曼机的指令序列,给机器提供一条又一条的命令序列让其原...

2019-05-15 15:36:25

阅读数 10

评论数 0

云数据库

1. 云数据库概述 1.1. 云计算是云数据库兴起的基础 1.2. 云数据库概念 云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易...

2019-02-23 17:44:47

阅读数 176

评论数 0

NoSQL数据库

1. NoSQL简介 通常NoSQL数据库具有以下几个特点: (1)灵活的扩展性。 (2)灵活的数据模型。 (3)与云计算紧密结合。 2. NoSQL兴起的原因 关系型数据库已经无法满足web2.0的需求。主要表现在以下几个方面: 关系型数据库已经无法满足web2.0的需求。主要表现在以下几个...

2019-01-19 14:49:19

阅读数 227

评论数 0

使用java程序读写HDFS文件,判断文件是否存在

判断文件是否存在 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class Chapt...

2018-10-23 14:07:56

阅读数 1383

评论数 1

使用hadoop jar命令和linux命令运行jar包

使用hadoop jar 命令运行jar包: ./bin/hadoop jar ./myapp/HDFSExample.jar 使用linux命令运行jar包 java -jar /myapp/HDFSExample.jar

2018-10-23 12:50:21

阅读数 2097

评论数 0

Linux批量替换文件中多个字符

sed -i 's/原字符/目标字符/g' sed -i 's/原字符/目标字符/g' `grep 原字符 -rl ./` 格式: sed -i 's/查找字段/替换字段/g' `grep 查找字段 -rl 路径` 文件名 -i 表示inplace edit,就地修改文件 ...

2018-08-21 16:50:09

阅读数 772

评论数 0

hivesql优化

1. 业务处理优化原则 Hive对复杂SQL没有关系形数据库表现好,业务过程可使用临时表使用过程更清晰简单; 关联条件尽可能避免使用函数、正则表达式。 使用MAPJOIN()会将较小的表 加载到内存中,使连结过程在Map阶段完成 分区避免数据倾斜问题。 jobs数比较多的作业运行效率相对比较...

2018-06-14 20:43:29

阅读数 1452

评论数 0

linux 统计目录大小

du -ah --max-depth=1 a表示显示目录下所有的文件和文件夹(不含子目录), h表示以人类能看懂的方式, max-depth表示目录的深度。 du -sh 查看当前目录总共占的容量。而不单独列出各子项占用的容量 du -lh --max-depth=1 ...

2018-06-14 20:15:51

阅读数 1543

评论数 0

linux 文件转码iconv

iconv --list :列出iconv支持的编码列表 iconv -f 原编码 -t 新编码 filename -o newfile -f : from 来源编码 -t : to 转换后新编码 -c: 忽略无效字符 -s: –silent,忽略警告 -o file : ...

2018-06-14 09:49:19

阅读数 868

评论数 0

oracle 字符串操作

TRIM()函数 去掉最后一个字符 select TRIM('市' from region_desc) from dual;

2018-06-13 15:35:53

阅读数 205

评论数 0

大数据处理架构Hadoop

1.概述 1. 概述 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性: • 高可靠性 • 高效性 • 高可扩展性 • 高容错性 • 成本低 • 运行...

2018-06-11 13:09:41

阅读数 610

评论数 0

Python基本语法元素

1.程序设计基本方法 1. 计算机与程序设计 2 . 编译和解释 3.程序的基本编写方法 4.计算机编程 单元小结 2.Python开发环境配置 1. Pyth...

2018-06-10 19:08:41

阅读数 113

评论数 0

大数据概述

1. 大数据时代 2. 大数据概念和影响 科学研究的四范式;大数据时代是数据驱动,发现问题,解决问题。 抽样分析经常把算法的精度放的非常高; 全样分析不存在误差被放大的情况; 很多时候数据就在一瞬间有价值, 如果没有快速分析结果的话,他的价值就消失了。 ...

2018-06-10 14:43:47

阅读数 99

评论数 0

oracle基本数据类型—RAW类型

oracle中用于保存位串的数据类型是RAW,LONG RAW(推荐使用BLOB)。 RAW,类似于CHAR,声明方式RAW(L),L为长度,以字节为单位,作为数据库列最大2000,作为变量最大32767字节。 LONG RAW,类似于LONG,作为数据库列表最大存储2G字节的数据,作为变量最...

2018-01-29 17:17:56

阅读数 1432

评论数 0

Hive 添加表字段,给字段排序

添加字段 alter table 表名 add column (列名 STRING COMMENT 'Department name'); 排序 ALTER TABLE 表名 CHANGE column 列名 列名 类型 after 列名(放在哪个字段后);

2018-01-15 19:36:52

阅读数 8909

评论数 0

分布式数据库HBase

1.概述 1.1.1 从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题 • 建立互联网索引 1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里 2 MapReduce计算作业运行在整张表上,生成索引...

2018-01-14 16:45:24

阅读数 835

评论数 0

分布式文件系统HDFS

1.1简介 HDFS实现目标 兼容廉价的硬件设备 实现流数据读写 支持大数据集 支持简单的文件模型 强大的跨平台兼容性 HDFS自身的局限性 不适合低延迟数据访问 无法高效存储大量小文件 不支持多用户写入及任意修改文件 2.1概念 块的概念 支持面向大规模数据存储...

2018-01-07 01:21:04

阅读数 1933

评论数 0

csdn富文本使用说明

欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文...

2018-01-06 21:16:46

阅读数 1101

评论数 0

Hive空值处理

Hive在使用过程中不可避免需要对NULL、’’(空字符串)进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。1、hive默认存储空值的规则 (1) 不同数据类型对空值的存储规则 Int与String类型,NULL底层默认存储为\N,查询时显示为NULL。String类型...

2017-12-20 19:49:48

阅读数 3024

评论数 0

Hive库导出

导出到本地: insert overwrite local directory '/app1/ai/nn/' row format delimited fields terminated by '|' select * from DIM_NE_EC 导出本地目录:’/app1/ai/nn...

2017-12-12 20:12:11

阅读数 151

评论数 0

提示
确定要删除当前文章?
取消 删除