hive简单数据分析实验

将一个英文的短篇小说Alice上传到hdfs上,计算每个单词出现的次数查看文件,只显示5条(line);把每个单词分开,因为段落是用空行分割,所用使用条件去除,只显示5条;...

2018-04-22 20:17:08

阅读数:16

评论数:0

Spark SQL 和 DataFrames

Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源,支持 Hive、Avro、Parquet、...

2018-04-22 18:56:12

阅读数:6

评论数:0

Spark SQL入门用法与原理分析

sparkSQL是为了让开发人员摆脱自己编写RDD等原生Spark代码而产生的,开发人员只需要写一句SQL语句或者调用API,就能生成(翻译成)对应的SparkJob代码并去执行,开发变得更简洁一. APISpark SQL的API方案:3种SQLthe DataFrames APIthe Dat...

2018-04-22 18:36:49

阅读数:4

评论数:0

安装hive,并连接mysql

安装hive:将hive文件传输到Linux中hadoop用户目录下,然后将其解压至opt目录中解压好后进入其目录中,在一个conf目录下找到hive-default.xml.template这个文件,将其复制并改名为hive-site.xml后进入修改 配置元数据库地址找name  改value...

2018-04-15 19:24:39

阅读数:43

评论数:0

在centos7中安装mysql

  切换root去mysql官网:https://dev.mysql.com/downloads/repo/yum/   下载第一个下载完执行:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 下一步安装mysql:yum install m...

2018-04-15 18:55:14

阅读数:9

评论数:0

spark面试问题收集

spark面试问题1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的Distribute...

2018-04-15 16:06:48

阅读数:125

评论数:0

hadoop的三大核心组件之HDFS和YARN

Hadoop的三大核心组件之HDFS和YARNHadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集...

2018-04-15 16:01:02

阅读数:98

评论数:1

hdfs的文件读取与写入流程

HDFS客户端文件读取过程如下:应用程序通过HDFS客户端向NameNode发生远程调用请求。NameNode收到请求之后,返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。数据读取完成以后,...

2018-04-15 15:59:47

阅读数:14

评论数:0

spark数据分析(3)

combineByKey(createCombiner,mergeValue,mergeCombiners)    createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, co...

2018-04-08 22:47:00

阅读数:8

评论数:0

spark数据分析(2)

首先来理解(0,0)这个初始值:说明aggregate()方法会返回一个元组,而因为是分布式集群来进行分析,所以第一个lambda表达式是每个worker所执行的,比如我们有三个worker,那么他们得到的结果分别是:(14,2);(8,2);(14,2)。而第二个lambda表达式则是drive...

2018-04-03 22:31:57

阅读数:33

评论数:1

spark数据分析

首先要运行spark,加载 py4j,执行shell.py  初始化 spark sc(SparkContext)编写处理rdd的代码代码分两类一类叫driver的代码  driver只有一个一类叫worker的代码  worker有多个 worker的代码有两类算子(操作operate) 变换 ...

2018-04-01 20:49:42

阅读数:24

评论数:0

hadoop(单机伪分布式) pyspark(Anaconda)

学习Hadoop前的准备工作:1.网络 主机名称 主机映射目前是动态IP,所以需要配置IP地址为静态IP/etc/sysconfig/network-scripts ll | grep ifcfg-ens33可查看此文件的权限,只能在root下更改vi ifcfg-ens33:BOOTPROTO=...

2018-03-27 21:10:45

阅读数:7

评论数:0

Linux

第一个符号之后的所有符号都表示的是与权限相关的信息每三位一组rwx   表示拥有者的权限---   表示组的权限---.  表示其它人或组的权限每一组里的三个字符的意义第一个表示读  r   4第二个表示写  w   2第三个表示执行 x   1修改权限时:chmod num1num2num3  ...

2018-03-22 19:22:27

阅读数:9

评论数:0

python总结28 django 实现回复功能

首先在项目中使用startapp reply  创建一个reply  app接着在其下的models文件下撞见Reply类之后生成数据库表,并在views文件中写reply函数:以为我们把reply函数写在了blog  app的views文件中,所以在它的urls文件中配置路由:重定向后的show...

2018-03-15 21:39:13

阅读数:13

评论数:0

python总结27 django paginator实现分页

首先再view页面调用需要的模块之后在需要显示的页面的函数中使用模块之后修改页面的显示内容,如果是首页,那么页面不会显示首页按钮和上一页按钮(末页和下一页也是一样)...

2018-03-13 16:52:35

阅读数:9

评论数:0

python总结26 django 富文本编辑器实现上传图片

接着上篇文章    

2018-03-13 16:26:29

阅读数:23

评论数:0

python总结25 django 富文本编辑器加入项目中

在博客项目中加入富文本编辑器:首先我们在http://ueditor.baidu.com/website/download.html下载源码最好是下载最新版的完整源码,各种情况下都能使用解压后的文件夹:将文件夹中的所有文件都复制到项目的static文件夹下的ue目录中:然后再原本的blog文件夹下...

2018-03-08 18:11:23

阅读数:70

评论数:0

python总结24 django publish

blog(appname) model          title          time          content          user    关联字段ForeignKey(ForeignObject) # ForeignObject(RelatedField)       ...

2018-03-04 16:42:32

阅读数:13

评论数:0

python总计23 django session

session: 1.installed_apps 2.中间件 3.设置存储形式(一般情况下,默认是我们自己的数据库,可以储存在数据库、文件、缓存、cookie) 4.引用 request.sessionsession只能储存json也就是字典类型的数据django session的设计原理: a...

2018-03-01 18:21:24

阅读数:32

评论数:0

python总结22 django 登陆login

登陆login:login.html数据冗余: 1.数据库约束:唯一约束(在用户名数据类型中设置唯一约束)2.通过代码(通过代码判断用户名是不是只存在一个)ajax:jQuery 是一种静态资源(新建一个static文件夹,在其下再新建一个js文件夹,把jQuery放进去,这样jQuery就可以在...

2018-02-27 16:51:26

阅读数:36

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭