Spark系列教程
文章平均质量分 87
老三是只猫
坚持不断的学习
展开
-
股票数据自动入库hive到Oracle
------import_stock_d.py-----------------------------------#!/usr/bin/pythonimport tushare as tsimport osimport restocklistpath = '/home/cloudera/data/list/stocklist.txt'savepath='/home/cloudera...原创 2019-06-19 15:26:39 · 233 阅读 · 0 评论 -
hive的优化方案
1.优化之分区对数据进行分区,可以将数据以一种符合逻辑的方式进行组织(比如分层存储),同时极大提高查询性能。在创建表的时候,根据后续查询需求’PARTITIOED BY( )'对数据进行合理的分区,下面我们根据‘province’和‘city’进行对数据进行分区分区:CREATE TABLE IF NOT EXISTS tbl_per_info (no INT, name STRING, s...原创 2019-06-19 14:40:42 · 235 阅读 · 0 评论 -
hive简单介绍
区别1.Hive使用类SQL语句的查询功能,使用hdfs进行存储,MapReduce计算2.查询语句:Hive的本质是将hql转化为mapReduce;3.数据存储位置:hive将数据存储在hdfs,而关系型数据库则是将数据存在块设备或者本地文件系统中;4.数据格式:hive中没有定义专门的数据格式,数据格式由用户指定,用于定义数据格式需要指定三个属性:列分隔符(通常为空格,‘\t’,”\...原创 2019-06-19 10:10:06 · 139 阅读 · 0 评论 -
sqoop同步操作实例
1、自由模式查询同步数据 (如下)bin/sqoop import –connect jdbc:mysql://xxxxxurl、端口、库名xxxxxx?tinyInt1isBit=false –username 用户名 –password 密码 –null-string ‘\N’ –null-non-string ‘\N’ –query “select * from t...原创 2019-06-19 09:51:23 · 487 阅读 · 0 评论 -
Spark ML函数VectorAssembler
从源数据中提取特征指标数据,这是一个比较典型且通用的步骤,因为我们的原始数据集里,经常会包含一些非指标数据,如 ID,Description 等。为方便后续模型进行特征输入,需要部分列的数据转换为特征向量,并统一命名,VectorAssembler类完成这一任务。VectorAssembler是一个tr...转载 2019-03-27 19:25:30 · 791 阅读 · 0 评论 -
PySpark的存储不同格式文件
PySpark的存储不同格式文件,如:存储为csv格式、json格式、parquet格式、compression格式、tablefrom __future__ import print_function, divisionfrom pyspark import SparkConf, SparkCon...转载 2019-03-27 17:01:54 · 952 阅读 · 0 评论 -
sparkSQL:dataframe
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值转载 2016-08-31 16:21:43 · 5553 阅读 · 0 评论 -
hive表如何使用多字符分隔
hive表如何使用多字符分隔方法1:hive> create external table t4(id INT, name STRING) > ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' > WITH SERDEPROPERTIES ("field.del...原创 2019-06-19 16:44:49 · 226 阅读 · 0 评论 -
用python实现Hive中的UDF函数
简介hive为我们提供了众多的内置函数,但是在实际的运用过程中任然不能满足我们所有的需求,hive是用Java开发的,本身提供了使用Java去开发udf的方式,而这里我们采用python的方式实现udf函数。demo实现数据准备我们再hive上创建一个external表,代码如下create external table person(name string,idcard strin...原创 2019-06-19 17:24:08 · 1804 阅读 · 0 评论 -
spark读取Oracle教程
一、pom.xml中配置<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.3</version></dependency>二、show the code...原创 2019-06-18 16:54:18 · 5209 阅读 · 0 评论 -
Spark用IntelliJ + maven打jar包(二)
IDEA导出可执行的jar包背景:项目里面要定时备份文件和删除历史文件,我就单独建了个java项目,里面就一个含main方法的类来干这个活儿。然而,咋把它导出成为一个可以在windows下可执行的jar包呢? 看下面五个步骤。环境:Win10,jdk1.7, idea2016.2步骤:1.选中java项目,选择 File -> Project Structure (快捷键:Ct...原创 2019-06-18 14:08:45 · 298 阅读 · 0 评论 -
IDEA配置spark与pycharm配置spark教程
eclipse配置spark1.6.0教程https://kevin12.iteye.com/blog/2274179这里注意修改,根据自己的修改com.JohnsonSpark_2.3.11.0-SNAPSHOT<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.Johnson</g...原创 2019-06-18 14:05:28 · 580 阅读 · 0 评论 -
XLSX上传到hive
Excel文件创建HIVE表步骤一:将excel另存为txt文档(文本文件(制表符分割))假设名字为a.txt步骤二,将该txt文件导入shell内指定目录中步骤三,转换编码格式,在指定目录下执行如下命令:piconv -f gb2312 -t UTF-8 a.txt > c.txt步骤四,根据文档中的列,创建表,建表语句如下:use dw_htlbizdb ;drop ...原创 2019-06-19 19:26:04 · 1217 阅读 · 0 评论 -
从Hive导出数据到Oracle数据库--Sqoop
实习老大让我把Hive中的数据导入Oracle数据库。摸索成功后记录如下:首先解释一下各行代码:sqoop export# 指定要从Hive中导出的表--table TABLE_NAME # host_ip:导入oracle库所在的ip:导入的数据库--connect jdbc:oracle:thin:@HOST_IP:DATABASE_NAME # oracle用户账号-...原创 2019-06-19 18:52:09 · 851 阅读 · 0 评论 -
Hive分区、分桶操作及其区别
1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的...转载 2019-06-19 18:12:42 · 598 阅读 · 0 评论 -
hive 配置
什么是Derby安装方式 •Apache Derby是一个完全用java编写的数据库,所以可以跨平台,但需要在JVM中运行 •Derby是一个Open source的产品,基于Apache License 2.0分发 •即将元数据存储在Derby数据库中,也是Hive默认的安装方式 安装Hive •解压Hive •tar zxvf hive-0.8.1.tar /home/test原创 2015-08-15 11:55:56 · 482 阅读 · 0 评论 -
Spark:用Scala和Java实现WordCount
Spark:用Scala和Java实现WordCount 为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spark自带的例子($SPARK_HO...转载 2019-03-05 19:50:16 · 236 阅读 · 0 评论 -
hadoop平台进行小型网站的日志分析
转载连接0.上传日志文件到linux中,通过flume将文件收集到hdfs中。执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console1.建立hive表create external table bbslog转载 2015-05-22 20:08:38 · 502 阅读 · 0 评论 -
hdfs 如何列出目录下的所有文件
import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.fs.FileStatus;import org.apache.had原创 2015-05-22 17:45:58 · 2593 阅读 · 0 评论 -
Hadoop 命令行运行实例
打包 为了能够在命令行中运行程序,首先需要对他进行编译和打包,下面就分别展示了编译和打包的过程编译代码如下:javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar -d wordcount_class wordcount.java上述命令会将wordcount.java编译后的所有class 文件到wordco原创 2015-06-20 10:00:39 · 745 阅读 · 0 评论 -
hadoop fs api
hadoop中关于文件操作类基本上全部是在org.apace.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等public static void uploadLocalFile2HDFS(String s,String d){Configuration conf=new Configuration();FileSystem hdfs=FileSystem.原创 2015-05-20 15:57:52 · 577 阅读 · 0 评论 -
mapreduce 找共同的朋友
public class FindFriends{public static class changeMapper extends Mapper<Object,Text,Text,Text>{public void map(Object key,Text value,Context context) throws IOException,IterruptedException{StringTo原创 2015-05-22 16:23:12 · 567 阅读 · 0 评论 -
Spark用IntelliJ + maven打jar包上传到Spark集群上运行(一)
因为需要用Hadoop的HDFS所以要启动Hadoop1.启动Hadoop2.启动Spark集群3.打开IntelliJ创建maven项目然后配置maven项目的pom.xml文件内容如下<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compi...转载 2019-03-05 17:12:24 · 678 阅读 · 0 评论 -
Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)
spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程...转载 2019-03-05 16:18:43 · 431 阅读 · 0 评论 -
hadoop distcp
很久没有写了,感觉最近比较浮躁,现在实习了要静下心来 好好学点东西。公司在做集群迁移的项目,在项目中遇到 一个问题,怎么把一个集群的数据拷贝到另个集群中Hadoop数据迁移(集群内迁移,集群间迁移),主要通过拷贝数据来完成。对于小量数据,可以使用”hadoop fs -cp”来完成;对于大量数据,可以借助Distcp 来完成。Distcp是Hadoop自带的分布式拷贝工具。它基于MapReduce实原创 2015-07-27 21:20:34 · 1153 阅读 · 0 评论 -
mapreduce实现矩阵相乘
a的map读取读取第一个值是1,1,1。它是矩阵a的第一行第一列。那么它要在计算c(1,1) c(1,2)的时候使用(这里c仅仅用2列,假设用n列,那么它的值要在计算c(1,1),c(1,2),c(1,3)…c(1,n)的时候使用)。我们就以 key = 1,1 value = a,1,1 , key= 1,2 value = a,1,1输出两条数据(1,1) (1,2)是 c(1转载 2015-05-25 10:40:50 · 965 阅读 · 0 评论 -
hadoop实现单表和多表关联
设计思路 分析这个事例,显然需要进行单表连接,连接的是左表的parent列和又表的child列,且左表和右表示同一个表。 连接结果中除去连接的两列就是所需要的结果,需要mapreduce解决这个事例,首先应该考虑如何实现表的自连接,其次就是连接的设置,最后是结果的整理 考虑到mapreduce的shuffle过程会将相同的key会连接在一起,所以可以将map结果的key设置成待连接的列,然后转载 2015-05-19 10:40:57 · 2367 阅读 · 0 评论 -
mapreduce处理海量小文件:压缩文件
package org.shirdrn.kodz.inaction.hadoop.smallfiles.compression;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;impo原创 2015-05-23 15:54:33 · 683 阅读 · 0 评论 -
mapreduce 平均成绩
map处理的是一个纯文本文件,文件中存放的是数据时每一行标识一个学生的姓名和他相应一科成绩。mapper处理的数据由inputFormat分解过的数据集,其中inputFormat的作用是将数据集切割成小数据集inputsplit,每一个inputsplit将有 一个mapper负责处理,此外inputFormat中还提供了recordreader的实现,并将一个inputsplit解析成impor转载 2015-05-19 13:29:47 · 742 阅读 · 0 评论 -
spark SQL基本概念与基本用法
1.Spark SQL概述1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrame与DataSet的关系。1.2 为什么要学习Spark SQLHive,它是hive SQL转换成MapReduce,然后提交到集群上...原创 2019-06-24 09:33:47 · 190 阅读 · 0 评论