翱翔的江鸟-CSDN博客

转载 postgressql crossjoin

select * from generate_series(‘2018-08-01’::TIMESTAMP,‘2018-08-01’::TIMESTAMP + INTERVAL ‘1 month -1 day’, INTERVAL ‘1 day’) as days(day),xxx

2019-01-24 17:28:55 682

转载 postgresql 行转列

‘–行转列with tmp_table as (select ‘a’ name1,‘A,B,C,D’::varchar as t)select name1,regexp_split_to_table(t,’,’) tfrom tmp_table;

2019-01-24 17:27:28 2092

转载 postgresql 列转行

with tmp_table as (select ‘a’ name1,‘A’::varchar as t union allselect ‘a’ name1,‘B’::varchar as t union allselect ‘a’ name1,‘C’::varchar as t)select name1,array_agg(t) t1,string_agg(t,’,’) t2fro...

2019-01-24 17:25:33 8985 2

原创面试题整理(Hive)

1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做...

2018-08-05 10:26:37 39477 2

原创算法理论基础笔记

降维目标减少输入的数目剔除噪声数据提高已有算法的性能,减少计算开销1. PCA按照数据方差最大方向调整数据的主成分分析法2. SVD矩阵分解技术的一种,奇异值分解法1. 主成分分析法(PCA)旋转坐标轴第一个坐标轴是数据最大方差所在的方向第二个坐标轴与第一个坐标轴正交,方差次大重复旋转坐标轴,次数为数据中特征数量旋转次数越多,所得...

2018-07-25 16:45:38 1175

原创 SQL,HiveQL,Spark Shell总结

1. SQL创建表drop table if exists demo01;create table demo01(eno int(10),ename varchar(20));插入数据insert into demo01 values(1,"hello");增加字段alter table demo01 add loc varchar(20);...

2018-07-23 09:52:03 552

原创 Spark总结

1. Spark转为大规模数据处理设计的快速通用的计算引擎基于内存,开源,并行计算消除了mapreduce大量IO操作和仅支持批处理的缺陷通过RDD弹性分布式数据集,提供交互式查询功能基于scala面向函数语言编写,便于操作RDD可通过YARN管理分配资源,利用HDFS存储数据使用DAG有向无环图执行引擎,内存/磁盘计算速度均比MR快支持java,python,scala,R和...

2018-07-20 14:17:55 664

原创 Hadoop总结

0. Hadoop开源的分布式系统基础架构优点对大量数据进行分布式处理可靠, 假设硬件失效为常态, 针对失败节点进行重新分布处理高效, 并行处理提高处理速度可伸缩, 在横向扩展至上千个节点, 可处理PB级数据低成本, 项目开源,与同类产品比较成本低廉相关组件包括HDFSMapReduceYarnHiveHBaseZooKeeperSqoopFlu...

2018-07-20 11:23:44 3809

原创 Java Web基础知识

MVC Model View Controller，模型(model)－视图(view)－控制器(controller)用一种业务逻辑、数据、界面显示分离的方法组织代码，将业务逻辑聚集到一个部件里面，在改进和个性化定制界面及用户交互的同时，不需要重新编写业务逻辑模型层: 负责模块数据的处理,实际开发时又分为两层(业务和持久),实体类javabean也在模型层业务层se...

2018-07-19 10:41:40 440

原创 Java基本算法的实现代码

0. 一些简单的解释选择排序选择[1:-1]数组中的最小值,与索引0交换数值选择余下[2:-1]数组中的最小值,与索引1交换数值依次遍历余下部分的数组,直到交换所有数值冒泡排序只检查相邻两个元素的大小,按升序交换位置为避免最后阶段的无效比较,加入布尔值判断是否有数据进行了交换,无交换直接跳出循环结束排序为避免每次比较都要遍历全部数组,加入索引规定每次遍历的索引...

2018-07-18 15:14:56 2074

原创 Python连接mysql实现增删改查基本操作

使用模块pymysqlimport pymysql# connect(mysql数据库IP地址,用户名,密码,连接的数据库名)db = pymysql.connect('10.25.34.68','root','root','mydb')# cursor光标,创建一个用于写sql语句的对象cursor=db.cursor()# execute执行sql语句cursor.exec...

2018-07-13 12:59:15 1148

原创 Matplotlib.pyplot参数(条形图,直方图,饼图,散点图)

1. 条形图 bar()官方文档网址:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html#matplotlib.scatter.bar参数解释如下参数语法功能 x sequence of scalars 数据源 height scalar or sequenc...

2018-07-13 11:30:23 7603

原创 Web前端基础知识

1. 前端基础知识文件分类文件类型中文备注 SGML 标准通用标记语言 HTML和XML的前身 HTML 超本文标记语言 B/S(浏览器/服务器) XML 扩展标记语言加载数据/配置信息XML(扩展标记语言)装载有格式的数据信息,用于各个框架和技术的配置文件描述特点: 扩展名为.xml内容区...

2018-07-09 17:05:03 9351 1

原创 Java基础知识

1. 计算机基础知识1.计算机的硬件分成5大组成部件：运算器、控制器、存储器、输入设备和输出设备 2.计算机软件按照其功能划分为系统软件与应用软件计算机语言的分类:机器语言机器语言是直接用二进制代码指令表达的计算机语言,指令是用0和1组成的一串代码,它们有一定的位数,并分成若干段,各段的编码表示不同的含义汇编语言汇编语言是使用一些特殊的符号来代替机器语言的二进制码,计...

2018-07-09 15:38:33 392

原创 Spark SQL和Spark Streaming简介

1. Spark SQL用于处理结构化数据,提供SQL语句查询的API接口 SparkSQL数据类型DataFrames这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD该接口在Python, R, Java, Scala中都是可用的SparkSQL数据类型DataSetsSpark 1.6中添加的新接口不支持Python...

2018-07-09 13:57:48 2976

原创 Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

1. 目标通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上爬虫和机器学习在Python中容易实现在Linux环境下编写Python没有pyCharm便利需要建立Python与HDFS的读写通道2. 实现安装Python模块pyhdfs版本:Python3.6, hadoop 2.9读文件代码如下from pyhdfs ...

2018-07-06 14:58:38 10536

原创算法基础知识之分类和聚类

《白话大数据与机器学习》笔记分类1. 朴素贝叶斯朴素贝叶斯提供了一种思维方式,即通过先验概率换算得到后验概率从而对决策分类的方法已知条件: 类条件概率密度参数表达式先验概率基础公式: 参数说明: 样本空间划分为D1~Di共i个部分P表示括号内事件发生的概率等式左边表示当事件x发生时Dj发生的概率应用公式: 参数说明: P(A),事件A的先验概率...

2018-07-06 11:22:04 988

原创 Spark在Windows下idea中本地调试及Jar方式集群运行

1. Windows本地调试依赖包版本(Maven下载),scope模式为complie<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.2.0</spark.version><s...

2018-07-05 11:20:08 2408 1

原创 Spark简介和RDD基本命令

1.Spark概念和特点Spark是什么Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是开源的,基于内存计算的大数据并行计算框架由UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 开发拥有Hadoop MapReduce的优点, 同时避免读写HDFSSpark和Hadoop MR的关系Spark 启用了内存分布数...

2018-07-04 13:58:03 968

转载 Python垃圾回收机制(引用计数+标记清除+分代回收)

转载自https://blog.csdn.net/joeyon1985/article/details/41961827 python里也同java一样采用了垃圾收集机制，不过不一样的是，python采用的是引用计数机制为主，标记-清除和分代收集两种机制为辅的策略。1. 引用计数PyObjectpython里每一个东西都是对象，它们的核心就是一个结构体：PyObje...

2018-07-03 17:16:58 6162

原创 CentOS7环境下Spark集群的配置

1. 解压缩到/home/hadoop/spark-2.2.0scala-2.11.72. 配置环境变量/etc/profile为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.shscala写入binspark写入bin和sbin3...

2018-07-02 17:29:56 1169

原创 Scala基础知识

0. Scala简介多范式类似java, 可调用Java类库, 运行于JVM初衷是实现可伸缩的语言集成面向对象编程和函数式编程的各种特性IDE选择idea1. 入门支持的数据类型Scala中不存在基础数据类型,一律以类的形式出现数据类型含义 Byte 8位整数,-128~127 Short 16位整数,-32768~3276...

2018-06-27 14:45:22 743

原创 Numpy基本用法

1. 创建数组ndarrayndarray是N维数组对象, 快速而灵活的大数据集容器其中所有元素的数据类型必须是相同的ndarray包括shape属性(各维度大小的元组)和dtype属性(数组数据类型) ndarray创建函数特点 array 支持列表,元组,数组或其他序列类型,可推断也可指定dtype arange 相当于range,返回n...

2018-06-26 16:58:55 1883

原创 Hive与HBase结合实现HiveQL语句操作HBase表

0. 上传完整的jar文件到hive/lib中删除hive/lib下所有文件解压上传以下jar到该目录 1. 修改hive-site.xml &amp;amp;amp;lt;name&amp;amp;amp;gt;hbase.zookeeper.quorum&amp;amp;amp;lt;/name&amp;amp;amp;gt; &amp;amp;amp;lt;value&am

2018-06-25 11:44:59 1255

1. Java中使用正则表达式String line = &amp;amp;quot;1-1,hello world&amp;amp;quot;;Matcher m = Pattern.compile(&amp;amp;quot;^(.*,)(.*\\s)(.*)&amp;amp;quot;).matcher(line);if (m.matches()){ String num = m.group(1); String

2018-06-22 16:52:09 211

原创 Flume导入文本文件到HBase

1. 用Java编写自定义的序列化类,通过jar形式放入flume/lib中自定义类MinputHbase, 实现接口HbaseEventSerializer, 重写其所有方法package com;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.conf.C...

2018-06-22 15:44:38 1696 1

原创 Flume安装与简介

0. CentOS7下安装Flume 官方文档 http://flume.apache.org/FlumeUserGuide.html修改配置文件flume-env.sh/home/hadoop/flume-1.8.0/confcp flume-env.sh.template flume-env.sh修改Java_home路径export JAVA_HOME=...

2018-06-21 15:37:05 205

原创 HBase shell和Java基本命令

1. HBase shell 命令功能 list 查看表,命名空间,命名空间下的表 scan 全表扫描 put 插入单行数据 get 读取数据 create 创建表,命名空间 drop 删除表,命名空间2. HBase Java初始化和关闭 Connection con; H...

2018-06-21 14:01:08 507

原创 HBase简介

1. HBase简介HBase是什么建立在Hadoop HDFS之上的分布式面向列的数据库HBase特点高可靠,高性能,面向列,可伸缩的分布式存储系统,可横向扩展HBase与HDFS的区别 HDFS HBase 存储大容量文件的分布式文件系统建立在HDFS上的数据库不支持快速单独记录查询支持在较大表中快速查询 ...

2018-06-19 16:42:19 327

原创 CentOS7环境下Hbase集群的配置

0. 前提jdk 1.8.0hadoop 2.9.0zookeeper 3.4.61. 下载解压缩hbase-1.2.6-bin.tar.gz2. 修改配置文件/home/hadoop/hbase-1.2.6/conf 生成tmp数据目录/home/hadoop/hbase-1.2.6/hbasedata修改hbase-site.xml,添加节点信息&lt...

2018-06-15 17:32:34 788

原创 Sqoop导入导出MySQL与HDFS数据

1. CentOS7环境下安装sqoop下载地址, 这里选择1.4.7版本sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz http://archive.apache.org/dist/sqoop/1.4.7/传输到linux中,解压缩修改系统环境变量/etc/profile, 添加sqoop/bin, 同时确保export HADOOP_HOME进入sqoo...

2018-06-13 17:05:30 2922

原创 Hiveql增删改查常用语句

0. 数据类型基本类型数据类型长度格式 tinyint 1 byte 20 smalint 2 byte 20 int 4 byte 20 bigint 8 byte 20 boolean 布尔 true float 单精度浮点数 3.14 double 双精...

2018-06-13 16:35:35 8105

原创 Hive简介和WordCount

1. Hive简介

2018-06-08 17:19:37 401

原创在CentOS7下配置Hive

1. 前期准备安装jdk 1.8.0安装hadoop 2.9.0安装mysql 5.6.39下载mysql的jar包 mysql-connector-java-5.1.38.jar下载hive安装包 hive 2.3.32. 配置环境变量解压缩到/home/hadoop/hive-2.3.3修改/etc/profile添加hive的环境变量, 同时确保hadoop环境变...

2018-06-08 11:31:57 2129 2

原创中国的高考其实就是机器学习模型吧

高考要求人像机器一样思考模型不需要构建, 原汁原味的’神经网络’模型训练数据集由老师们收集来的历年各省高考真题和答案组成, 但是这点训练数据已经远远不够了, 于是名师们根据已知数据生成相似的模拟题和答案, 逐年累加训练数据集的数据量训练数据由多个维度(数学,语文,英语,物理,化学,生物,政治,历史,地理……)组成模型训练历时3年或以上测试数据集由神秘人士每年提供一份, 要求模型在三天...

2018-06-07 11:11:23 588

原创 Shell循环控制语句

1. if语句输入字符串,如果是yes则打印正确,不是yes也是no的话打印不可识别,返回状态1,正常结束后返回0if then elif else fi#!/bin/sh echo '请输入yes或no' read x if [ $x = 'yes' ]; then echo 正确 elif [ $x = 'no' ]; then echo ...

2018-06-06 16:43:20 942

原创 MapReduce练习之倒排索引

0. 问题TF-IDF实现统计多个文档中一个单词出现的频数和出现在哪个文档中在map中读取当前文档的每一行数据,得到当前文档路径mapkey(单词:文档路径),mapvalue(数值1)在map端设置Combiner类(整合数据,减少向reduce端传输数据的网络开销)将map的输出重新组合输出&lt;单词,文档路径:单词频数&gt;输入文件为三篇txt英文文档输出文件格式为 ...

2018-06-06 10:26:02 365

原创 MapReduce练习之共同好友

0. 问题通过mapreduce找出用户A,B,C…中每两个人所共同拥有的好友都有谁输入文件 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A...

2018-06-05 13:51:47 595 1

原创 MapReduce练习之Top k

1. 输入文件格式algorithm,liuyifei,75,85,62,48,54,96,15 computer,huangjiaju,85,75,86,85,85 english,liuyifei,76,95,86,74,68,74,48 english,huangdatou,48,58,67,86,15,33,85 algorithm,huanglei,76,95,86,74,6...

2018-06-04 16:19:55 825

原创 MapReduce练习之二次排序

0. 运行环境idea+hadoop 2.9.0 本地调试, 各个类分开写输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序 A 1 B 2 C 7 A 9 A 4 C 5 B 1 B 91. MyJob主方法所在类package com;import org.apache.hadoop.conf.Configuration;impo...

2018-05-31 16:16:37 623 1

mysql-connector-java-5.1.38.jar

hive所有jar文件

hadoop.dll和winutils.exe

空空如也