罅隙的光-CSDN博客

转载 NoSQL（非关系型数据库）

一、关系型数据库简介关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、浪潮K-DB等。实体关系模型（Entity-Relationship Model)，简称E-R Model是陈品山（Pete...

2019-05-19 20:11:54 1153

转载 spark

一、简介1、什么是Spark官网地址：http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算...

2019-05-19 11:01:18 360

转载安装配置Hive、MySQL及其JDBC驱动

安装Hive（1）下载安装包可从apache上下载hive安装包：http://mirror.bit.edu.cn/apache/hive/（2）压缩包解压：（2）移动至指定目录：（这里是移动至/usr/local/下）1.2. 为Hive建立相应的MySQL账户,并赋予足够的权限：（1）登录mysql：（2）建立hive用户：（3）赋予足够权限：gr...

2019-05-19 09:54:54 8664 1

转载 HBase安装配置

HBase安装配置①下载压缩包（选择与自己安装的Hadoop版本的兼容版本，见后面附录）官网下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/选择稳定版hbase-1.4.9-bin.tar.gz，在Windows里面下载。②将压缩包从Windows传输到Linux当前目录下SecureCRT 【File】→【Co...

2019-05-18 15:54:32 922

转载 MapReduce分布式编程

Combiner函数本地化的reducerPartitioner函数决定着Map节点的输出将被分区到哪个Reduce节点什么是shuffle怎样把map task的输出结果有效地传送到reduce端？map输出之前，在内存里经过sort和combiner，再将所有的输出集合到 partitioner进行划分到不同的reducer，在每个分区（partition）中，再进行内存...

2019-05-18 15:18:39 155

转载 JDK+Hadoop安装配置、集群模式搭建

1.VMWare 12安装激活和CentOS7安装https://jingyan.baidu.com/article/6079ad0ec6275928ff86dbb7.html3.SecureCRT安装https://jingyan.baidu.com/article/c1a3101ea80badde656deb83.html5.JDK+Hadoop安装配置JDK+Hadoop安装配置、...

2019-05-17 17:12:31 148

转载安装配置JDK+Eclipse+Maven以及HDFS命令和Java API的实验报告

一、安装JDK+Eclipse+Maven步骤：1.安装JDK→2.安装Eclipse→3.安装Maven→4. Eclipse里配置Maven （下载Windows版本，在Windows里安装使用。）1.安装配置JDK①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe：https://www.oracle.com/technetwork/java/javas...

2019-05-17 16:09:21 536

转载 Hive学习

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用...

2019-04-22 19:41:23 220

原创爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。我使用的是八爪鱼采集器1.简介八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心，可以在很短的时间内，轻松从各种不同的网站或者网页获取大量的规范化数据，帮助任何需要从网页获取信息的客户...

2019-03-11 20:49:01 115

转载 Hadoop生态圈

hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce。HDFS（Hadoop分布式文件系统）Hadoop分布式文件系统(Distributed File Sys...

2019-03-11 19:36:27 89

转载大数据分析的4种典型工具简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throu...

2019-03-04 20:31:54 5500

weixin_44075875的博客