大数据
WuGenQiang
这个作者很懒,什么都没留下…
展开
-
Spark介绍与安装详解(Centos7)
Spark:(1)是一个高速的可扩充的处理海量数据的引擎(2)使用scala开发(3)提供spark shell 供开发人员学习或者处理数据(4)可以使用python,java,R,scala语言开发spark应用程序,用于海量数据处理(5)Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。(6)Spark是hadoop的升级...原创 2018-07-27 10:08:02 · 979 阅读 · 0 评论 -
Spark学习之弹性分布式数据集RDD
目录RDD:弹性分布式数据集一、RDD的介绍1.1 背景1.2 RDD的简述1.3 RDD的属性1.4 RDD在Spark架构中的运行过程二、RDD的使用2.1 RDD的创建2.1.1 通过读取文件生成的2.1.2 通过并行化的方式创建RDD2.1.3 通过现有的RDD2.2 RDD的操作方式2.2.1 Transformations(转化)...原创 2018-07-27 13:44:55 · 638 阅读 · 0 评论 -
Spark学习之RDD操作使用(pyspark)
两种常用的RDD类型:1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据 2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式...原创 2018-07-27 16:04:33 · 671 阅读 · 0 评论 -
Hbase入门操作详解(单机模式)
一.配置Hbase1.单机配置hbase-site.xml[root@master1 ~]# vim /etc/hbase/conf/hbase-site.xml添加:<configuration> <property> <name>hbase.rootdir</name> ...原创 2018-07-23 09:28:08 · 1797 阅读 · 0 评论 -
运行bash脚本,访问网页,生成日志记录
1.编写bash脚本#!/bin/bash step=1 #间隔的秒数,不能大于60 host_list=("localhost" "192.168.75.137" "master1" "wugenqiang.master")while [ 1 ]do num=$(((RANDOM%7)+1)) seq=$(((RANDOM%4))) url="http...原创 2018-07-31 20:50:42 · 1178 阅读 · 1 评论 -
centos7中定时计划任务5分钟一次(crontab)
1.输入命令:[root@master ~]# crontab -e2.添加:*/5 * * * * /usr/share/nginx/spark_run_nginx_log.sh 2>&1 >> /usr/share/nginx/crontab_spark_run_nginx.log3.等待验证:[root@master ~]# cd /usr...原创 2018-08-02 11:26:54 · 9634 阅读 · 0 评论 -
kafka连接flink流计算,实现flink消费kafka的数据
一、启动Kafka集群和flink集群环境变量配置(注:kafka 3台都需要设置,flink仅master设置就好)[root@master ~]# vim /etc/profile配置完执行命令:[root@master ~]# source /etc/profile2.创建执行文件,添加启动服务[root@master ~]# vim start_kafka....原创 2018-08-16 11:46:47 · 43336 阅读 · 6 评论 -
centos安装配置使用scala
1.下载文件scala2.12.6.tgz [root@master ~]# wget https://downloads.lightbend.com/scala/2.12.6/scala-2.12.6.tgz 2.解压文件到指定目录 [root@master ~]# tar -xzvf scala-2.12.6.tgz -C /opt/ 3. 编辑配置...原创 2018-08-23 15:23:05 · 804 阅读 · 1 评论 -
Linux下报:-bash: ./server.sh: 权限不够
1.错误原因: 这是因为对*.sh文件的读、写、运行权限不足;-bash-4.2$ ./server.sh-bash: ./server.sh: 权限不够2.解决方案:chmod 777 ./*.sh-bash-4.2$ chmod 777 ./*.sh ...原创 2018-07-30 16:10:44 · 28571 阅读 · 0 评论 -
大数据可视化之Nginx日志分析及web图表展示(HDFS+Flume+Spark+Nginx+Highcharts)
项目需求:采集1-3台机器的nginx的access.log(/var/log/nginx/access.log)实时保存在HDFS中使用spark对当天的日志进行汇总分析在web界面中以图表的形式展示出来,需要体现如下2个表:1:哪个URL访问数量最大,按访问量从多到少排序展示出来2:哪些IP访问造成404错误最多,按从多到少排序展示出来提高练习:使用spark对所有...原创 2018-08-08 16:01:18 · 7973 阅读 · 0 评论 -
Hive企业级应用环境部署
一、配置zookeeper1.分别在4台服务器上初始化ID(id=1,2,3,4)根据实际服务器台数而定IDecho ID > /var/lib/zookeeper/myid[root@master1 ~]# echo 1 > /var/lib/zookeeper/myid[root@master2 ~]# echo 2 > /var/lib/zookeepe...原创 2018-07-20 08:51:28 · 713 阅读 · 0 评论 -
【笔记分享】VMware中安装centos系统
VMware的中安装CentOS虚拟机原创 2018-07-09 19:34:42 · 368 阅读 · 0 评论 -
【借鉴学习】安装CentOS后要做的10件事
CentOS是一款社区驱动的免费Linux发行版,也是一款功能很强大的可替代红帽企业级Linux(RHEL)的发行版。它源自红帽企业级Linux的源代码。安装CentOS 7后,你就可以开始使用这款操作系统了,但是我们可以对新的核心系统执行诸多操作,以便最大限度地利用它。这些操作大多数还适用于红帽企业级Linux的,因为CentOS的的大多数功能与它相似。不妨看一下这篇文章,你应该考虑做好这些事,...转载 2018-07-09 19:50:28 · 963 阅读 · 0 评论 -
大数据实习笔记
#2018-07-19#1.同步集群时间2.数据导入flume使用 flume 收集 nginx 服务器的日志到 hdfs (1)配置代理[root@master1 ~]# vim /etc/flume/conf/flume.conf添加:# #配置Agenta1.sources = r1a1.sinks = k1a1.channels = c1# # 配...原创 2018-07-17 09:28:22 · 7560 阅读 · 0 评论 -
Hbase集群(分布式)
一.配置集群模式1.修改Hbase配置文件hbase-site.xml[root@master1 ~]# vim /etc/hbase/conf/hbase-site.xml添加:<configuration> <property> <name>hbase.rootdir</name>...原创 2018-07-23 13:40:31 · 356 阅读 · 0 评论 -
【学习笔记】CentOS7安装Mysql5.7
一、说明1.linux环境:本人的是centos72.mysql:本文选择的是5.7版本3.安装需要下载依赖包,使用yum安装的方式二、安装Mysql1.下载原创 2018-07-11 21:27:07 · 345 阅读 · 0 评论 -
大数据实习服务启动项汇总
启动master1节点上的服务:systemctl start hadoop-hdfs-namenodesystemctl start hadoop-hdfs-datanode启动master2节点上的服务:systemctl start hadoop-hdfs-datanodesystemctl start hadoop-hdfs-secondarynamenode启动s...原创 2018-07-23 15:04:43 · 362 阅读 · 0 评论 -
【学习笔记】Linux中的 MongoDB 安装、启动、连接以及停止操作详解
待写原创 2018-07-12 11:40:53 · 796 阅读 · 0 评论 -
搭建hadoop分布式集群以及大数据开发环境(配置hdfs,yarn,mapreduce等)
一、hadoop集群1.节点master:master1: ip:192.168.75.137master2: ip:192.168.75.138slave:slave1: ip:192.168.75.139slave2: ip:192.168.75.140操作:(1)查看ipifconfig(2)更改hostname主机名hostnamec...原创 2018-07-18 17:40:53 · 1034 阅读 · 0 评论 -
MongoDB数据库基本操作使用详解
MongoDB操作演示原创 2018-07-13 09:20:44 · 1887 阅读 · 0 评论 -
MongoDB权限管理用户
MongoDB权限管理用户原创 2018-07-13 14:29:19 · 2841 阅读 · 1 评论 -
Linux下MongoDB集群之创建并配置副本集群
Linux下创建并配置MongoDB副本集群原创 2018-07-13 18:53:36 · 1133 阅读 · 0 评论