大数据学习
学习真是太快乐了呀
这个作者很懒,什么都没留下…
展开
-
Spark学习
Spark是大数据处理中的一个非常重要的组件,一般使用Hadoop在底层作为分布式存储系统,上层使用Spark代替Hadoop原来的MapReduce此外还提供RDD编程、Spark SQL、流计算和机器学习。它功能齐全、计算速度快,可以使用Scala语言、python、Java进行编程,那么在本周学习了Spark的相关内容,目录如下:一、Spark的设计与运行原理Spark概述 Spa...原创 2019-10-13 14:03:01 · 142 阅读 · 0 评论 -
使用FileZilla软件向Ubuntu系统上传文件
需要向Linux系统中上传各个软件的压缩包,于是使用FileZilla软件连接上传,但是试了好几次FileZilla都显示:错误: Network error: Connection refused错误: 无法连接到服务器但是我也不知道什么原因,下门大学博客上说的是网络连接方式需要改为“桥接网卡”,但是修改过后并没有起效果,所以就上网找了找其它解决方法,后来才发现没有安装...原创 2019-08-28 20:31:48 · 878 阅读 · 0 评论 -
厦门大学林子雨老师大数据实验环境搭建索引
博客首页在Windows中使用VirtualBox安装UbuntuJava和SSH的安装配置Hadoop 2.7分布式集群环境搭建Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04Spark快速入门指南 – Spark安装与基础使用HBase的安装与运行Ubuntu安装hive,并配置mysql作为元数据库Ubuntu下Mong...原创 2019-08-26 22:05:39 · 4445 阅读 · 0 评论 -
分布式服务框架 Zookeeper — 管理分布式环境中的数据
目录Zookeeper 安装和配置详解单机模式集群模式数据模型如何使用 Zookeeper常用接口列表基本操作ZooKeeper 典型的应用场景统一命名服务(Name Service)配置管理(Configuration Management)集群管理(Group Membership)共享锁(Locks)队列管理结束语Zookeeper...原创 2019-08-24 18:50:32 · 121 阅读 · 0 评论 -
云计算相关知识
云计算:云计算网络:云计算服务器:云计算存储:高可用:共享存储上的虚拟机,可以使用故障迁移功能,通过配置一定的检测条件,发生故障时,触发虚拟机HA功能时期从其他主机上恢复运行集群资源调度:资源是虚拟机,调度是迁移虚拟机运行位置。通过设定CPU和内存的阈值,超过阈值会触发集群资源调度,将虚拟机迁移至CPU和内存利用率低的主机上,将负载过高的主机的利用率降到阈值以下...原创 2019-06-17 20:58:17 · 266 阅读 · 0 评论 -
Hive的常用HiveQL操作
一、Hive简介Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型,即使对于经验丰富的Java开发工程师来说,将这些常见的数据运算对应到底层的MapReduce Java API也...原创 2019-06-09 18:21:15 · 2985 阅读 · 0 评论 -
使用hadoop的MapReduce来实现WordCount
首先依次在终端输入命令sudo service ssh restart重启ssh服务。start-dfs.sh启动HDFS,start-yarn.sh启动yarn。然后输入jps命令查看进程输入vi article.data创建article.data并进入文件,按i键进行内容编辑模式,输入this is an example回车this is another exampl...原创 2019-06-07 18:09:31 · 466 阅读 · 0 评论 -
云端用python实现KNN算法
云计算概述及使用python语言实现KNN算法云计算概述云计算介绍(百度百科)云服务概述-----云服务类型应用层 -- SaaS 软件即 服务如 : Google APPS , SoftWare ,Services ;平台层对应 PaaS 平台即服务如: IBM Bluemix 、 Google APPEngine 、 Force.com ;基础设施层对应 Ia...原创 2019-06-02 11:37:21 · 421 阅读 · 0 评论 -
数据获取和存储综合-----进行kafka,flume,和hive的数据综合处理实验
依次输入命令开启ssh服务、开启mysql、启动hdfs、启动yarm、启动Zookeepr输入hive进入hive创建一张表,用来放数据:create table kafkatest(id int,name string,age int) clustered by(id) into 2 buckets stored as orc tblproperties('transacti...原创 2019-06-07 14:59:01 · 223 阅读 · 0 评论 -
Hive基础操作
输入命令sudo service ssh restart开启ssh服务接着开启mysql sudo service mysql start然后start-all.sh启动HDFS和YARN,输入cd /home/user/bigdata/apache-hive-2.3.4-bin/conf再输入vi hive-site.xml按i进行编辑将文件最后三条注释掉,即增加<!...原创 2019-06-07 14:31:23 · 155 阅读 · 0 评论 -
熟悉Hbase基本操作
首先打开终端,启动ssh服务sudo service ssh restart接着输入命令start-dfs.sh启动HDFS再使用命令zkServer.sh start启动Zookeeper输入命令start-hbase.sh开启Hbase服务,使用jps命令查看进程打开网页,网址输入http://localhost:16010可以查看HBase的情况。输入hba...原创 2019-06-07 14:16:24 · 432 阅读 · 0 评论 -
学习HDFS的基本操作
打开终端。输入命令sudo service ssh restart重启ssh服务输入start-dfs.sh启动HDFS,然后输入jps查看java进程打开网页,网址输入http://localhost:50070可以查看HDFS的情况。输入hadoop fs -ls /查看HDFS根目录下的文件输入命令创建一个test文件hadoop fs -mkdir /test...原创 2019-06-07 11:06:54 · 261 阅读 · 0 评论 -
使用sqoop工具将数据从mysql数据库导入到HDFS和Hbase
使用Sqoop进行数据导入配置ssh的免密登录终端输入:sudo service ssh restart重启ssh服务。终端输入:sudo service mysql start开启mysql。配置免密登陆:rm -rf ~/.ssh/再输入ssh-keygen敲三下回车输入ssh-copy-id user@localhost输入yes,需要输入passwor...原创 2019-06-07 00:49:41 · 1267 阅读 · 0 评论 -
大数据实践--使用kafka和flume组合进行日志采集
flume+Kafka日志采集实验打开终端,首先输入:sudo service ssh restart重启ssh服务。之后输入下述命令开启zookeeper服务:zkServer.sh start输入:cd /home/user/bigdata/apache-flume-1.9.0-bin进入flume目录,之后输入:bin/flume-ng agent --conf co...原创 2019-06-06 21:35:57 · 837 阅读 · 0 评论 -
Hadoop安装配置了两三天,在马上秃头的情况下配置好了大数据实验环境
Hadoop安装与配置,大数据学习计划想法在安装配置了两三天,从早到晚再到凌晨三四点我!终于终于配置好了大数据实验环境!!感动到哭呜呜呜配置的虚拟机为VMware,配置好的软件包括:Ubuntu16.04Hadoop2.7.1Spark2.1.0HBase1.1.5JDK1.8Scala2.11.8MySQLKafka_2.11-0.10.2.0Flume1.7.0...原创 2019-06-01 15:58:51 · 179 阅读 · 0 评论