![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
弱水三千、先干为敬
这个作者很懒,什么都没留下…
展开
-
HDFS详解
1.HDFS概念HDFS(Hadoop Distributed File System),分布式文件系统,用于存储文件。最大的特点是适合一次性的写入,多次的读取,并且已经写入的文件无法修改。1.1 优缺点优点:1 高容错性:一份数据可以保存多份,避免丢失2 适合大数据处理:能够处理百万规模以上的文件数量3 价格低:将多台低性能集群组合成集群,提高性能缺点:1 不适合低延时的数据访问2 不适合存储大量的小文件3 不支持并发写入数据,而且无法修改2.HDFS工作原理由四个部分组成,分别原创 2020-05-27 10:08:10 · 287 阅读 · 0 评论 -
集群与分布式的关系
集群:多台机器共同完成一件事(任务)分布式:多台机器共同完成一件事(任务),在此基础上将任务细分,不同机器任务不同。集群不一定是分布式,分布式一定是集群原创 2020-05-27 09:24:49 · 410 阅读 · 0 评论 -
Mysql导入数据到HDFS
1、启动HDFSsbin/start-dfs.sh2、启动yarnsbin/start-yarn.sh (在resourcemanager节点启动,端口8088)3、启动zookeeperbin/zkServer.sh start4、sqoop导入hdfs会自动创建对应保存路径bin/sqoop import \--connect jdbc:mysql://xxx:3306/f...原创 2019-11-22 10:49:42 · 1384 阅读 · 0 评论 -
Idea打jar包提交到Spark集群运行
1、启动hadoopsbin/start-dfs.sh2、启动sparksbin/start-all.sh3、jps4、上传jar包5、提交任务bin/spark-submit --class com.pro.second.KafkaDirectorDemo3 SparkStreaming-1.0.0-jar-with-dependencies.jar(可加–master sp...原创 2019-11-16 09:34:20 · 691 阅读 · 1 评论 -
采用Flume将Mysql增量数据采集至kafka
1、准备工作(1)安装kafka、flume集群,以及mysql数据库(2)下载flume-ng-sql-source-1.4.1.jar,放入flume的lib目录下链接:https://pan.baidu.com/s/1wqxRR9V2PdcujTQAnru4aA提取码:i9m3或sql-json插件包下载地址:https://github.com/yucy/flume-ng-sql...原创 2019-11-11 16:32:31 · 620 阅读 · 0 评论