Hadoop
文章平均质量分 64
Ayanha
这个作者很懒,什么都没留下…
展开
-
hdfs数据写入hudi表并同步hive
将topic的json解析为一层平铺的k-v def json_format(item) : new_item = {原创 2023-04-12 19:12:21 · 360 阅读 · 0 评论 -
Hadoop与Linux常用交互命令
一般,在linux命令前加。原创 2023-04-11 19:02:57 · 306 阅读 · 0 评论 -
数据湖之Hudi
Hudi介绍原创 2023-04-04 14:40:51 · 559 阅读 · 0 评论 -
JPS&内存清理机制
which jps #jps在jdk下,查看java进程jpsjps -l对应java进程的标识文件路径:/tmp/hsperfdata_启动进程的用户名把标识文件移走以后,jps就看不到相应进程了进程所属的用户只能查看自己的进程信息;root可查看所有进程信息,但显示进程不可用进程真假判断ps -ef |grep 进程号ps -ef |grep 进程号 |grep -v grep #查看过滤掉查看进程命令本身的进程ps -ef |grep 进程号 |grep -v grep |wc -l原创 2021-02-21 14:52:02 · 633 阅读 · 0 评论 -
wordcount案例
Hadoop与linux的交互hadoop是安装在linux上的集群,所以二者之间需要交互。Linux命令是操作Linux的文件系统的,而hadoop有自己的文件系统hdfs,所以我们不能直接用Linux命令来操作Hadoop上的文件。此时就需要交互语言hadoop上的命令基本同Linux,只是需要在前面加hadoophadoop的根目录 / 指的是:hdfs://user/机器名:端口/如下可查看hadoop命令[root@Hadoop01 /] hadoopUsage: hadoop [原创 2021-02-06 19:44:06 · 208 阅读 · 0 评论 -
Hadoop启动报错:Unable to load native
启动之后总有警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable作者:hongXkeX链接:https://www.jianshu.com/p/1c40c101a7e2来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。...原创 2021-02-06 18:34:18 · 1497 阅读 · 0 评论 -
hadoop伪分布式部署
hadoophadoop官网:hadoop.apache.orgapache官网都是:项目名称.apache.org如:spark官网是spark.apache.orgHadoop2.x(CDH5.x)官网:http://archive.cloudera.com/cdh5/cdh/5/hadoop部署一、hadoop安装1、创建用户useradd byysu - byyll2、创建文件夹mkdir app data software bin log sourcecode tmpll原创 2021-02-05 23:55:36 · 514 阅读 · 0 评论 -
Hadoop基础
Hadoop生态系统HDFS分布式文件系统:数据存储DataNode:存储与读取文件数据(每个文件都被分成若干个数据块block,这些数据块分布存储在不同的DataNode上,即数据分布存储在整个HDFS服务器集群中)NameNode:存储元数据,接收数据读写请求并指派DataNode进行数据存取(文件路径名、数据块ID、存储位置等信息)HDFS高效性:分布存储,并行访问(一个文件数据的不同数据块在不同服务器上,可以进行并行访问,提高访问速度)HDFS高可用性:多备份,严防控1)文件备份:同一个原创 2021-01-31 23:27:23 · 65 阅读 · 0 评论