cloud/data
文章平均质量分 92
xinyuan_java
这个作者很懒,什么都没留下…
展开
-
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案转载 2022-12-29 16:18:47 · 324 阅读 · 0 评论 -
FastDFS
说起分布式文件管理系统,大家可能很容易想到 HDFS、GFS 等系统,前者是 Hadoop 的一部分,后者则是 Google 提供的分布式文件管理系统。不过对于一般的公司而言,自己去搭建分布式文件管理系统并维护,成本太高,还不如直接上云服务。对于开发者而言,只需要通过 RESTful API 或者一些第三方客户端就可以方便的去操作对象存储,在用户下载使用图片前,可以创建图片样式模板或传入图片处理参数对图片进行处理,例如剪切、压缩。可以自己搭建分布式文件管理系统,自己搭建的话,FastDFS+Ngin转载 2020-11-18 14:55:00 · 148 阅读 · 0 评论 -
sqoop1.99.7 启动报错-NoClassDefFoundError
hadoop 2.6.5+ sqoop 1.99.7启动报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration at org.apache.sqoop.security.authentication.SimpleAuthenticatio...原创 2019-08-13 17:28:42 · 638 阅读 · 0 评论 -
Hadoop出现错误:WARN util.NativeCodeLoader
安装Hadoop的时候直接用的bin版本,根据教程安装好之后运行的时候发现出现了:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 错误,百度很多都说是版本(32,64)问题,需要重新编译源...原创 2019-08-14 10:26:42 · 745 阅读 · 0 评论 -
Hadoop/Spark生态圈
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于spark共存,ha...转载 2019-09-27 16:56:52 · 898 阅读 · 0 评论 -
大数据经典学习路线
1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要...转载 2019-09-27 17:04:00 · 150 阅读 · 0 评论 -
大数据学习路线图
一、入门准备1、linux操作基础1) Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程2) Linux的常用命令:常用命令的介绍、常用命令的使用和练习(文件操作、用户管理与权限、免密登陆配置与网络管理)3) Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用;4) Linux启动...转载 2019-09-27 17:12:36 · 191 阅读 · 0 评论