大数据运维
文章平均质量分 57
整理Hadoop集群搭建方式,hadoop生态圈重要成员知识。例如:hive、hdfs、mr、sqoop等
清平乐的技术博客
学如逆水行舟,不进则退。
展开
-
SVN修改登录账号用户名
通过TortoiseSVN的clear Authentication Data和手动删除效果是一模一样的!都是对userName\Application Data\Subversion\auth\svn.simple\目录下的已保存登录用户信息文件进行删除。当再次用到svn时,会提示输入用户名密码,输入新的用户名密码即可。SVN安装后进行账号密码登录,如果要进行账号切换。原创 2024-10-18 14:08:28 · 413 阅读 · 0 评论 -
Python 报错 Max retries exceeded with url 解决方案
默认的http connection是keep-alive的,在post请求中,header中有这样一个字段:Connection,我们将其置为’close’requests使用了urllib3库,默认的http connection是keep-alive的,requests设置False关闭。原创 2024-06-26 14:17:37 · 1933 阅读 · 0 评论 -
Python实现base64加密/解密
【代码】Python实现base64加密/解密。原创 2024-06-12 13:43:16 · 1081 阅读 · 0 评论 -
Python实现MD5加密(三种方法)
【代码】Python实现MD5加密(三种方法)原创 2024-06-12 13:24:23 · 3327 阅读 · 0 评论 -
Python解决requests.exceptions.SSLError: HTTPSConnectionPool问题
【代码】python解决requests.exceptions.SSLError: HTTPSConnectionPool问题。原创 2024-06-07 16:36:12 · 291 阅读 · 0 评论 -
Python连接数据库报错pymysql.err.DataError:
python报错pymysql.err.DataError: (1366, “Incorrect string value: ‘\xE5\xA4\xAA\xE7\xA9\xBA…’ for column ‘title’ at row 1”),查看后台运行的状态,数据已经获取到,所以判断这种报错的问题,这种问题一般是编码的问题。回到创建数据库命令界面发现在创建时没有添加utf8,回到数据库的创建界面重新添加charset=utf8就没有问题了。或者navicat中手动修改。原创 2024-06-07 16:33:34 · 156 阅读 · 0 评论 -
Presto集群Web UI界面详解
Presto Web UI 可以用来检查和监控Presto集群,以及运行的查询。他所提供的关于查询的详细信息可以更好的理解以及调整整个集群和单个查询。Presto Web UI所展示的信息都来自于Presto系统表.当你进入Presto Web时,你将会看到如同1所示的界面:主要分为上下两部分,上面描述了集群信息,下面是查询列表。...原创 2022-08-29 16:01:19 · 2607 阅读 · 2 评论 -
crontab定时任务常用命令
一、常用命令1、查看crontab任务列表crontab -l2、编辑crontab定时执行任务crontab -e3、删除crontab定时任务crontab -r4、相关命令:systemctl start crond.service #启动服务systemctl stop crond.service #关闭服务systemctl status crond.service #查看服务状态systemctl restart crond.service #重启服务二、定时语法原创 2022-05-30 15:17:13 · 2691 阅读 · 1 评论 -
程序员必须了解的10大技术搜索引擎
作为一个IT技术开发者,我们经常会有查询资料、进行技术交流的需要,现在也有很多这样的平台,比如我们现在用的为几亿人服务的CSDN平台,除此之外还有很多其他平台,现在给大家介绍一下我收藏和经常使用的平台吧(排序不分先后,仅供参考)。1.CSDN我们的主场,大家都懂得。2.博客园博客园也是出现次数比较多的站了,它没有多余的广告,也没有过多的修饰,除了部分博主添加的动漫组件和背景音乐,给我们的印象就是简约,不信你可以点开链接博客园 - 开发者的网上家园看看,是不是如我所说:3.GitHubgithu原创 2022-05-18 10:28:36 · 6977 阅读 · 0 评论 -
Presto客户端命令
1.连接命令./presto-cli --server IP:8285 --catalog XX.properties–server 是presto服务地址;–catalog 是默认使用哪个数据源,后面也可以切换,如果想连接mysql数据源,使用mysql数据源名称即可;2.常用命令-- 查看数据源(catalog)show catalogs;-- 查看schemasshow schemas from 'catalog_name';-- 查看tablesshow tables原创 2022-05-17 19:50:48 · 1281 阅读 · 0 评论 -
MySQL密码重置方法(Windows中)
这里以mysql5.7版本为例1、关闭mysql:打开第一个cmd窗口执行 net stop mysql572、在第一个cmd窗口执行 mysqld --defaults-file="C:\ProgramData\MySQL\MySQL Server 5.7\my.ini" --skip-grant-tables ---注意路径(以你的实际情况为准)3、新开第二个cmd窗口执行 my...原创 2019-07-21 15:08:38 · 364 阅读 · 0 评论 -
云计算的三种服务模式
IaaS, PaaS和SaaS是云计算的三种服务模式。1. SaaS:Software-as-a-Service(软件即服务)提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储等等;2. PaaSPlatform-as-a-Service(平台即服务)提供给消...原创 2019-10-28 15:53:10 · 2705 阅读 · 0 评论 -
Confluence简介和使用
一、简介Atlassian Confluence(简称Confluence)是一个专业的wiki程序。它是一个知识管理的工具,通过它可以实现团队成员之间的协作和知识共享。Confluence不是一个开源软件,非商业用途可以免费使用。Confluence使用简单,但它强大的编辑和站点管理特征能够帮助团队成员之间共享信息,文档协作,集体讨论。目前,Confluence被用于广泛地用于项目团队,开发团队,市场销售团队。二、Confluence的优势企业级的安全性;安装简单,易于管理;简洁,友好的用原创 2020-05-20 20:22:05 · 23962 阅读 · 0 评论 -
敏捷开发(scrum)简介
敏捷开发(scrum)是一种软件开发的流程,强调快速反应、快速迭代、价值驱动。Scrum的英文意思是橄榄球运动的一个专业术语,表示“争球”的动作;运用该流程,你就能看到你团队高效的工作。一、四大价值观(特点)敏捷开发的特点就是下面4句话:「个体与交互」胜过「过程与工具」「可以工作的软件」胜过「面面俱到的文挡」「客户协作」胜过「合同谈判」「响应变化」胜过「遵循计划」说明:(1)敏捷开发(scrum)适用于竞争激烈,快速变化的市场。 敏捷的客户协作观念,快速迭代能帮助团队以最小成本,最快速原创 2020-07-21 09:48:51 · 8277 阅读 · 0 评论 -
docker 沙箱(沙盒)简介
引言:沙箱虚拟化是一种资源的管理技术,将计算机中的实体资源,进行抽象,然后呈现出来,目的是为了打破实体结构之间的不可分割障碍,使用户以更好的组态使用资源。例如:anaconda 就是以沙盒环境,针对的是Python环境。搭建django过程中的virtualenv 就是python的虚拟环境。一、docker简介docker使用集装箱的思想,在开发过程中犹豫每个人的教育背景,个人习惯不同,代码水平不一致。有的程序写在linux环境,有的代码写在windows环境,在开过程中没有问题,但是项目部署原创 2020-05-20 19:33:12 · 3339 阅读 · 0 评论 -
大数据工程师告诉你什么是Maven
Maven在大数据开发中可谓是一个略微复杂的构成,从基础概念到它的具体用途都可谓是有满满的干货知识。简而言之,Maven 一句话概括就是一个项目管理工具,可以对 Java 项目进行构建、依赖管理,是一个自动化构建工具。一、什么是Maven?如今我们构建一个项目需要用到很多第三方的类库,如写一个使用Spring的Web项目就需要引入大量的jar包。一个项目Jar包的数量之多往往让我们瞠目结舌,并且Jar包之间的关系错综复杂,一个Jar包往往又会引用其他Jar包,缺少任何一个Jar包都会导致项目编译失败。原创 2022-04-26 13:30:39 · 248 阅读 · 0 评论 -
hprof是什么文件?可以删除吗
hprof是什么文件?是java进程的内存镜像文件,里面包含了内存堆详细的使用信息。hprof文件可以删除吗*.hprof的文件比较大,通常几十个G,有可能是错误日志类文件,运行正常是可以删除的。类似于飞机黑匣子数据。没有问题可以删除,但是有问题可以从这些文件查看。...原创 2022-04-25 14:30:08 · 29882 阅读 · 0 评论 -
Sqoop常见报错及解决方式
1.java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver原因:[SQOOP_HOME]/lib/下缺少mysql驱动包2.Caused by: java.lang.RuntimeException: Can’t parse input data: '800 1 620025 塑料油箱 ';java.io.IOException: Can’t export data, please check原创 2021-07-07 15:46:31 · 6137 阅读 · 2 评论 -
大数据局执行引擎MR、Tez和Spark对比
MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”。TezTez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可原创 2020-12-23 16:52:51 · 9810 阅读 · 4 评论 -
强制关闭正在运行的MapReduce任务
获取任务id,然后通过命令关闭:hadoop job -listhadoop job -kill job_id新版本的hadoop可能要新的命令:yarn application -listyarn application -kill job_id原创 2020-11-23 14:55:27 · 511 阅读 · 0 评论 -
NiFi 1.9.2安装部署和使用(CentOS 7)
一、安装部署Linux中需要安装jdk,因为NiFi就是Java写的。二、NIFI启停三、web界面四、运行日志五、常见问题参考资料:官网地址:http://nifi.apache.org/文档:http://nifi.apache.org/docs.html原创 2020-09-19 15:55:28 · 2804 阅读 · 0 评论 -
yarn web管理界面
原生Hadoop安装完Yarn后,可以在浏览器中通过http://master:8088来访问Yarn的WEB UI,HDP支持Ambari控制台访问。如下图:一、集群指标区域包含如下内容:Apps Submitted:提交的任务数目Apps Pending:挂起的任务数目Apps Running:运行的任务数目Apps Completed:完成的任务数目Containers Running:正在运行的container数目Memory/VCores used:使用了整体集群的内存/虚原创 2020-08-03 10:31:32 · 11026 阅读 · 2 评论 -
大数据常用非关系型数据库汇总(NoSQL)
通常数据库分为关系型数据库和非关系型数据库,关系型数据库的优势到现在也是无可替代的,比如MySQL、Oracle、SQL Server、DB2、SyBase、Informix、PostgreSQL以及比较小型的Access等等数据库,这些数据库支持复杂的SQL操作和事务机制,适合小量数据读写场景;但是到了大数据时代,人们更多的数据和物联网加入的数据已经超出了关系数据库的承载范围。大数据时代初期,随着数据请求并发量大不断增大,一般都是采用的集群同步数据的方式处理,就是将数据库分成了很多的小库,每个数据库的数原创 2020-05-17 18:55:36 · 7505 阅读 · 0 评论 -
Impala的invalidate metadata与refresh 区别
在Impala中,invalidate metadata与refresh语句都可以用来刷新表,但它们本质上还是不同的。一、Impala on Hive介绍我们一般会采用传统的MySQL或PostgreSQL数据库作为Hive的Metastore(元数据存储)组件。在CDH中默认是MySQL,我们可以通过show tables in hive语句清晰地看到Hive Metastore中的各个表。mysql> show tables in hive;+-----------------------原创 2020-05-17 16:39:33 · 1291 阅读 · 0 评论 -
常见分布式存储系统
一、数据存储类型一般情况下,我们将存储分成了4种类型,基于本机的DAS和网络的NAS存储、SAN存储、对象存储。对象存储是SAN存储和NAS存储结合后的产物,汲取了SAN存储和NAS存储的优点。1.DASDAS将计算、存储能力一把抓,封装在一个服务器里。大家日常用的电脑,就是一个DAS系统。2.NAS如果将计算和存储分离了,存储成为一个独立的设备,并且存储有自己的文件系统,可以自己管理...原创 2020-04-21 16:22:40 · 4439 阅读 · 0 评论 -
结构化数据、半结构化数据和非结构化数据
在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据。在大数据环境下,存在很多数据以非结构化,或者半结构化的状态呈现,如图片,声音,视频以及文本等。从采集,存储,分析和解释的角度而言,目...原创 2020-04-21 15:26:36 · 2476 阅读 · 0 评论 -
大数据常用同步工具(DataX/Sqoop/Nifi/Canal等)
一、离线数据同步DataX阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,定义好配置json文件执行脚本就可以了,非常适合离线数据,增量数据可以使用一些编码的方式实现,但是也仅仅针对insert数据比较有效,update数据就不适合github地址:https://github.com/alibaba/DataXSqoopSq...原创 2020-04-16 10:44:25 · 17782 阅读 · 0 评论 -
CDH常用优化配置_HDFS配置
1.dfs.block.sizeHDFS中的数据block大小,默认是64M,对于较大集群,可以设置为128或264M2.dfs.datanode.socket.write.timeout增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的时间,避免出现IO超时3.dfs.datanode.max.transfer.thre...原创 2020-04-13 17:55:17 · 1803 阅读 · 0 评论 -
今日头条大数据架构
字节跳动创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。一、产品背景今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合):5亿注册用户2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。几乎为成倍增长。日活4800万用户20...原创 2020-04-12 15:09:33 · 2247 阅读 · 0 评论 -
HDFS常用命令整理
HDFS 文件系统提供了相当多的shell 操作命令,大大方便了程序员和系统管理人员查看、修改HDFS 上的文件。进一步,HDFS 的操作命令和Unix/Linux 的命令名称和格式相当一致,因而学习HDFS 命令的成本也大为缩小。一.命令帮助注:hdfs dfs等同于hadoop fs,这里均以hdfs dfs演示[root@node01 ~]# hdfs dfsUsage: hadoo...原创 2020-04-11 16:30:35 · 838 阅读 · 0 评论 -
sqoop参数详解(全量、增量导入导出)
从RDBMS到HIVE:--connect jdbc:oracle:thin:@//192.168.156.111/test--username test--password test--query select * from it.t_test where inserttime >= to_date('${date1}','yyyy-mm-dd') and inserttime...原创 2020-03-31 10:36:12 · 4251 阅读 · 0 评论 -
Zeppelin 0.8.1安装部署
官网 http://zeppelin.apache.org/docs/0.8.1/quickstart/install.html(了解其它版本改一下版本号)1.下载Zeppelin 0.8.2安装包下载地址:http://archive.apache.org/dist/zeppelin/zeppelin-0.8.1//zeppelin-0.8.1-bin-all.tgz(下载其它版本改一下...原创 2020-03-26 16:46:42 · 943 阅读 · 0 评论 -
sqoop job 实现自动增量导入
一、普通增量导入sqoop import --connect jdbc:mysql://172.16.100.173:3306/hdb \--username root --password oracletest \--table autoextend \-m 1 \--incremental append \--check-column id \--last-value 11 \...原创 2020-03-16 13:47:06 · 390 阅读 · 0 评论 -
Azkaban工作模式和运行原理
一、三大组件和三种模式1.其中主要有三个组件组成:Relational Database(只支持MySql)Azkaban WebServerWebUI)Azkaban ExecutorServer2.Azkaban2目前支持三种模式:solo server modetwo server modemultiple executor mode3.Azkaban界面中的主要元素有三个...原创 2020-03-14 13:22:05 · 1475 阅读 · 0 评论 -
大数据工具_ Zeppelin和Hue简介
一、Apache ZeppelinApache Zeppelin主要提供web版的数据分析和可视化(类似于ipython notebook,jupyter 等可以直接在浏览器中写代码、笔记并共享),是一种开源的数据交互软件。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。可实现你所需要的:数据...原创 2020-03-26 14:29:30 · 3179 阅读 · 0 评论 -
Apache 、CDH、TDH、HDP、MapR等Hadoop版本区别
目前在中国流行的是apache hadoop,Cloudera CDH,当然Hortonworks也有用的apache hadoop则是原生的hadoop。Cloudera有免费版和企业版,企业版只有试用期。Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。Apache Ambari是一个基于...原创 2020-03-17 11:45:56 · 6269 阅读 · 0 评论 -
Hadoop原理之_MapReduce工作流程
在MapReduce整个过程可以概括为以下过程:输入 --> map --> shuffle --> reduce -->输出输入文件会被切分成多个块,每一块都有一个map taskmap阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是0.8,也就是说当缓冲区中达到80M的时候就会往磁盘上写。如果map计算完成后的中...原创 2020-03-11 15:10:53 · 501 阅读 · 0 评论 -
数据倾斜及解决办法
一、什么是数据倾斜简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举例说明:举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 20G 是其...原创 2020-01-17 15:18:45 · 2290 阅读 · 1 评论 -
Hive使用01_Hive简介及基本框架
了解Facebook 大数据量处理和数据仓库的历史非常有助于理解Hadoop 、Hive 和数据仓库的发展轨迹:1.出现背景实际上如传统的非互联网公司一样, Facebook 的数据仓库一开始是构建于MySQL (目前最为流行的开源关系型数据库系统,商用的则是甲骨文的Oracle 、微软的SQL Server 以及IBM 的DB2 等)之上的,但是随着数据量的增加, Facebook 的数据...原创 2019-08-28 13:48:09 · 310 阅读 · 0 评论 -
Hadoop原理之_Sqoop
1、该脚本是创建sqoop的job脚本,原则上只需要执行一次即可,以后不需要执行该脚本,只需要执行sqoop job -execjobname。2、该文件中的全部为增量表的sqoop的job语句。3、如果需要重新运行,则运行方式:load_data_incr_sqoop.sh#增量将数据导入到hive中(注:业务系统中表有自增的id的就用id来增量导出;否则都用create_date字...原创 2019-11-01 14:18:14 · 390 阅读 · 0 评论