自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Centos设置局域网ntp时钟同步

以下内容讨论在某个无法连接外网的局域网中设置时钟同步。假设在一个局域网内有两台服务器:主机名IP服务器角色ntp-server192.168.0.100ntp服务器test192.168.0.101普通服务器ntp-server作为ntp服务器,test参考ntp-server的时间进行时钟同步。安装ntp服务需要做时钟同步的所有服务器(包括n...

2020-04-30 16:36:35 1181

原创 YARN架构及原理理解

概述Hadoop YARN是一个资源调度框架。YARN的基本思想是将资源管理和作业调度/监控的功能分解为单独的守护进程。原理简介YARN拥有一个全局的ResourceManager(RM),每个节点有一个NodeManager(NM)以及每个应用程序有一个ApplicationMaster(AM)。ResourceManager和NodeManager构成了数据计算框架。Resource...

2020-04-30 16:20:55 283

原创 MapReduce原理理解

概述Hadoop MapReduce是一个软件框架,用于轻松编写应用程序,以可靠,容错的方式在大型集群(数千个节点)的商用软件上并行处理大量数据(多是TB级的数据集)。MapReduce作业通常将输入数据集拆分为独立的块,这些块由Map任务以完全并行的方式处理。框架对Map的输出进行排序,然后输入到Reduce任务。通常,作业的输入输出都存储在文件系统中。该框架负责调度任务,监视任务并重新执行...

2020-04-30 16:19:47 466

原创 HDFS架构及原理理解

概述HDFS全称是Hadoop Distributed File System,也就是Hadoop分布式文件系统,是Apache Hadoop的核心工程。HDFS具有高度容错能力,旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。这里讨论一下我对HDFS架构及原理的理解。NameNode,DataNodes和客户端HDFS有一个master/...

2020-04-30 16:17:13 710

原创 mysql5.7初始密码设置

在安装mysql是,如果安装5.6版本,初始化的root用户是无密码的,但是如果安装5.7版本,初始化的root用户是有密码的。这个密码的设置在不同的操作系统上会有不同,这里记录R系和U系操作系统的设置细节。R系操作系统代表:Redhat,CentOS安装mysql5.7后,会生成一个随机密码,查找这个随机密码的方法如下:grep 'temporary password' /var/log...

2020-04-30 16:11:38 831

原创 Spark向Hive表写数据报错

问题描述环境说明:我使用的是Hadoop生态软件都是社区版。使用Spark SQL向Hive表写数据,数据写入正常,并没有发现其他任何异常,但是日志信息出现一个ERROR,如下:ERROR hdfs.KeyProviderCache: Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyP...

2020-04-30 16:08:52 2837 2

原创 Hive操作报错

问题描述我在搭建大数据技术栈的时候,在hive环节进行测试,测试及报错如下:hive> insert overwrite table dw.people3 select * from ods.people1;Query ID = hdfs_20190103084929_d1a58db2-8ce6-40b1-a55c-2fe881e67ad5Total jobs = 1Launch...

2020-04-30 16:07:52 1935 2

原创 Ambari那些事儿

修改ambari web访问端口号ambari web访问端口默认是8080。修改此端口方法如下:在 /etc/ambari-server/conf/ambari.properties 文件中追加一行client.api.port=<port_number>Ambari使用MySQL作为元数据库Ambari默认使用PostgreSQL作为元数据库,但是其本身是支持多种数据...

2020-04-30 16:01:53 508

原创 使用本地源安装Ambari和Hadoop

概述本文着重介绍如何安装Ambari,并简单描述如何使用Ambari部署Hadoop服务。操作系统:CentOS 7网络:内部局域网Ambari版本:2.6.1.0HDP版本:2.6.4.0在不能连接外网的情况下,我需要预先下载相应的Ambari安装源和HDP安装源以及HDP-UTILS安装源。如果在一个可以连接外网的环境中,也可以直接使用Hortonworks提供的线上源,不过一...

2020-04-30 16:00:26 441

原创 Flask表单验证总是返回False

我在开发Flask应用时,使用了Flask-WTF插件,代码逻辑是:在validate_on_submit验证返回False时,页面会返回当前页面。调试的时候,在页面点击提交后,没有反应或者准确说总是返回当前页面。于是在后台打印validate_on_submit返回结果,发现总是返回False,经过查阅资料,发现这个问题可能是CSRF导致的。经过调试,确实是这个问题。解决办法:在模版添加{...

2020-04-30 15:56:50 457

原创 Ambari Agent注册失败

描述Ambari注册主机的时候,ambari-agent出现如下错误:NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library versions.解决在ambari-...

2020-04-30 15:51:38 907

原创 爬虫-Scrapy实战二

本项目是 Scrapy实战一 的升级版,仅供学习使用。本项目在 Scrapy实战一 的基础上优化了保存到json的数据格式,并引入 Item Loaders 和 Item Pipeline改变保存到json的数据格式在 Scrapy实战一 中,我们使用以下命令保存数据:scrapy crawl dianying -o items.json这里有一个问题,就是在items.json文件中...

2020-04-30 15:48:12 196

原创 爬虫-Scrapy实战一

本项目是 python scrapy 爬虫 练手项目,仅供学习使用。目标获取 电影天堂-最新电影 的所有电影的详情页的url,title和磁力链接magnet。创建项目在开始爬取之前,你必须创建一个新的Scrapy项目。 进入你打算存储代码的目录中,运行下列命令:scrapy startproject dianying该命令将会创建包含下列内容的 tutorial 目录:diany...

2020-04-30 15:17:43 463

原创 Mysql版本导致SQLAlchemy contains查询结果不同

问题描述我在开发个人网站时,关于搜索功能的实现本打算使用Elasticsearch,但是奈何机器配置太低,跑不起来,于是退而求其次,使用了SQLAlchemy的contains方法,如下:posts = Post.query.filter(or_(Post.title.contains(g.search_form.q.data), Post.content...

2020-04-30 15:09:00 854

原创 go-ethereum学习笔记

前言本篇文章简单介绍使用go-ethereum连接以太坊的主网和测试网以及一些基础开发须知,着重介绍如何搭建一个私网的以太坊,至于以太坊应用开发,有机会的话,将在后面的文章中重点介绍。安装Go Ethereum可以安装的操作系统平台有Mac OS X,Windows以及Linux/Unix。详情请看Installation Instructions。这里介绍在Linux上,从go-ethe...

2020-04-30 15:03:56 933

原创 OpenTSDB简介及安装

简介工作原理OpenTSDB是一个时间序列数据库,由一个 Time Series Daemon (TSD) 和一系列命令行实用程序组成。与OpenTSDB交互主要通过运行一个或者多个 TSD 来实现。每个 TSD 是独立的。没有master,没有共享状态,所以你可以运行尽可能多的 TSD 来处理工作负载。每个 TSD 使用开源数据库 HBase 或托管Google Bigtable服务来存储和...

2020-04-30 14:55:34 645

原创 CentOS7升级cmake

背景在编译Hadoop3.0的时候,在cmake编译阶段失败,错误如下:[WARNING] CMake Error at CMakeLists.txt:23 (cmake_minimum_required):[WARNING] CMake 3.1 or higher is required. You are running version 2.8.12.2很明显,这是cmake版本...

2020-04-30 14:43:45 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除