2020年04月_邢为栋

原创 Centos设置局域网ntp时钟同步

以下内容讨论在某个无法连接外网的局域网中设置时钟同步。假设在一个局域网内有两台服务器:主机名IP服务器角色ntp-server192.168.0.100ntp服务器test192.168.0.101普通服务器ntp-server作为ntp服务器，test参考ntp-server的时间进行时钟同步。安装ntp服务需要做时钟同步的所有服务器(包括n...

2020-04-30 16:36:35 1181

原创 YARN架构及原理理解

概述Hadoop YARN是一个资源调度框架。YARN的基本思想是将资源管理和作业调度/监控的功能分解为单独的守护进程。原理简介YARN拥有一个全局的ResourceManager（RM），每个节点有一个NodeManager（NM）以及每个应用程序有一个ApplicationMaster（AM）。ResourceManager和NodeManager构成了数据计算框架。Resource...

2020-04-30 16:20:55 283

概述Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，以可靠，容错的方式在大型集群（数千个节点）的商用软件上并行处理大量数据（多是TB级的数据集）。MapReduce作业通常将输入数据集拆分为独立的块，这些块由Map任务以完全并行的方式处理。框架对Map的输出进行排序，然后输入到Reduce任务。通常，作业的输入输出都存储在文件系统中。该框架负责调度任务，监视任务并重新执行...

2020-04-30 16:19:47 466

原创 HDFS架构及原理理解

概述HDFS全称是Hadoop Distributed File System，也就是Hadoop分布式文件系统，是Apache Hadoop的核心工程。HDFS具有高度容错能力，旨在部署在低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问，适用于具有大型数据集的应用程序。这里讨论一下我对HDFS架构及原理的理解。NameNode，DataNodes和客户端HDFS有一个master/...

2020-04-30 16:17:13 710

原创 mysql5.7初始密码设置

在安装mysql是，如果安装5.6版本，初始化的root用户是无密码的，但是如果安装5.7版本，初始化的root用户是有密码的。这个密码的设置在不同的操作系统上会有不同，这里记录R系和U系操作系统的设置细节。R系操作系统代表：Redhat，CentOS安装mysql5.7后，会生成一个随机密码，查找这个随机密码的方法如下：grep 'temporary password' /var/log...

2020-04-30 16:11:38 831

原创 Spark向Hive表写数据报错

问题描述环境说明：我使用的是Hadoop生态软件都是社区版。使用Spark SQL向Hive表写数据，数据写入正常，并没有发现其他任何异常，但是日志信息出现一个ERROR，如下：ERROR hdfs.KeyProviderCache: Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyP...

2020-04-30 16:08:52 2837 2

原创 Hive操作报错

问题描述我在搭建大数据技术栈的时候，在hive环节进行测试，测试及报错如下：hive> insert overwrite table dw.people3 select * from ods.people1;Query ID = hdfs_20190103084929_d1a58db2-8ce6-40b1-a55c-2fe881e67ad5Total jobs = 1Launch...

2020-04-30 16:07:52 1935 2

原创 Ambari那些事儿

修改ambari web访问端口号ambari web访问端口默认是8080。修改此端口方法如下：在 /etc/ambari-server/conf/ambari.properties 文件中追加一行client.api.port=<port_number>Ambari使用MySQL作为元数据库Ambari默认使用PostgreSQL作为元数据库，但是其本身是支持多种数据...

2020-04-30 16:01:53 508

原创使用本地源安装Ambari和Hadoop

概述本文着重介绍如何安装Ambari，并简单描述如何使用Ambari部署Hadoop服务。操作系统：CentOS 7网络：内部局域网Ambari版本：2.6.1.0HDP版本：2.6.4.0在不能连接外网的情况下，我需要预先下载相应的Ambari安装源和HDP安装源以及HDP-UTILS安装源。如果在一个可以连接外网的环境中，也可以直接使用Hortonworks提供的线上源，不过一...

2020-04-30 16:00:26 441

原创 Flask表单验证总是返回False

我在开发Flask应用时，使用了Flask-WTF插件，代码逻辑是：在validate_on_submit验证返回False时，页面会返回当前页面。调试的时候，在页面点击提交后，没有反应或者准确说总是返回当前页面。于是在后台打印validate_on_submit返回结果，发现总是返回False，经过查阅资料，发现这个问题可能是CSRF导致的。经过调试，确实是这个问题。解决办法：在模版添加{...

2020-04-30 15:56:50 457

原创 Ambari Agent注册失败

描述Ambari注册主机的时候，ambari-agent出现如下错误：NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library versions.解决在ambari-...

2020-04-30 15:51:38 907

原创爬虫-Scrapy实战二

本项目是 Scrapy实战一的升级版，仅供学习使用。本项目在 Scrapy实战一的基础上优化了保存到json的数据格式，并引入 Item Loaders 和 Item Pipeline改变保存到json的数据格式在 Scrapy实战一中，我们使用以下命令保存数据：scrapy crawl dianying -o items.json这里有一个问题，就是在items.json文件中...

2020-04-30 15:48:12 196

原创爬虫-Scrapy实战一

本项目是 python scrapy 爬虫练手项目，仅供学习使用。目标获取电影天堂-最新电影的所有电影的详情页的url，title和磁力链接magnet。创建项目在开始爬取之前，你必须创建一个新的Scrapy项目。进入你打算存储代码的目录中，运行下列命令:scrapy startproject dianying该命令将会创建包含下列内容的 tutorial 目录:diany...

2020-04-30 15:17:43 463

原创 Mysql版本导致SQLAlchemy contains查询结果不同

问题描述我在开发个人网站时，关于搜索功能的实现本打算使用Elasticsearch，但是奈何机器配置太低，跑不起来，于是退而求其次，使用了SQLAlchemy的contains方法，如下：posts = Post.query.filter(or_(Post.title.contains(g.search_form.q.data), Post.content...

2020-04-30 15:09:00 854

原创 go-ethereum学习笔记

前言本篇文章简单介绍使用go-ethereum连接以太坊的主网和测试网以及一些基础开发须知，着重介绍如何搭建一个私网的以太坊，至于以太坊应用开发，有机会的话，将在后面的文章中重点介绍。安装Go Ethereum可以安装的操作系统平台有Mac OS X，Windows以及Linux/Unix。详情请看Installation Instructions。这里介绍在Linux上，从go-ethe...

2020-04-30 15:03:56 933

原创 OpenTSDB简介及安装

简介工作原理OpenTSDB是一个时间序列数据库，由一个 Time Series Daemon (TSD) 和一系列命令行实用程序组成。与OpenTSDB交互主要通过运行一个或者多个 TSD 来实现。每个 TSD 是独立的。没有master，没有共享状态，所以你可以运行尽可能多的 TSD 来处理工作负载。每个 TSD 使用开源数据库 HBase 或托管Google Bigtable服务来存储和...

2020-04-30 14:55:34 645

原创 CentOS7升级cmake

背景在编译Hadoop3.0的时候，在cmake编译阶段失败，错误如下：[WARNING] CMake Error at CMakeLists.txt:23 (cmake_minimum_required):[WARNING] CMake 3.1 or higher is required. You are running version 2.8.12.2很明显，这是cmake版本...

2020-04-30 14:43:45 407

邢为栋