编外人员_coder-CSDN博客

原创 MapReduce

1MapReduce定义2MapReduce优缺点3MapReduce核心思想4MapReduce执行流程5MapReduce的shuffle6MapReduce案例1定义Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。它的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hado...

2019-12-27 17:26:02 465

原创 Nginx+tomcat

nginx的配置因为我的nginx已经配置过了nginx-kafka为了清楚的展示，我重新在conf下创建了一个nginx1.conf进行配置具体内容为： sendfile on; # tcp_nopush on; # # #keepalive_timeout 0; ...

2019-12-25 15:21:39 1474

#Java算法1、盒子中有n个小球每次取一个或者两个有多少种取法代码如下（示例）：//反向思路，假如有5个球每次取一个或者两个，相加直到递归最终取完。 public static void main(String[] args) { System.out.println(StepWay(5));}public static int StepWay(int n){ if(n<1){ //判断输入是否错误 return 0; }els

2021-04-23 13:47:29 4593

原创 linux下大量文件中查找带有关键字文件

已知文件查找关键字从已知关键字所在文件查找具体位置 cat -n catalina.out |grep "2021-02-24 11:08:00"前批量文件中查找具有关键字的文件grep -r "2021-02-24 11:08:00" /home/bigdata/查看带有2021-02-24 11:08:00关键字的文件或者 find . -type f -name "*.sql" | grep "JZJY_KS_OFS_CAP_CHG_HIS"从当前目录查看-type类型为s

2021-03-15 16:02:00 1100

原创 phoenix的upsert操作命令

一、pandas是什么？phoenix的查询与绝大多数关系型数据库的命令一致，但存在细微差别查看表0: jdbc:phoenix:>!tables查看结构0: jdbc:phoenix:>!desc创建schemacreate schema if not exists cust新建表DROP TABLE IF EXISTS CUST.KHXX;CREATE TABLE CUST.KHXX(ID VARCHAR NOT NULL,NAME VARCHAR NOT NULL

2021-03-09 16:15:43 2095

原创 AttributeError: ‘dict‘ object has no attribute ‘has_key‘

AttributeError: ‘dict’ object has no attribute ‘has_key’在启动phoenix的过程中发现这个错误它是因为python2.x版本升级到python3.x导致has_jey函数不支持了可以改将语句if hbase_env.has_key('JAVA_HOME'):改为if 'JAVA_HOME' in hbase_env：改完之后接着可能会报这个错Traceback (most recent call last):File “/op

2021-03-09 15:37:18 936

原创 SyntaxError: Missing parentheses in call to ‘print‘

SyntaxError: Missing parentheses in call to ‘print’脚本文件依赖phoenix2.x解释执行的，python升级为3.x之后会报这个错误解决方法找到报错的行cat -d /文件路径将print " 123 "改为print(“123”)

2021-03-09 15:22:26 384

原创 Linux下安装python

python3.x可以说是完全不兼容2.x，相对于Python的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0在设计的时候没有考虑向下兼容。续多早期的版本都不能在3.x上执行了。因此我选择3.9.1版本下载地址: https://www.python.org/downloads/release/python-391/一、依赖安装python要正常安装有一些必要的前提，比如没有openssl则不支持ssl相关的功能，并且pip3在安装模块的时候会直接报错。所以我们需要提前预装

2021-01-20 17:05:46 426

原创 Spark On Yarn的安装和使用

在公司一直使用ambari+hdp安装的spark2，但是这两天他们软件搬家，用不了，于是在自己的虚拟机上安装了一套用于测试一些小数据，之前安装的spark是standalone模式，所以想安装一套on yarn模式的，但是网上全都在乱写，明明master+worker是standalone的还一本正经说是 spark on yarn安装scala这是我安装的（忽略掉已经装好的spark，它是...

2020-01-11 17:05:29 860

原创 JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url = jdbc:

安装好hive和mysql之后，配置了hive的hive-site.xml但是启动一直报错没办法开始找错，不知道错哪里，只知道是mysql的原因我的解决办法1登录mysqlmysql -uroot -p密码如果是新装的mysql的话，需要查看密码之后再进行登录 cat /root/.mysql_secretOEXaQuS8IWkG19Xsmysql -uroot -pOEXaQu...

2020-01-11 09:16:18 684

原创大数据HIVE安装与使用

下载linux下的hive包因为我是用的cdh的hadoop（相较于开源hadoop，cdh因为有专门的公司维护解决bug），所以下载开始解压 tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz配置相关环境变量，直接使用hive就能启用export HIVE_HOME=/opt/module/hiveexport PATH=$HIVE_HOME/bin安装my...

2020-01-09 14:23:31 46414

原创 flume报错

Unable to deliver event. Exception follows.org.apache.flume.EventDeliveryException: Failed to send eventsat org.apache.flume.sink.AbstractRpcSink.process(AbstractRpcSink.java:389)at org.apache.flum...

2019-12-31 11:21:08 1177

原创 linux安装

国内Linux更多的是应用于服务器上,而桌面操作系统更多使用的是window，因此学习linux是很有必要的Centos下载下载linux镜像文件链接：https://pan.baidu.com/s/1R-FwfFx1bOpWDPoNNVlCFQ提取码：kgo3VM虚拟机与Linux的安装VMware安装安装之后点击“许可证”，然后输入秘钥随即可以在桌面看到图标了C...

2019-12-28 15:13:36 454

原创 Mysql安装（详细）

以MySQL 5.5.27版本为例进行讲解，下载地址https://dev.mysql.com/downloads/mysql/5.5.html下载完毕之后双击运行有3种安装类型：Typical(典型安装)、Complete(完全安装)和Custom(定制安装)。我们要选择的是Custom(定制安装)安装允许你完全控制你想要安装的软件包和安装路径。所有可用组件列入定制安装对话框左侧的树状...

2019-12-28 14:13:08 861

原创大数据hbase

hbase是基于hdfs的面向列的非关系型数据库hbase中的存储都是以字节形式存储，它的rowkey会按照字节顺序排序，并添加索引hbase会按照row的数量自动切割成regiog，保持负载均衡存储形式传统数据库中若某字段的数据为null是占用空间的二hbase是不会占用空间的Hbase特点*Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几...

2019-12-28 11:55:35 481

原创 Hive

什么是hiveHive：由Facebook开源用于解决海量结构化日志（文本）的数据统计。Hive基于Hadoop来完成工作。总结：基于hadoop的数据仓库工具，能将结构化文件映射成一张表，并提供类sql查询，解决海量结构化日志的统计本质本质：工具，通过给用户提供一系列的交互接口，接收用户的指令Hql，使用自己的driver结合元数据，将这些指令翻译成mapreduce，提交到hadoo...

2019-12-28 10:14:10 377

原创 ReduceByKey和groupByKey的区别

reduce by key会在结果发送到reducer之前对每个mapper在本地进行merge，有点类似于MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后数据量会大幅减小，从而减小传输，保证reduce端能够快速计算结果groupByKey只会对每一个RDD中的value值聚合成一个序列，该操作发生在reduce端...

2019-12-28 09:31:17 365

原创大数据hdfs面试

以下是一些我在面试时候碰到的关于hdfs的面试问题什么是hdfs分布式文件存储系统，元数据存放子啊namenode中，她是通过目录树的方式定位文件hdfs上的数据怎么修改它适合一次写入多次读出，不适合修改hdfs的读写流程写：1客户端通过distribute FileSystem向nameNode请求上传文件2nameNode返回是否允许上传3客户端将第一个block向...

2019-12-27 15:53:30 537

原创大数据zookeeper面试

什么是zookeeper？分布式应用协调服务，基于观察者模式设计的服务管理框架，它负责存储和管理大家都关心的数据（文件存储系统+通知机制）解决什么问题，有什么特性，挂了怎么办，用在什么地方？特点：1一个leader多个follower组成集群2leader负责投票的决议和发起，更新系统状态3follower用于接收客户请求并向客户端返回结果，参与leader发起的投票4集群只要...

2019-12-27 15:08:37 438

转载什么是PV UV

PVPV(page view)：页面访问量，具体指的是网站某个页面的浏览量或者访问量，页面每刷新一次就记录一次，若我反复访问我们大学时的教务系统500次，那么PV就是500。UVUV(Unique vister):独立访客，统计一天内网站的访客，通过Cookie计算，一个客户端只计算一次。关系我访问页面一次PV为1，UV为1，刷新一次这个页面PV为2，UV还是1。因此一个UV可以有很多P...

2019-12-26 16:32:08 1235

原创 SparkStreaming消费kafka（Receiver与Direct）

Receiverreceiver是使用kafka的高级consumer API来实现的，Receiver每个一段batch时间去kafka获取这段时间里最新的相应topic数据，从kafka哪里获取来的数据都存在Spark Excutor的内存中，然后Spark Streaming启动job去处理这些数据。其中，谁来消费分区不是由SparkStreaming来决定的，而是由高阶消费者决定的，它...

2019-12-26 14:34:24 557

原创大数据Flume选择

组件选择我的大数据小伙伴在，hdp上搭完大数据相关就出差去了，我一个人在公司默默配置。选择用flume做日志采集而不是选择logstash，是因为对flume要熟悉一些，修改起来更容易flume的source有很多种，就不一一列举了，但是如果想要监控多个文件夹，那么最好自定义source，因为公司大多数是按天保存日志，也就是每天一个文件夹。可以去仿照官网写source然后打包到flume的l...

2019-12-26 11:31:47 397

原创 Nginx-kafka的使用

Nginx-kafka插件安装#yum install -y git安装到unix资源共享文件夹/usr下，由于是源代码需要编译所以继续安装在/src下，若是安装在root下，只有root能使用其他用户用不了#cd /usr/local/src#git clone https://github.com/edenhill/librdkafka#cd librdkafka#./config...

2019-12-25 11:04:13 1457

原创 Connected components算法统计用户好友关系网络推荐好友

Connected components算法统计用户好友关系网络用于推荐好友题目大意:通过输入朋友关系，达到推荐可能认识的好友具体代码如下：import org.apache.spark.graphx.{Edge, Graph, VertexId}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessio...

2019-12-23 15:09:27 569

原创 flume的使用

flume使用实时读取目录中文件到HDFS1在flume下创建文件夹upload：mkdir upload2在flume下创建job文件夹用于存放配置的conf3在job文件中创建conf：touch flume-dir-hdfs.conf4开始配置conf：vim flume-dir-hdfs.confa3.sources = r3a3.sinks = k3a3.channels...

2019-12-23 14:54:48 428

原创 spark分析学生成绩排名

通过sparkSql的分析学生成绩在全校、全区、全市的排名最近在公司做了一个关于学生成绩的排名、因为数据量很大，导入mysql后跑不起来，因此用spark来做的。当然用hive也能做，将hdfs上的数据load到hive中然后使用sql语句进行查询，如果会编码的话不建议这么做，因为它的底层还是转换成mapreduce提交执行，效率不够高。代码pom依赖<dependencies&gt...

2019-12-23 13:59:32 3376

原创 java爬虫爬取高考院校信息以及图片

javaAPI爬取全国高校录取情况以及院校图片首先，为了能够能够爬取全国所有高校的录取情况以及其他信息，需要做到以下步骤：1找到要爬取的所有大学的url2开始爬取院校的cid、院校主页url、cname存入数据库，便于后面进一步利用这些关系爬取其他信息3利用数据库中cid拼接url的方式爬取院校录取批次信息4利用数据库中cid拼接url找到所有图片再发送httpclient下载图片爬...

2019-12-23 10:38:20 1596

zx421311541的博客