自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Tinson写字的地方

天行健,地势坤

  • 博客(34)
  • 收藏
  • 关注

原创 机器学习笔记03

波士顿房价预测(在sklearn1.2中已删除,http://lib.stat.cmu.edu/datasets/boston)K-means原理:一种基于划分的无监督聚类算法,其核心思想是将数据集划分为k个簇,使得每个数据点都属于最近的簇,是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方法。总共有100人,如果99个样本是癌症,1个样本非癌症 --样本不均衡。是否患病/是否为金融诈骗/ 是否为虚假账号。损失函数/cost/成本函数/目标函数。

2024-05-08 18:32:43 564

原创 机器学习笔记-02

2.estimator.fit(x_train,y_train) 计算每一列的平均值、标准差。transform() (x - mean) / std 进行最终的转换。2.对数据进行分割处理(训练集特征值、测试集特征值、训练集目标值、测试集目标值)优点:对缺失数据不太敏感,算法也比较简单,常用与文本分类,分类准确定高,速度快。:为了解决零概率的问题,用加1的方法估计没有出现过的现象的概率。2)对比测试集特征值和测试集目标值,算出准确率。fit() 计算每一列的平均值、标准差。

2024-05-06 16:36:27 330

原创 机器学习笔记-01

基础书籍:机器学习 -”西瓜书”- 周志华 统计学习方法 - 李航 深度学习 - “花书”* 获取小规模的数据集 sklearn.datasets.load_iris()关键词:在某一个类别的文章中,出现的次数很多,但是在其他类别的文章当中出现很少。应用场景:在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。测试集:在模型检验时使用,用于评估模型是否有效,20%~30%- 类别–》one-hot 编码。矩阵 matrix 二维数组。TF-IDF - 重要程度。

2024-04-26 13:54:52 465

原创 【无标题】当天数据为空,则取最近一天有值的数据为当天的值

这样就能补充好为空值的数据了,喜提星巴克一杯。

2023-10-18 16:27:10 180

原创 pyspark使用随笔

最近在使用python中pyspark来处理RDD的问题,顺便记录相关基础知识与心得。class pyspark.SparkContext ( master = None, appName = None, sparkHome = None, pyFiles = None, environment = None, batchSize = 0, s...

2020-03-27 11:47:22 178

原创 linux服务器使用df和du命令,磁盘占用情况不一样的解决方法

linux服务器一直报警,使用df -h查看磁盘占用情况的时候挂载目录/opt 占用100%,但是使用du -h --max-depth=1 时发现磁盘的占用空间和df -h的不一样。原因分析:du - estimate file space usage du命令会对统计文件逐个调用fstat这个系统调用,获取文件大小。它的数据是基于文件获取,可以跨多个分区操作。df - repor...

2019-11-18 10:57:48 701

原创 crontab执行不成功,但是手动执行成功的问题

我写好的一个python脚本,通过crontab定时执行,但是却不成功10 2 * * * python /home/ztx/growingio_funnels/readfunnels.py最后通过在网上查看发现可能是路径问题。路径分为绝对路径和相对路径,如果在profile文件中没有配置,直接写python会默认到/usr/bin/python,初装的python版本为2.X。但是我...

2019-11-13 11:32:26 831

原创 centos7.4安装MySQL5.7及后续遇到的问题与解决方法

可以直接使用yum源安装,详见:https://blog.csdn.net/pzl_pzl/article/details/82015144安装过程中报错:[root@localhost bin]# mysql -u root -pEnter password: ERROR 1045 (28000): Access denied for user 'root'@'localhost' (...

2019-09-16 17:38:25 120

原创 Maxcompute分区表插入数据

1.创建分区表create table aaa(id bigint,name string) partitioned by (adress string);2.创建分区字段alter table aaa add if not exists partition (adress = ‘shanghai’);3.向分区表里插入数据insert into aaa partition(adress...

2019-07-04 14:18:39 1751

原创 flume监控mysql数据推送到kafka

前提:1.需要安装flume服务2.mysql-connector-java-5.1.35-bin.jar需要有这个连接的jar包,且版本要一致。3.status.file.path 路径需要给予flume相应的权限(chmod)a1.channels = c1a1.sources = r1a1.sinks = k1a1.sources.r1.type = org.keedio.f...

2019-07-03 18:39:12 1941

原创 kafka监控工具KafkaOffsetMonitorji的安装与问题

黑窗口的kafka集群没有监控,可以使用三方开源的监控工具,查询了些资料,网上流传最多的有三个监控工具:Kafka Web ConsloleKafka ManagerKafkaOffsetMonitor。在此,笔者选用的是KafkaOffsetMonitorKafkaOffsetMonitor的软件包下载地址在GitHub,可以直接在linux中使用wget即可下载。wget http...

2019-06-26 15:29:08 150

原创 kafka的broker的参数配置

2019-05-27 10:41:04 258

原创 CDH添加Hue服务时遇到的坑

一、Hue验证数据库连接时不能正常连接Unexpected error. Unable to verify database connection CDH 5.10.0解决方法:在相同系统中/usr/lib64/mysql找到libmysqlclient_r.so.18.0.0然后复制到需要的服务器上ln -s libmysqlclient_r.so.18.0.0 libmysqlcl...

2019-04-26 15:53:05 2759

原创 HIVE创建外部表

基础建表语句:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]...

2019-04-26 10:48:11 14304

原创 Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException

Hive On Spark报错:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException我的问题是因为版本不兼容。HIVE | SPARK3.0.x | 2.3.02.3.x | 2.0.02.2.x | 1.6.02.1.x | 1.6.02.0.x | 1.5...

2019-04-24 16:59:23 1230

原创 spark-shell客户端连接hive

1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下2.开启hive元数据服务:hive --service metastore3.开启hadoop服务:sh $HADOOP_HOME/sbin/start-all.sh4.开启spark服务:sh $SPARK_HOME/sbin/start...

2019-04-23 17:04:01 1794

原创 CDH安装SPARK2.3

在我的CDH5.14集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。这里做一下安装spark2.3版本的步骤记录。一. 安装准备1.csd包:http://archive.cloudera.com/spa...

2019-04-15 10:55:16 835

原创 开发随笔

2019.4.15shell脚本修改后,(1)./test.sh(2)sh test.sh运用其中一种方式进行申明更新。.sh文件才会生效

2019-04-15 10:42:52 114

原创 CM5.14.4离线安装及卸载(详细版本,含MYSQL卸载)

uname -a 查看服务器版本Linux datanode1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux选择对应的CDH 安装包http://archive.cloudera.com/cm5/cm/5/http://archive.clouder...

2019-04-11 15:15:12 2929

原创 mysql随笔

delete from 表名;truncate table 表名;不带where参数的delete语句可以删除mysql表中所有内容,使用truncate table也可以清空mysql表中所有内容。效率上truncate比delete快,但truncate删除后不记录mysql日志,不可以恢复数据。delete的效果有点像将mysql表中所有记录一条一条删除到删完,而truncate相...

2019-03-07 17:58:15 133

原创 CDH起datanode服务时遇到的异常及解决方法

报错内容WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /opt/dfs/dn:ExitCodeException exitCode=1: chmod: changing permissions of `/opt/dfs/dn’: Operation not permitte...

2019-02-15 16:48:41 1498

原创 在linux下杀死nohup提交到后台运行的程序

在重启flume的一个服务时,首先用netstat -ntlp查看占用端口,查看到自己服务使用端口号,kill -9 PID杀死,然后重启服务,报错如下Exception in thread “main” org.apache.flume.FlumeException:NettyAvroRpcClient{host:xxxx,port:xxxx}:RPC connection error最...

2019-02-14 19:46:26 1759

原创 CDH 5.15.0 cloudera manager后期扩容

公司搭的CDH刚开始的磁盘大小只有1T。后期已经不能满足使用情况,运维给我们的每一个节点加了1T的容量大小。1.在cm管理页面找到这个配置,后面有一个+;2.添加你挂载的路径;3.给予你新路径文件夹权限chmod 777 /pathname;4.保存更改。保存后重启HDFS服务,可能会报错,datanode最好一个一个的更改。报错的话多试几次就好。ps:最好不要改动原先的dfs路径,...

2019-01-24 14:14:16 772

原创 Hadoop balancer优化HDFS存储问题

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB,到CM上查看集群状态时发现一个DataNode节点存储已经满了,我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。介绍下balancer:balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁...

2019-01-23 15:05:00 614

原创 MR,Spark提交任务的方式

1.本地运行模式(1)mapreduce 程序是被提交给 LocalJobRunner 在本地以单进程的形式运行(2)而处理的数据及输出结果可以在本地文件系统,也可以在 hdfs 上(3)怎样实现本地运行?写一个程序,不要带集群的配置文件本质是程序的 conf 中是否有 mapreduce.framework.name=local 以及yarn.resourcemanager.hostn...

2019-01-21 19:31:23 464 1

原创 随手记

Hadoop副本数量配置:1、服务端hdfs-site.xml中配置dfs.replication2、在客户端指定dfs.replication的值3、通过命令修改已经上传到hdfs的文件副本数hadoop dfs -setrep -w 2 -R /user其中客户端所指定的优先级更高​...

2019-01-10 15:38:20 187

原创 sparkstreaming中的foreachRDD与foreachPartition详解

dstream.foreachRDD是一个功能强大的原语,允许将数据发送到外部系统。但是,了解如何正确有效地使用此原语非常重要。通常将数据写入外部系统需要创建连接对象(例如,与远程服务器的TCP连接)并使用它将数据发送到远程系统。为此,开发人员可能无意中尝试在Spark驱动程序中创建连接对象,然后尝试在Spark工作程序中使用它来保存RDD中的记录。详情请见官方文档:https://sp...

2019-01-10 14:28:42 1638

转载 什么是大数据

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能带给我们的三个关键的观念转变:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。(1)全体数据——在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖...

2019-01-09 09:58:20 454

原创 Excel转CSV分隔符问题

1.找到本机的控制面板2.更改日期、时间或数字格式3.其他设置4.列表分隔符“,”改为“$”5.进入Excel另存为CSV格式ps:根据实际情况修改分隔符

2019-01-04 17:10:35 3694

原创 使用云服务器搭建集群

区分公网和私网1.在集群内部设置hosts文件时设置的是私网,设置本地的hosts文件时设置的是公网。2.外部服务器则对应公网,内部集群设置时写私网IP

2018-12-27 20:39:48 1314

原创 使用linux时用到的命令

要从HDFS中删除文件/文件夹,可以使用以下命令:hadoop fs -rm -r -skipTrash /path_to_file/file_name上传文件到HDFShadoop fs -put cdh_version.properties /user查看HDFS文件系统里test.txt的内容hadoop fs –cat /user/sunlightcs/test.txt查...

2018-12-27 20:35:52 143

原创 flume+kafka+sparkstreaming+hdfs

跨服务器布置flume时需要注意公司的安全策略,可能不是配置有问题,有问题需要问运维。现在业务需求是:不是集群内部服务器布置flume,跨服务器采集数据。代码如下:服务器A的flume配置:flume_kafka_source.confa1.sources = r1a1.channels = c1a1.sinks =s1#sources端配置a1.sources.r1.type...

2018-12-27 18:38:11 704 1

原创 cm下安装kafka集群服务

1.前提条件CDH环境已经搭建成功。2.搭建要求在CDH上集成Kafka,要求用CDH上的Zookeeper管理Kafka而不是Kafka自带的Zookeeper。3.搭建流程(1)首先选取适合自己CDH版本的Kafka的Parcel文件进行下载,CDH与Kafka版本对应关系链接为:https://www.cloudera.com/documentation/kafka/1-4-x/...

2018-12-25 18:01:01 1182

原创 搜索日志+HDFS+Maxcompute(离线采集数据)

这次业务的需求:将存储在服务器的搜索日志文件采集到HDFS当中,然后进行清洗导入到maxcompute表格中。1.布置flume服务进行实时的采集多台服务器布置flume,指向一台载有flume服务的集群服务器。多个flume的sink指向一个flume的source。a.此次采用的是监控指定文件进行采集,新增一条内容采集一条内容。 b.文件滚动生成方式有三种:按照时间;按照文件大小;按...

2018-12-03 11:24:20 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除