weixin_43779531-CSDN博客

原创查看 gc 情况

[root@hadoop1 ~]# jstat -gc 38794 1s 5S0C S1C S0U S1U EC EU OC OU MC MU CCSC CCSU YGC YGCT FGC FGCT GCT0.0 5120.0 0.0 5120.0 50...

2020-03-04 11:14:01 412

原创取消yarn存储hadoop 日志目录 hadoop fs -ls /tmp/logs

2020-02-27 08:18:32 545

原创 yarn-site.xml 开启将运行yarn spark 日志存储到 hdfs

yarn-site.xml 开启将运行yarn spark 日志存储到hdfsWhether to enable log aggregationyarn.log-aggregation-enabletrue

2020-02-14 08:23:48 254

原创注意Spark Debug调优,需要开启Debug模式,查看运行日志即可

[root@hadoop001 conf]# vi log4j.properties[root@hadoop001 conf]# pwd/root/app/spark/conf注意Spark Debug调优,需要开启Debug模式,查看运行日志即可Set everything to be logged to the consolelog4j.rootCategory=DEBUG, con...

2020-02-12 15:13:53 1443

原创正则表达式开头结尾注意是所有文件搜索

every thing (.+).sh$正则表达式搜索所有,以 .sh结尾字符功能^ 匹配字符串开头$ 匹配字符串结尾

2020-02-12 09:49:07 550

原创 spark read ES 报错 User class threw exception: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest

User class threw exception: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: org.elasticsearch.这个问题是由于使用的jar包版本问题,目前使用的是6.4而服务器版本为7.0将spark jars 替换后就没有问题了...

2020-01-06 14:37:40 1221

原创 hadoop 分布式文件管理系统

hadoop 分布式文件管理系统通过管理系统,可以将文件分布式存放在不同的Linux系统上这样的优势在于本地文件的读取过程,虽然是需要网络传输,但是更多的是本地化的运算的过程软件的运行本质还是本地化程序的运行的过程,hadoop 是通过rpc协议将所有的Linux系统结合起来,获取最佳的运算方式本地化的运算过程,如何通过数据解决问题呢,实现相关的数据结构Map是映射,将数据进行一一映...

2019-12-06 15:49:18 111

原创 spark 之所以调整core 内存数量,就是根据资源,进行充分使用,提升core的并行度

spark 之所以调整core 内存数量,就是根据资源,进行充分使用,提升core的并行度,而不是一个core使用1g内存的结论

2019-08-30 15:45:39 218

原创 java.io.IOException: Bad connect ack with firstBadLink 关闭防火墙

java.io.IOException: Bad connect ack with firstBadLink as :50010at org.apache.hadoop.hdfs.DFSOutputStreamDataStreamer.createBlockOutputStream(DFSOutputStream.java:1614)atorg.apache.hadoop.hdfs.DFSOu...

2019-08-30 13:39:20 254

原创 mongo 里面不能使用 id 字段否则会与_id 字段冲突

mongo 里面不能使用 id 字段否则会与_id 字段冲突在学习过程中一定要注意抽样演示,完整抽样,是指针对一个的抽样检测

2019-08-28 11:12:03 426

原创 hadoop 就是一个资源配置的过程

hadoop 就是一个资源配置的过程,如何将资源合理的分配就是一个调整的过程,datanode 需要的是linux本身剩余的资源,因此yarn不能够占用太多的资源,是有一个比例的如果yarn在运行时,如果datanode资源变小,那么hadoop界面的Capacity将会变成红色,因此要保留一定的空间当服务器资源少时候,就不要安装太多的控件,直接使用hadoop spark 就满足生产需求...

2019-08-16 10:23:30 149

原创 a value too large for dtype('float32')机器学习不支持负数将数值修改为 abs问题解决

a value too large for dtype(‘float32’)

2019-07-31 16:15:20 1280

原创知识工程规则

高薪知识工程师知识工程规则1so by looking at specific case你能从别人那里得到通过其他方式无法得到的知识启发式1 考虑个案启发式2 考虑看起来相同单实际处理方式有所不同的东西一种是灌装的一种是冷冻的这些新词汇让我对领域拥有了力量因为我现在可以将这些词汇写到我的规则中如果是冷冻的都放到同一个塑料袋中我们知道温度流动正比于温度差的四次方启发式3 也...

2019-07-15 10:00:35 318

转载 spark读取 mongo的正确方式,可以将所有的null值读取

case class Character(name: Operate[String], age: Int)IMPORTANTFor self-contained Scala applications, the Character class should be defined outside of the method using the class.val explicitDF = Mon...

2019-07-10 18:14:55 288

原创新技术可以将mongo数据准确映射到sqlserver使用Option 注意字段过多会报错

新技术可以将mongo数据准确映射到sqlserver 使用 Option 注意字段过多会报错

2019-07-10 09:01:45 53

原创经验证 open too many files 错误与 ulimit -n 65563 有关

经大量测试 open too many files 错误与ulimit -n 65563有关修改后重启即可

2019-06-27 14:26:35 173

原创信息熵的意义

信息熵的真正意义,信息能够量化的过程,能够展示出来的数据,一组数据,在python中的量化过程,只要能通过计算,将结果运算出来就是将问题转化为一个可以解决的问题from collections import Counterdef entropy(y):counter = Counter(y)res = 0.0for num in counter.values():p = num / ...

2019-06-22 11:24:35 1881

原创幂等性需要明确最小颗粒度

所有的处理幂等性需要获取文件的最小颗粒度,就可以了,不要在其中做聚合操作,如果需要做聚合操作,在前台界面进行制作,颗粒度的问题,是一直要不断解决的问题,如果出现不能够满足的情况,就会带来很多的问题,因此需要考虑如何处理这些数据内容方式,及解决方案内容,其中颗粒度的概念一定要清晰...

2019-06-20 13:43:46 476

原创当spark内存不足的时候,需要及时写入硬盘,解决复杂逻辑问题

如果当系统内存不足的时候,spark 落地到磁盘,将 spark 当成 mapreduce 使用,其实感觉大数据初期,就是没有那么多的运算资源,mapreduce就是通过落地磁盘,解决内存不足的问题...

2019-06-14 16:25:20 2266 1

原创机器学习是在数据中获取知识

机器学习是在数据中获取知识,第一个知识是异常数据清理出去,第二个知识如果是普遍现象就不是异常数据,第三个寻找特征值去满足所有的条件,如果存在异常就将第四尽可能的符合大多数数据,如果只是保留部分数据,说明特征有缺失第五等待数据增多...

2019-05-25 17:48:08 688

原创 VLOOKUP 比较文字时,需要用设置为近似值最后一个参数为True

=VLOOKUP(D57,$A56:56:56:B$103,2,)

2019-05-23 19:02:11 781

原创 java -XX:+PrintFlagsInitial 复杂是解决问题的唯一方式,而开箱即用是推广的唯一法则,两种模式不断的扭曲,于是产生强大的软件系统

java -XX:+PrintFlagsInitial > flags.txt[Global flags]这么简洁的使用方式,下面有复杂的结构进行管理的,进行数据的管理方案内容,及解决方案内容复杂的处理方式,及解决方案,内容解决方案,解决结构内容理论基础这些参数都是经过很多的测试,才给出了最终的解决方案,及解决内容方式收集的数据量,及解决的方案及内容方式,现在做到开箱即用,经过多少...

2019-05-22 17:48:40 2355

原创机器学习特征规律

机器学习是范围特征规律,划定范围的特征规律,范围就是训练的数据集,特征就是一个参数,根据一个模型里面,有可能这几个参数是无法解释着几个值的,但是在提供的相关的数据中,就是数据中的一种联系,就在模型建立的数据范围内存在很强的联系性,所以就满足条件了,因此机器学习,是在一定的训练数据内,找出的一种规律,就是找一种规律的方式运算结果是困难的的,但是根据给出的数值可以获取一定的规律的,根据这个规律可以获...

2019-05-17 13:35:11 466

原创 ln -s 软连接,解决版本升级问题

[root@hadoop001 app]# lltotal 24drwxr-xr-x. 15 root root 4096 Jan 18 15:22 hadoop-2.6.0-cdh5.7.0drwxr-xr-x. 12 1106 592 4096 Mar 7 15:49 hive-1.1.0-cdh5.7.0drwxr-xr-x. 8 root root 4096 Sep 6 ...

2019-05-13 15:53:41 742

原创 netstat -nltp 查询没有进程的端口号

ps -aux | grep 5601netstat -nltp查询没有进程的端口号

2019-04-30 09:59:38 2446

原创 yarn任务只能保留10000个

yarn 任务只能保留 10000 个 , 历史成功的任务将被删除,而失败的任务将被保留如果OOM 需要调大这个值默认1G 设置为2G就可以解决问题YARN_RESOURCEMANAGER_HEAPSIZE...

2019-04-17 18:48:37 1188

原创 map join 执行逻辑分析

map join 执行逻辑分析

2019-04-15 11:20:42 128

原创 metabase可视化教程

https://www.metabase.com/docs/latest/users-guide/05-visualizing-results.html

2019-04-12 15:13:07 4086

原创 hive orc 如何添加字段

hive orc 如何添加字段hive orc 最近在使用hive metastore 过程中,遇到需要添加字段的情况,如何添加新的字段呢,经过测试步骤如下,首先是 orc 的顺序是不能够变化的,添加新的字段后,需要重新建表,由于使用的是外部表,所以删除表不会对数据存储造成影响添加新的字段后,需要使用全表刷新的命令这样就支持历史数据了,注意orc的字段顺序一定要和表的顺序是一致的...

2019-04-10 08:23:41 2241

原创 hadoop 分配大量资源也是很耗费时间的,因此尽可能的分配小的资源,解决性价比高的问题

分配大量资源也是很耗费时间的,因此尽可能的分配小的资源,解决性价比高的问题

2019-03-30 20:19:03 410

原创 CDH创建本地库,解决本地库问题

https://www.cloudera.com/documentation/enterprise/5-14-x/topics/cdh_ig_yumrepo_local_create.html

2019-03-01 18:12:46 516

原创 Spark 数据ETL不要使用对象尤其是在里面使用对象.属性,这个会大大降低效率 ,要使用split这个效率高,toString

Spark 数据ETL不要使用对象尤其是在里面使用对象.属性,这个会大大降低效率 ,要使用split这个效率高,toString

2019-02-26 13:34:07 149

原创 grafana 安装流程 centos7

[root@instance-bine5qw8 ~]# mkdir software[root@instance-bine5qw8 ~]# lltotal 8drwxr-xr-x 6 root root 4096 Feb 21 20:15 appdrwxr-xr-x 2 root root 4096 Feb 21 20:18 software[root@instance-bine5qw8...

2019-02-21 20:47:17 1917

原创注意写在shell文件里面的执行路径必须是完整的,否则会出现直接执行可以, 但是无法通过crontab -e 调用,一定要注意

注意写在shell文件里面的执行路径必须是完整的,否则会出现直接执行可以,但是无法通过crontab -e 调用,一定要注意

2019-02-18 13:33:49 357

原创需要加大driver 内存

Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes. As a workaround, you can either disable broadcast by sett...

2019-02-15 09:57:14 698

原创 Spark SQL

spark sql 不仅仅是SQL分布式执行,driver executors内存管理广播变量关联join方式

2019-01-10 17:32:11 108

原创 hadoop不推荐使用的配置名称与建议使用的配置

https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/DeprecatedProperties.html

2019-01-09 09:37:44 112

原创英语学习

infer 推测concise 简洁

2018-12-27 10:43:57 116

空空如也

空空如也