- 博客(59)
- 收藏
- 关注
原创 查看 gc 情况
[root@hadoop1 ~]# jstat -gc 38794 1s 5S0C S1C S0U S1U EC EU OC OU MC MU CCSC CCSU YGC YGCT FGC FGCT GCT0.0 5120.0 0.0 5120.0 50...
2020-03-04 11:14:01 412
原创 yarn-site.xml 开启 将运行yarn spark 日志存储到 hdfs
yarn-site.xml 开启 将运行yarn spark 日志存储到hdfsWhether to enable log aggregationyarn.log-aggregation-enabletrue
2020-02-14 08:23:48 254
原创 注意Spark Debug调优,需要开启Debug模式,查看运行日志即可
[root@hadoop001 conf]# vi log4j.properties[root@hadoop001 conf]# pwd/root/app/spark/conf注意Spark Debug调优,需要开启Debug模式,查看运行日志即可Set everything to be logged to the consolelog4j.rootCategory=DEBUG, con...
2020-02-12 15:13:53 1443
原创 正则表达式开头结尾注意是所有文件搜索
every thing (.+).sh$正则表达式搜索所有,以 .sh结尾字符 功能^ 匹配字符串开头$ 匹配字符串结尾
2020-02-12 09:49:07 550
原创 spark read ES 报错 User class threw exception: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest
User class threw exception: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: org.elasticsearch.这个问题是由于使用的jar包版本问题,目前使用的是6.4而服务器版本为7.0将spark jars 替换后就没有问题了...
2020-01-06 14:37:40 1221
原创 hadoop 分布式文件管理系统
hadoop 分布式文件管理系统通过管理系统,可以将文件分布式存放在不同的Linux系统上这样的优势在于本地文件的读取过程,虽然是需要网络传输,但是更多的是本地化的运算的过程软件的运行本质还是本地化程序的运行的过程,hadoop 是通过rpc协议将所有的Linux系统结合起来,获取最佳的运算方式本地化的运算过程,如何通过数据解决问题呢,实现相关的数据结构Map是映射,将数据进行一一映...
2019-12-06 15:49:18 111
原创 spark 之所以调整core 内存数量,就是根据资源,进行充分使用,提升core的并行度
spark 之所以调整core 内存数量,就是根据资源,进行充分使用,提升core的并行度,而不是一个core使用1g内存的结论
2019-08-30 15:45:39 218
原创 java.io.IOException: Bad connect ack with firstBadLink 关闭防火墙
java.io.IOException: Bad connect ack with firstBadLink as :50010at org.apache.hadoop.hdfs.DFSOutputStreamDataStreamer.createBlockOutputStream(DFSOutputStream.java:1614)atorg.apache.hadoop.hdfs.DFSOu...
2019-08-30 13:39:20 254
原创 mongo 里面不能使用 id 字段 否则会与_id 字段冲突
mongo 里面不能使用 id 字段 否则会与_id 字段冲突在学习过程中一定要注意抽样演示,完整抽样,是指针对一个的抽样检测
2019-08-28 11:12:03 426
原创 hadoop 就是一个资源配置的过程
hadoop 就是一个资源配置的过程,如何将资源合理的分配就是一个调整的过程,datanode 需要的是linux本身剩余的资源,因此yarn不能够占用太多的资源,是有一个比例的如果yarn在运行时,如果datanode资源变小,那么hadoop界面的Capacity将会变成红色,因此要保留一定的空间当服务器资源少时候,就不要安装太多的控件,直接使用hadoop spark 就满足生产需求...
2019-08-16 10:23:30 149
原创 a value too large for dtype('float32')机器学习不支持负数 将数值修改为 abs问题解决
a value too large for dtype(‘float32’)
2019-07-31 16:15:20 1280
原创 知识工程规则
高薪知识工程师知识工程规则1so by looking at specific case你能从别人那里得到通过其他方式无法得到的知识启发式1 考虑个案启发式2 考虑看起来相同 单实际处理方式有所不同的东西一种是灌装的 一种是冷冻的这些新词汇让我对领域拥有了力量因为我现在可以将这些词汇写到我的规则中如果是冷冻的都放到同一个塑料袋中我们知道温度流动正比于温度差的四次方启发式3 也...
2019-07-15 10:00:35 318
转载 spark读取 mongo的正确方式,可以将所有的null值读取
case class Character(name: Operate[String], age: Int)IMPORTANTFor self-contained Scala applications, the Character class should be defined outside of the method using the class.val explicitDF = Mon...
2019-07-10 18:14:55 288
原创 新技术可以将mongo数据准确映射到sqlserver使用Option 注意字段过多会报错
新技术可以将mongo数据准确映射到sqlserver 使用 Option 注意字段过多会报错
2019-07-10 09:01:45 53
原创 经验证 open too many files 错误 与 ulimit -n 65563 有关
经大量测试 open too many files 错误与ulimit -n 65563有关 修改后重启即可
2019-06-27 14:26:35 173
原创 信息熵的意义
信息熵的真正意义,信息能够量化的过程,能够展示出来的数据,一组数据,在python中的量化过程,只要能通过计算,将结果运算出来就是将问题转化为一个可以解决的问题from collections import Counterdef entropy(y):counter = Counter(y)res = 0.0for num in counter.values():p = num / ...
2019-06-22 11:24:35 1881
原创 幂等性需要明确最小颗粒度
所有的处理幂等性需要获取文件的最小颗粒度,就可以了,不要在其中做聚合操作,如果需要做聚合操作,在前台界面进行制作,颗粒度的问题,是一直要不断解决的问题,如果出现不能够满足的情况,就会带来很多的问题,因此需要考虑如何处理这些数据内容方式,及解决方案内容,其中颗粒度的概念一定要清晰...
2019-06-20 13:43:46 476
原创 当spark内存不足的时候,需要及时写入硬盘,解决复杂逻辑问题
如果当系统内存不足的时候,spark 落地到磁盘,将 spark 当成 mapreduce 使用,其实感觉大数据初期,就是没有那么多的运算资源,mapreduce就是通过落地磁盘,解决内存不足的问题...
2019-06-14 16:25:20 2266 1
原创 机器学习是在数据中获取知识
机器学习 是在数据中获取知识,第一个知识是 异常数据清理出去,第二个知识如果是普遍现象就不是异常数据,第三个寻找特征值去满足所有的条件,如果存在异常就将第四尽可能的符合大多数数据,如果只是保留部分数据,说明特征有缺失第五等待数据增多...
2019-05-25 17:48:08 688
原创 java -XX:+PrintFlagsInitial 复杂是解决问题的唯一方式,而开箱即用是推广的唯一法则,两种模式不断的扭曲,于是产生强大的软件系统
java -XX:+PrintFlagsInitial > flags.txt[Global flags]这么简洁的使用方式,下面有复杂的结构进行管理的,进行数据的管理方案内容,及解决方案内容复杂的处理方式,及解决方案,内容解决方案,解决结构内容理论基础这些参数都是经过很多的测试,才给出了最终的解决方案,及解决内容方式收集的数据量,及解决的方案及内容方式,现在做到开箱即用,经过多少...
2019-05-22 17:48:40 2355
原创 机器学习特征规律
机器学习是范围特征规律,划定范围的特征规律,范围就是训练的数据集,特征就是一个参数,根据一个模型里面,有可能这几个参数是无法解释着几个值的,但是在提供的相关的数据中,就是数据中的一种联系,就在模型建立的数据范围内存在很强的联系性,所以就满足条件了,因此机器学习,是在一定的训练数据内,找出的一种规律,就是找一种规律的方式运算结果是困难的的,但是根据给出的数值可以获取一定的规律的,根据这个规律可以获...
2019-05-17 13:35:11 466
原创 ln -s 软连接,解决版本升级问题
[root@hadoop001 app]# lltotal 24drwxr-xr-x. 15 root root 4096 Jan 18 15:22 hadoop-2.6.0-cdh5.7.0drwxr-xr-x. 12 1106 592 4096 Mar 7 15:49 hive-1.1.0-cdh5.7.0drwxr-xr-x. 8 root root 4096 Sep 6 ...
2019-05-13 15:53:41 742
原创 yarn任务只能保留10000个
yarn 任务只能保留 10000 个 , 历史成功的任务将被删除,而失败的任务将被保留如果OOM 需要调大这个值 默认1G 设置为2G就可以解决问题YARN_RESOURCEMANAGER_HEAPSIZE...
2019-04-17 18:48:37 1188
原创 metabase可视化教程
https://www.metabase.com/docs/latest/users-guide/05-visualizing-results.html
2019-04-12 15:13:07 4086
原创 hive orc 如何添加字段
hive orc 如何添加字段hive orc 最近在使用hive metastore 过程中,遇到需要添加字段的情况,如何添加新的字段呢,经过测试步骤如下,首先是 orc 的顺序是不能够变化的,添加新的字段后,需要重新建表,由于使用的是外部表,所以删除表 不会对 数据存储造成影响添加新的字段后,需要 使用全表刷新的命令这样就支持历史数据了,注意orc的字段顺序一定要和表的顺序是一致的...
2019-04-10 08:23:41 2241
原创 hadoop 分配大量资源也是很耗费时间的,因此尽可能的分配小的资源,解决性价比高的问题
分配大量资源也是很耗费时间的,因此尽可能的分配小的资源,解决性价比高的问题
2019-03-30 20:19:03 410
原创 CDH创建本地库,解决本地库问题
https://www.cloudera.com/documentation/enterprise/5-14-x/topics/cdh_ig_yumrepo_local_create.html
2019-03-01 18:12:46 516
原创 Spark 数据ETL不要使用对象 尤其是在 里面使用 对象.属性,这个会大大降低效率 ,要使用split这个效率高,toString
Spark 数据ETL不要使用对象 尤其是在 里面使用 对象.属性,这个会大大降低效率 ,要使用split这个效率高,toString
2019-02-26 13:34:07 149
原创 grafana 安装流程 centos7
[root@instance-bine5qw8 ~]# mkdir software[root@instance-bine5qw8 ~]# lltotal 8drwxr-xr-x 6 root root 4096 Feb 21 20:15 appdrwxr-xr-x 2 root root 4096 Feb 21 20:18 software[root@instance-bine5qw8...
2019-02-21 20:47:17 1917
原创 注意写在shell文件里面的执行路径必须是完整的,否则会出现直接执行可以, 但是无法通过crontab -e 调用,一定要注意
注意写在shell文件里面的执行路径必须是完整的,否则会出现直接执行可以,但是无法通过crontab -e 调用,一定要注意
2019-02-18 13:33:49 357
原创 需要加大driver 内存
Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes. As a workaround, you can either disable broadcast by sett...
2019-02-15 09:57:14 698
原创 hadoop不推荐使用的配置名称与建议使用的配置
https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/DeprecatedProperties.html
2019-01-09 09:37:44 112
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人