大数据
文章平均质量分 74
liygcoding
这个作者很懒,什么都没留下…
展开
-
JAVA代码如何设置SPARK的日志打印级别
问题场景:在使用spark sql 增加where条件过滤时,会出现打印很多的被过滤掉的记录(几十万条),导致跑spark sql 特别慢!var df2 = sqc.sql("SELECT * FROM T_COMMISIONRATEDEF WHERE T_INSURANCETYPE = '630' ORDER BY T_INSURANCETYPE DESC " )执行时,打印截原创 2017-12-19 15:20:35 · 2992 阅读 · 1 评论 -
夸服务器远程客户端访问hbase集群需要开通的防火墙
问题:hbase客户端访问hbase集群需要怎么申请开通防火墙?场景:夸服务器远程客户端访问hbase集群需要开通的防火墙和注意事项?答案:1)hbase集群的所有zookeeper服务器和端口,一般端口默认为21812)hbase集群的所有hmaster服务器和端口。3)hbase集群的所有regionserver服务器和端口注意事项:1)开通防火原创 2018-01-15 15:29:02 · 1477 阅读 · 0 评论 -
VWMare如何让自己的多台大数据cdh集群虚拟机连接外网
问题描述:VWMare如何让自己的redhat虚拟机连接外网,同时自己的pc电话可以访问自己的集群虚拟机!vmware版本号:11.0linux系统:redhat 6.5由于图形界面比较直观,打开图形界面:执行命令:init 5cdh集群主机名和ip地址:hostscdh1 172.31.0.135cdh2 172.31.0.136cdh3 172.31.0.137init命令说明: 1:...原创 2018-05-10 22:21:30 · 830 阅读 · 0 评论 -
Phoenix事物和安装部署:CDH5.12.1和phoenix4.8结合
Phoenix安装部署和事物支持配置遇到的问题:本人在cdh5.12集群上部署phoenix,并让其支持事物的经验总结!!过程遇到几个比较关键的问题,希望对你们有所帮助1)准备安装包: 编译完成的包:phoenix-4.9.0-cdh5.9.1.tar.gz2)部署:解压:tar -zxvf phoenix-4.9.0-cdh5.9.1.tar.gz把解压出的文件放到hbase的lib包目录下:并...原创 2018-05-29 15:31:00 · 1703 阅读 · 2 评论 -
Centos7自动启动keepalived无效问题排查
问题描述: centos自动启动keepalived?怎么就不会自动重启呢?都试了很多次啦呀。这么简单有些不给面子。实现方式:调用封装的脚本:vi /etc/rc.d/rc.localnohup sh /root/restartkeepalived.sh > /root/restart.out 2>&1 &封装一个脚本:vi /root/rest...原创 2018-12-20 09:28:34 · 2614 阅读 · 0 评论 -
大数据压力测试工具HiBench
需求描述:需要测试cdh集群的组件的性能和稳定性。压力测试工具选型:HiBenchHiBench测试工具说明:HiBench是一套基准测试套件,用于帮助我们评估不同的大数据框架性能指标(包括处理速度、吞吐等)的负载指标,可以评估Hadoop、Spark和流式负载等源码下载:wget https://github.com/intel-hadoop/HiBench/archive/Hi...原创 2018-12-20 09:58:54 · 4090 阅读 · 0 评论 -
Mysql sql 拼接Sqoop和Phoenix语句
需求描述: 需要从myslq导入数据到大数据平台hbase,但是由于有100多张表,如果一个表一个表导入的话,工作量大。如果写代码的话,需要的时间也比较多。是否可以直接通过sql语句批量生成sqoop语句呢?? 此外,除了数据接入过来之外,还需要做的就是查询,通过phoenix查询,需要创建视图,怎么通过mysql sql语句自动生成创建视图的语句呢? 需...原创 2018-12-21 14:48:00 · 659 阅读 · 0 评论 -
cdh搭建完毕后oozie配置org.apache.oozie.action.ActionExecutorException以及时区问题
异常信息:org.apache.oozie.action.ActionExecutorException: AUTH_FAILED: Not able to perform operation [ssh -o PasswordAuthentication=no -o KbdInteractiveDevices=no -o StrictHostKeyChecking=no -o ConnectT...原创 2018-12-28 14:12:24 · 1255 阅读 · 0 评论 -
phoeni:java.lang.IllegalStateException: Expected single, aggregated KeyValue from coprocessor......
问题描述:select count(1) from webmagic_n.CASE_EMERGENCY ;报错了!phoenix通过创建视图对hbase中的表进行操作时,将hbase中的表删除,但保留phoenix的视图,然后重新创建hbase表并导入数据,然后使用phoenix执行sql:select count(1) from “XXXX”;时报错:java.lang.Illega...原创 2018-12-28 14:16:11 · 356 阅读 · 0 评论 -
phoenix 创建索引
需求:phoenix查询很慢的时候需要创建索引问题:CREATE INDEX iupt ON webmagic_n.ENVIRONMENTAL_STATION_DATA2(update_time DESC) ;错误:Error: ERROR 1029 (42Y88): Mutable secondary indexes must have the hbase.regionser...原创 2018-12-28 14:20:16 · 2496 阅读 · 0 评论 -
大数据开发过程中遇到问题总结(持续更新中)
问题一:idea调试flume源码时,明明异常信息打印了,在出现异常信息之前大哥断点调试,死活都进不去????debug的时候断点进不去,查看flume源码?把所有断点都清空了,并把maven也clean啦。。。。。然后就可以了!坑啊问题二:cdh集群重启时,出现如下错误!No parameter name specified for argument of type [long]Ca...原创 2018-12-28 14:26:57 · 1831 阅读 · 0 评论 -
cdh oozie 无法启动问题Could not load service classes, Cannot create PoolableConnectionFactory
问题描述:在安装cdh元数据myslq高可用时,使用的是myslq主主复制+keepalived实现。期间发现切换时,出现如下异常信息!花了很长时间寻找问题的原因。因为切换的时候,使用本机命令行是可以连接的,但是夸服务器就无法连接,没有去这方面的尝试,后来使用navicate无法连接后,就推测是mysql高可用切换的问题导致的。问题分析:如果不重启keepalived,是无法实现切换和连接...原创 2018-12-19 09:27:05 · 1164 阅读 · 0 评论 -
squirrel 连接phoenix,当配置了支持事物后无法连接问题
问题描述:异常信息:isNamespaceMappingEnabled异常 问题分析:而工具squirrel没有地方可以修改配置,导致客户端报错了。连接phoenix有胖客户端和瘦客户端方式,使用瘦客户端方式连接可以解决!无需客户端配置如下选项。由于配置phoenix事物时,需要配置phoenix.schema.isNamespaceMappingEnabled选项vi hba...原创 2018-12-19 09:46:43 · 1584 阅读 · 1 评论 -
CDH 配置Mysql高可用:主从和keepalived
问题描述:配置CDH 配置Mysql高可用,并实现和cdh无缝对接。主从和keepalived配置步骤:网上很多,这里就不多赘述了! 配置常用命令:查询mysql连接使用的是那台服务器:show variables like "%hostname%";service keepalived restartservice mysqld restartservice mysq...原创 2018-12-19 10:02:24 · 999 阅读 · 0 评论 -
livy:scalaClient.submit使用scala api跑wordcount时,看着一切正常,但是spark程序没跑没有跑
问题分析:livy 的java API调用行得通,scala API调不通 ,而且一切日志比对正常,就是不报错,但是就是不跑!scala代码参考:import java.io.{File, FileNotFoundException}import java.net.URIimport org.apache.livy.LivyClientBuilderimport org.apac...原创 2019-01-17 16:07:02 · 797 阅读 · 0 评论 -
spark1.6升级spark2.1时候sparkstreaming程序问题总结2018
升级版本说明:从spark2.1的maven配置pom.xml中可以看出版本!! org.apache.spark spark-core_2.11 2.1.0 org.apache.spark spark-sql_2.11 2.1.0 org.apache.spark spark-原创 2018-01-02 20:25:16 · 1312 阅读 · 0 评论 -
Spark-Streaming获取applicationId即scala中获取appid
问题: Spark-Streaming获取applicationId即scala中获取appid 解决方法:通过SparkListener方法来获取appid,以便可以控制提交完成后的spark作业;获取代码如下参考:参考红色部分即可!import org.apache.spark.scheduler.SparkListenerApplicationStart继承spa原创 2017-07-16 22:56:20 · 4290 阅读 · 0 评论 -
cdh5-spark-submit程序日志查看最后指定行数
问题描述:通过以下命令把自己的jar程序:cache_amis.jar提交到spark集群:client模式命令如下:BASEDIR = /datafsPROVICE=beijingnohup /opt/cloudera/parcels/CDH/lib/spark/bin/spark-submit --class StartCBPS8 --master yarn --deploy原创 2017-06-21 21:59:13 · 2087 阅读 · 0 评论 -
eclipse下执行mapreduce的配置和join
配置eclipse插件:1) 安装jdk,配置环境变量2)打开eclipse把插件:hadoop-eclipse-plugin-2.5.0.jar放到eclipse安装目录/plugins ,重启eclipse3)打开window--Preference---hadoop map/reduce选择你的windows执行插件:d:\hadoop-2.54)打开window--show原创 2016-07-08 09:35:08 · 721 阅读 · 0 评论 -
linux6.7卸载系统自带的mysql-libs* crontab命令不能用了原因?
安装大数据平台cdh5时候,需要安装mysql:通常我们安装mysql时候,会去卸载对应的linux自带的,不然会包和已有的mysql包冲突!于是网上找卸载linux系统自带的mysql的方法:yum -y removemysql-libs-* 或者 rpm-e mysql-libs-5.1.*执行完后就安装mysql没有问题但是,这样也就悲剧了!!!!!!crontab原创 2016-12-02 14:27:49 · 3294 阅读 · 0 评论 -
redis集群配置安装的过程常见问题![ERR] Sorry, can't connect to node cdh5:6379
问题:[root@cdh1 cluster1]# /opt/model/redis-3.2.10/src/redis-trib.rb create --replicas 1 172.17.10.152:6379 172.17.10.153:6379 172.17.10.154:6379 172.17.10.153:6380 172.17.10.154:6380 172.17.10.152:6...原创 2016-12-13 16:15:13 · 17358 阅读 · 2 评论 -
cdh5.8.3安装完毕后,启动zookeeper一段时间后报错:节点选举受限制!Address already in use
查看zookeeper日志报错: ERROR org.apache.zookeeper.server.quorum.Leader: Couldn't bind to port 3181其中一台cdh1报错如下:2016-12-15 14:56:37,224 INFO org.apache.zookeeper.server.quorum.QuorumPeer: LEADING2016-1原创 2016-12-15 15:11:50 · 5181 阅读 · 0 评论 -
cdh5.8.3安装过程中问题解决方法Error loading MySQLdb和No portmap or rpcbind service
本人操作系统版本:redhat enterprise 6.7版本!问题1: 安装完毕cdh manager后,前台选择完毕服务后,测试cdh5 hue 数据库连接时候报错: 无法连接:查看后台日志报错: tail -f /opt/cm-5.8.3/log/cloudera-scm-server/cloudera-scm-server.logError loading MySQL原创 2016-12-15 15:23:18 · 3261 阅读 · 1 评论 -
maven创建scala项目:spark-streaming项目使用
1)安装包下载apache-maven-3.3.9.ziparchetype-catalog.xml2)安装apache-maven-3.3.9.zip 解压到目录:D:\softinstall\apache-maven-3.3.9配置系统环境变量:MAVEN_HOME=D:\softinstall\apache-maven-3.3.9原创 2016-12-27 16:00:31 · 865 阅读 · 0 评论 -
sqoop从oracle导入数据导hive表不支持的数据类型
sqoop从oracle导入数据导hive表不支持的数据类型:sqoop语句实例:sqoop import-all-tables --connect jdbc:oracle:thin:@ip:1521:orcl --username TJAMIS_LXF --password ******--hive-database TJAMIS_LXF -m 1 --create-hive-原创 2017-01-04 17:23:43 · 4090 阅读 · 1 评论 -
spark graphx 图计算demo,结果展现
spark graphx 图计算官网实例练习:http://spark.apache.org/docs/latest/graphx-programming-guide.htmlimport org.apache.spark._import org.apache.spark.graphx._// To make some of the examples work we原创 2017-01-04 17:27:48 · 3366 阅读 · 0 评论 -
java通过jdbc连接impala和pom.xml以及增查操作
pom.xml xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> 4.0.0 com.insurance hiveProj 0.0.1-SNAPSHOT jar hiveProj h原创 2016-12-29 11:36:12 · 15299 阅读 · 4 评论 -
使用plsql连接oracle一样,使用ClouderaImpalaODBC32.msi工具连接impala的方法!
想要使用plsql连接oracle一样,使用类似工具连接impala的方法:ClouderaImpalaODBC32.msi下载地址:http://www.cloudera.com/downloads/connectors/impala/odbc/2-5-36.html 1 ClouderaImpalaODBC32.msi 注意:不能使用64位的,否则后面使用SqlDbx.exe连原创 2016-12-29 16:38:52 · 2744 阅读 · 0 评论 -
sqoop merge
1)生成jar包:sqoop codegen --connect jdbc:oracle:thin:@ip:1521:orcl --username TJAMIS_LXF --password *****--table T03_POLICYPERDAY_TEST2)导入数据:sqoop import --connect jdbc:oracle:thin:@ip:orcl --usern原创 2017-01-06 16:49:46 · 998 阅读 · 0 评论 -
redhat6.5安装R-3.3.2.tar.gz 源码build安装成功记录
redhat6 上编译安装R语言:版本:3.3.21) 下载:R-3.3.2.tar.gz(https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 点击:R-3.3.2.tar.gz 下载:最新版!)2)安装:解压:cd /softwaretar -zxvf R-3.3.2.tar.gzmkdir -p /home/liyg原创 2017-01-08 10:23:45 · 14635 阅读 · 7 评论 -
linux 使用 ----如何让虚拟机上网(vmware)
linux 使用 ----如何让虚拟机上网(vmware)1)VMware 中选中我的计算机:RedHat6.5点击右键-----设置----网络适配器----网络连接:自定义:下拉选中VMnet8(NAT模式)2)控制面板\网络和 Internet\网络连接: 选择:VMware Network Adapter VMnet8----点击原创 2017-01-08 18:39:49 · 465 阅读 · 0 评论 -
sparkR安装:linux服务器编译源码安装
sparkR安装步骤:R3.3.0版本!!!!1) 下载:amplab-extras-SparkR-pkg-9694d8e.zip 放到服务器:/software cd /software unzip amplab-extras-SparkR-pkg-9694d8e.zip cd /software/amplab-extras-Spa原创 2017-01-09 15:07:18 · 523 阅读 · 0 评论 -
linux服务器上cloudera:cdh5.8使用python连接hiveServer2
1、下载:Python-3.5.0.tar.xz 并上传到hiveServer2服务器:/software目录下2、解压: cd /softwaretar Jxvf Python-3.5.0.tar.xz cd Python-3.5.0./configure --prefix=/usr/local/python3make && make install发现会报错原创 2017-02-28 16:53:44 · 2358 阅读 · 0 评论 -
python客户端访问impala环境配置和试验
python客户端访问impala环境配置和试验:使用python执行impala SQL步骤:1) 使用linux系统自带:Python 2.6.6Python 包路径环境变量设置:export PYTHONPATH=/usr/lib/python2.6/site-packages2) 下载impala客户端:bitarray-0.8.1.tar.gz impyla-原创 2017-03-01 17:26:38 · 2190 阅读 · 0 评论 -
cdh 当某个服务磁盘满了,无法启动cloudera-scm-agent或cloudera-scm-server
问题描述:一开始不知道是磁盘慢了,于是想重启下一下 cloudera-scm-agent start。提示磁盘满了。于是清理磁盘后,在重启,就发现,报错!无法重启!!!!报个错误也是莫名其妙,重来没遇到过!就几个字。。。。感觉是乱码一样。问题分析:shell debug:sh -x cloudera-scm-agentcat /opt/cloudera-manager/cm-5.8.0/r...原创 2019-01-17 16:21:15 · 6284 阅读 · 0 评论