BigData
上海菁数信息——实时数字智能
大数据 数据挖掘 机器学习
展开
-
上传本地文件到HDFS spark可以直接使用
spark进行运算时需要先将数据转换成RDD,然而很多数据是本地的,textFile调用不方便而且耗时耗性能(添加file:///使用)。所以有了将本地数据先上传至HDFS的现实业务需求。1. 创建文件(使用已有文件夹跳过此步)切换到hadoop 安装目录(如果在bash中设置过了,这步不是必须的),启动hadoop(启用HDFS,yarn不是必要的)然后输入命令:bin/原创 2016-10-12 13:23:45 · 8094 阅读 · 3 评论 -
hbase更换版本作业
把新版本的hbase配置好打包成tar.gz scp分发给所有的slavessh到slave节点:ssh slave-hadoop-删除原来的hbasesudo rm -r /usr/local/hbase将配置的hbase解压到指定位置sudo tar -xvzf ~/Documents/hbase.tar.gz -C /usr/local/ 更改所有者为hado原创 2017-03-24 14:25:23 · 961 阅读 · 0 评论 -
spark 2.0.2 2.1.0 sparksql 支持 hive table 但是!版本有限制!
因为要对hive metastore及元数据库有链接操作,所有有一定的接口限制。只做了对0.12.0到1.2.1版本的hive的支持。用了hive2版本的抓紧换吧。原创 2016-12-06 16:22:08 · 4935 阅读 · 0 评论 -
python3 使用thrift操作hbase报错已经解决
使用python来做平台操作hbase安装 thrift 与 hbase-thrift的库运行代码报了如下报错的问题Traceback (most recent call last): File "D:/PycharmProjects/tianxiao/tiantian/fs_hbase.py", line 4, in from hbase import Hbase原创 2017-11-16 15:08:06 · 5653 阅读 · 10 评论 -
spark master 占用8080,手动指定特定端口
vim spark的conf路径/sbin/start-master.sh原来有如下一行:if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then SPARK_MASTER_WEBUI_PORT=8080fi将8080改为你所希望启动的端口号如8089或者其他start-master.sh 启动master进程(或者sbin/sta原创 2018-01-03 11:02:03 · 4081 阅读 · 0 评论 -
Hive 3.0.0 支持的 Spark 版本是2.3.0 另有全部版本的对应表
Hive on Spark 对应的Hive支持对应的Spark版本 需要到Hive源码的pom文件中去查看(几千行)Hive 3.0.0 支持的 Spark 版本是2.3.0 <spark.version>2.3.0</spark.version> 全版本对应表如下,请注意严格执行master 2.3.0 3.0.x 2.3...原创 2018-07-25 11:15:09 · 6566 阅读 · 1 评论 -
presto config.properties配置 discovery.uri
官方推荐配置如下coordinator=truenode-scheduler.include-coordinator=truehttp-server.http.port=8080query.max-memory=5GBquery.max-memory-per-node=1GBquery.max-total-memory-per-node=2GBdiscovery-server.e...原创 2018-09-18 09:19:54 · 2359 阅读 · 0 评论 -
Spark 应用使用spark laucher提交应用 替代spark-submit脚本提交应用
使用Package org.apache.spark.launcher来提交spark应用接口摘要接口 描述 SparkAppHandle 运行Spark应用的句柄 SparkAppHandle.Listener 获得句柄状态更新的监听器 类摘要类 描述 AbstractLauncher<T extends ...原创 2018-09-13 16:09:19 · 2221 阅读 · 0 评论 -
HDP 3.1.0 HIVE使用tez 长时间无反应 成功解决
目录解决问题解决方法支持解决问题HDP 3.0.0 安装的HIVE使用tez,执行任务需要用到tez session时会找不到解决方法在打开后增加以下设置set hive.server2.tez.initialize.default.sessions=true;如需一直生效,在hive的配置文件hive-site.xml中添加&amp;amp;amp;lt;property&amp;amp;amp;gt; &amp;原创 2018-10-15 15:54:05 · 6297 阅读 · 0 评论 -
datax hbase writer versionColumn/rowkeyColumn相关配置的解释
官方文档很多地方不说人话 做个简单解释versionColumn描述:指定写入hbase的时间戳。支持:当前时间、指定时间列,指定时间,三者选一。当前时间 不配置指定时间列index:指定对应reader端column的索引,从0开始,value:需保证能转换为long,若是Date类型,会尝试用yyyy-MM-dd HH:mm:ss和yyyy-MM-dd HH:m原创 2017-03-31 17:08:50 · 2852 阅读 · 1 评论 -
kylin restful使用验证失败解决
curl -c /path/to/cookiefile.txt -X POST -H "Authorization: Basic QURNSU46S1lMSU4K=" -H 'Content-Type: application/json' http://:/kylin/api/user/authentication特别注意QURNSU46S1lMSU4K=是ADMIN:KYLIN的Base原创 2017-01-16 17:25:12 · 1059 阅读 · 0 评论 -
spark shell 运行 README.md 报错解决
val textFile = sc.textFile("/usr/local/spark/README.md")textFile: org.apache.spark.rdd.RDD[String] = /usr/local/spark/README.md MapPartitionsRDD[3] at textFile at :24scala> textFile.count()org.apa原创 2016-09-28 14:06:56 · 4770 阅读 · 0 评论 -
解决spark-shell执行官方sparkstreaming 报 only one sparkcontext maybe running in this jvm的错误
解决:不执行蓝字,更改红字为 val ssc = new StreamingContext(sc, Seconds(1))=====================================================================import org.apache.spark._import org.apache.spark.streaming._原创 2016-10-18 15:35:26 · 7849 阅读 · 0 评论 -
ubuntu的系统 装载hadoop spark等配件 空间全部被占满了
如题,TAB补全或者touch mkdir时出现了系统没有可用空间的提示检查 /var/log/cups/有TB级大量 error信息删除后重新启动 问题解决可能跟长期没有关闭 spark-shell 等任务有关 有待后面研究解决原创 2016-10-31 15:21:09 · 3111 阅读 · 0 评论 -
(待完成)使用sqoop将mysql中的数据导入HDFS中,含sqoop配置与安装
hadoop提供了shell命令与java api接口来上传文件到HDFS中 本地的文件和文件直接使用shell命令就可以了 将数据库中的数据导入HDFS,需要调用使用sqoop工具,本质也是调用了HDFS提供的java api,并做了很多包括并行在内的很多优化。原创 2016-11-17 16:44:27 · 599 阅读 · 0 评论 -
spark 2.0.2 出现各种未知问题 不支持scala的最新版
spark 只支持scala 2.11.x,没有+这个符号,高了低了都无法使用。原创 2016-11-25 08:46:41 · 3458 阅读 · 0 评论 -
HBase的退格键back键使用方法(解决无法使用退格键的问题)
Ctrl键 + 退格键即可和常规的操作有所不同原创 2017-01-05 09:15:55 · 1493 阅读 · 0 评论 -
Kylin中常用术语
数据仓库Data Warehouse: a data warehouse (DW orDWH), also known as an enterprise data warehouse (EDW), is a system used forreporting and data analysis 商业智能Business Intelligence: Businessintelligen原创 2016-12-30 17:06:39 · 670 阅读 · 0 评论 -
mac 安装neo4j之后输入默认密码neo4j后仍然 The client is unauthorized due to authentication
这里写自定义目录标题待解决问题解决方法待解决问题mac 安装neo4j之后输入默认密码neo4j后仍然 The client is unauthorized due to authentication解决方法打开neo4j desktop点击Manage进入管理界面选择settings修改dbms.security.auth_enabled=falseapply应用生效重新...原创 2019-03-28 15:00:51 · 3859 阅读 · 1 评论