![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 66
Solarzhou
这个作者很懒,什么都没留下…
展开
-
1097.(Hard)游戏玩法分析 V
留存问题,先计算出每个用户的初始登陆日期,接着将此日符合要求的用户同初始唯独没有下产生的用户做比较。从一名不羁的码农开始,谈风月之余谈技术。原创 2023-02-05 15:06:40 · 299 阅读 · 0 评论 -
pyarrow 实现hdfs和本地文件传输
python环境下支持好几种与hdfs文件同步接口,如:pyhdfs,hdfs,libhdfs,pyarrow,shell等。考虑到易用性以及本地环境(公司集群禁掉了http服务),本文介绍使用pyarrow 以一种优雅的方式进行本地文件与hdfs同步。下面2.1,2.3功能 示例较完整。简单的测试实例见2.3.分别为自定义的类,主要是实现。可用于复制单个文件。原创 2022-11-17 09:38:48 · 2153 阅读 · 0 评论 -
Hive 如何划分 Stage【转载】
物理计划优化器再对 TaskTree 进行变换,生成最终物理执行计划,以提交给计算引擎执行。一个 stage 可以是一个 MapReduce 任务(或者一个 Map Reduce Local Work),也可以是一个抽样阶段,或者一个合并阶段,还可以是一个 limit 阶段,以及 Hive 需要的其他某个任务的一个阶段。一个 Hive 任务会包含一个或多个 stage,不同的 stage 间会存在着依赖关系,越复杂的查询通常会引入越多的 stage (而 stage 越多就需要越多的时间时间来完成)。...转载 2022-08-10 15:44:30 · 786 阅读 · 0 评论 -
Hive1.2升级到Hive2.3的方法以及相关报错整理
实验环境Ubuntu16.04;Hive1.2.1(旧);Hive2.3.1(新);实际操作按照之前安装hive1.2的方法,将相关配置文件复制过来,不在赘述。需要具体步骤的,可以在文章末尾的公众号上回复[hive安装]获得完整版的安装文件以及hive教程。将hive2.3重新安装一遍就完事了吗?当然不是。我们发现,安装完启动 hive 命令后,出现如下报错:FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveE原创 2020-07-21 12:32:37 · 1065 阅读 · 0 评论 -
实习面经-京东广告部门-数据研发
面试部门–京东广告部门笔者目前研二网络空间安全硕士在读,按照实验室往年的惯例,这个寒假过后就要准备投实习岗位了(当然是越早准备越好)。我们实验室今年1.10号以后就可以回家了,那会儿看到一位同学发的推荐贴,就试着投了下京东的广告部门。很快就接到部门leader电话,约定1.15下午面试,其实这个时间是可以商量的,要是觉得自己准备的不是太充分,可以往后顺延。笔者准备投**”数据研发“,”后台开发...原创 2020-01-25 22:27:46 · 1132 阅读 · 0 评论 -
解决modulenotfounderror: no module named 'resource' &&Python worker failed to connect back
如果你也是spark2.4.0,那么在windows系统上肯定会出现该错误。实验环境windows10spark2.4.0相关报错Traceback (most recent call last): File "C:\Users\mjdbr\Anaconda3\lib\runpy.py", line 193, in _run_module_as_main "__main_...原创 2019-10-20 22:39:05 · 7838 阅读 · 1 评论 -
java.io.IOException: Failed to delete: C:\Users\dell\AppData\Local\Temp\spark- in windows
实验环境windows10spark2.4Scala 2.11.12问题描述\sbtSpark1_jar>spark-submit --class com.spark.WordCount.WordCount sbtSpark。jarjava.io.IOException: Failed to delete: C:\Users\dell\AppData\Local\Temp\s...原创 2019-10-14 14:13:16 · 5097 阅读 · 1 评论 -
在Windows平台安装Hadoop&&idea调试spark程序
使用idea可以方便的编译scala程序,只是在windows环境下,安装hadoop不太方便。本文搜集了网上给的教程,整理出一些能解决问题的方法。实验环境windows10;idea2019.1.3scala-sdk-2.11.0jdk1.8.0_201hadoop-2.7.1spark2.4.3下载安装包由于hadoop依赖于jdk,所以需要先安装配置jdk,具体下载地...原创 2019-10-12 21:19:03 · 422 阅读 · 0 评论 -
解决:caused by: java.io.ioexception: error=13, permission denied
Caused by: java.io.IOException: Cannot run program "/root/anaconda3/bin/python": error=13, Permission deniedpysparkcloudera manager原创 2019-08-07 15:33:29 · 16427 阅读 · 9 评论 -
python程序访问hive仓库,并将读取的数据写入文本
python程序访问hive仓库,并将读取的数据写入文本原创 2019-06-27 17:16:50 · 3648 阅读 · 0 评论 -
启动hadoop2.7,datanode启动失败:Initialization failed for Block pool
使用命令`start-dfs.sh` 启动hadoop2.7遇到datanode未启动成功。原创 2019-06-20 18:44:38 · 3857 阅读 · 0 评论 -
'HiveContext' object has no attribute 'jsonFile' && 'DataFrame' object has no attribute 'map'报错解决
最近在学习spark,在Spark SQL这一块遇到如题所示的一个小错,在“Stack Overflow“上找到了类似的解决方法,写下了做个小记。测试环境:Ubuntu 16.04;Spark2.4错误描述input = hiveCtx.jsonFile(inputFile)----------------------------------------------------------...原创 2019-01-23 15:42:59 · 1231 阅读 · 0 评论 -
Spark读取不了本地文件&&Spark默认读取HDFS文件系统
问题描述In [10]: inputFile = "file:///home/learning-spark/files/ham.txt"In [11]: input = hiveCtx.read.json(inputFile)19/01/23 17:12:51 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 3.0 (TID 21...原创 2019-01-23 19:58:05 · 6783 阅读 · 2 评论 -
HDFS添加 NFS Gateway 角色实例启动失败问题
测试环境centos6.10cdh版本为5.15问题描述往集群中的主机添加角色时,发现HDFS 存在警告信息,其余角色正常。通过查看日志信息,发现 NFS Gateway 这一块出错,具体异常如下:using as SECURE_USERusing as SECURE_GROUPCONF_DIR=/run/cloudera-scm-agent/process/1436-hdfs-...原创 2018-12-09 16:11:58 · 1377 阅读 · 0 评论